PYTHON ile VERİ BİLİMİ#
Önsöz#
"Homines, dum docent, discunt." SENECA
R ile İstatistiksel Programlama kitabım 2015 yılında yayımlandığında, Türkiye’de Veri Bilimine olan ilgi bugüne nazaran daha dar ve akademik bir çevre ile sınırlıydı. Geçen kısa sürede tüm Dünya’da olduğu gibi ülkemizde de bu alana olan ilgi katlanarak arttı. Bu durum da veri biliminde en fazla kullanılan iki programlama dili olan R ve Python’a olan ilginin artmasını sağladı.
Veri bilimi dediğimiz zaman yeni, daha önce bilinmeyen bir disiplinden bahsetmiyoruz aslında. Yaptığımız işte ve hatta günlük yaşamımızda bile verilerle hareket eder, verilerle karar veririz. Atalarımızın, ne zaman ekin ekeceklerine, hangi bitkinin faydalı, hangisinin zararlı, hangi hayvanların tehlikeli olduğuna karar vermeye çalıştıkları günlerden beri böyle.
Veri biliminin tanımı konusunda farklı görüşler olsa da her halde temel olarak istatistik ve bilgisayar programlama becerilerini bir araya getiren disiplinler arası bir alan olarak düşünebiliriz. Veri biliminde, istatistiksel analiz ve modelleme yöntemleri ile etkin bilgisayar algoritmalarını bir arada kullanmaya çalışırız. Daha sonra bu iki alana, çalıştığımız asıl alanı da ekleyebiliriz çünkü veri bilimini uyguladığımız alandaki tecrübe ve bilgi birikimi de veri biliminin başarısı açısından oldukça önemli. İşte bu nedenle, veri bilimi farklı bir disiplin değil çalıştığımız alana uyguladığımız bir yöntemler topluluğudur diyebiliriz sanırım. Bir doktor, mühendis, reklamcı, sosyal medya uzmanı, ekonomist ya da bankacı da olsak işimizin önemli bir bölümünü veri analizi oluşturuyor aslında. Bu nedenle hangi alanda çalışıyorsak çalışalım, veri bilimi becerilerini edinmek işimizde başarılı olmak için mutlaka gerekli.
Python, özellikle veri bilimi için geliştirilmemiş ve C, C++, Java gibi programlama dillerine göre daha yavaş olmasına karşın, son yıllarda en çok kullanılan dillerden birisi haline gelmiştir. Konu ile ilgili en önemli araştırmalardan birinde Python’un 2017 yılında en çok tercih edilen programlama dili olduğu belirtiliyor[1]. Bunun önemli sebeplerinden birisi, Python’da veri bilimi için kullanılabilecek kütüphanelerin çokluğu. Google başta olmak üzere, büyük firmaların analitik çalışmaları için Python’u tercih etmelerinin de bu dile gösterilen ilginin artmasına olan katkısı yadsınamaz. Diyebiliriz ki Python’u bu kadar önemli ve gözde kılan, aslında veri biliminin yükselişi olmuştur.
Bu kitap, üç kısımdan oluşmaktadır: Programlama, Veri Analizi ve Yapay Öğrenme. İlk kısımda Python ile programlamanın temelleri yer almaktadır. Bu kısmı yazarken hiç programlama deneyimi olmayanların dahi kolayca anlayabilmesini amaçladım. Veri bilimi ve yapay öğrenmeye hiç ilginiz yoksa dahi sadece ilk bölümü çalışarak Python’a giriş yapabilir veya başlangıç seviyesindeki bilginizi orta düzeye taşıyabilirsiniz.
İkinci kısımda Python’da en çok kullanılan veri analizi ve veri görselleştirme kütüphaneleri tanıtılmaktadır. Bu kütüphaneleri öğrenmek, Python’u veri biliminde kullanmayı hedefleyen herkes için son derece gereklidir. Veri bilimi ile yakından ilgilenmeyen okuyucuların bile bu bölümü çalışmalarını tavsiye ederim. Böylece Python becerilerinizi ileri seviyeye taşıyabilirsiniz.
Üçüncü kısımda ise istatistiksel analiz ve en çok kullanılan yapay öğrenme yöntemleri ile bunların Python’daki uygulamaları yer almaktadır. Bu kısmı yazarken oldukça zorlandığımı itiraf etmeliyim. Çok fazla ayrıntı, konu hakkında fazla bilgisi olmayan okuyucuların takibini zorlaştırarak konudan kopmalarına yol açabilirdi. Aksi durumda ise ileri seviyede bilgi sahibi olan okuyucunun ilgisi dağılabilirdi. Bu nedenle konuları hiç bilmeyen okuyucunun dahi anlayabileceği basitlikte anlatmaya çalışırken her konunun uygulamasına dair farklı örnekler vererek okuyucuyu sıkmamaya çalıştım. Konular hakkındaki matematiksel teoriyi aktarırken de yine aynı şekilde herkesin istediği kadarını alabileceği bir yapı kurmaya çalıştım. Ayrıca, kitaptaki tüm örneklerde, okuyucuların çalışmaları tekrar edebilmeleri için internette ya da Python kütüphanelerinde bulunan veri kümelerini kullanmaya özen gösterdim.
Herhangi bir programlama dilinde kitap yazmanın kötü yanı, gelişimin sürekli ve çok hızlı olduğu bu alanda, yazdıklarınızın zamanın gerisinde kalması riskidir. Ancak veri biliminin ve Python’un hem Dünya’da hem de ülkemizde uzun yıllar güncelliğini koruyacağına inanıyorum. Amacım, tüm okuyucular için bir rehber ve aynı zamanda çalışmalarında Python kullananların da sürekli el altında bulunduracakları bir başvuru kaynağı sağlamaktı. Umarım biraz da olsa başarabilmişimdir.
İlker Arslan
Nisan 2018, İstanbul