Python ile Veri Analizi: Sıfırdan Başlayanlar İçin Adım Adım Rehber (Excel/Pandas/Jupyter)
Veri analizi, toplanan verileri düzenleyip anlamlandırarak eyleme dönüştürülebilir sonuçlar üretme sürecidir. Bu süreç; veri seti oluşturma, temizleme, dönüştürme ve uygun yöntemlerle tutarlı çıktılar elde etme aşamalarını içerir. İyi bir veri analizi, sadece “ne oldu?” sorusunu cevaplamaz; aynı zamanda “neden oldu?” ve “sonra ne olur?” gibi sorulara da güçlü ipuçları sunar.
Veri analizi için Excel, SQL ve Tableau gibi popüler araçlar kullanılabilir. Bunlara ek olarak Python, veri analizi dünyasında en yaygın kullanılan programlama dillerinden biridir. Python’un öne çıkan avantajı; matematiksel kütüphaneler, istatistik, veri manipülasyonu ve görselleştirme için hazır çözümler sunmasıdır. Bu sayede hesaplamalar, veri temizliği ve raporlama süreçleri çok daha hızlı ve tekrar üretilebilir hale gelir.
Python Neden Veri Analizi İçin Bu Kadar Popüler?
Python; nesne yönelimli, yapısal ve fonksiyonel programlama yaklaşımlarını destekler. Üstelik yalnızca veri analiziyle sınırlı değildir: veri madenciliğinden web geliştirmeye, otomasyondan gömülü sistemlere kadar geniş bir alanda kullanılabilir. Python’un esnek ve açık kaynak olması da büyük bir avantajdır; çünkü devasa topluluğu sayesinde binlerce kütüphane, örnek ve çözüm kolayca erişilebilir.
Özellikle yeni başlayanlar için Python’un en büyük artılarından biri şudur: çok güçlü kütüphaneleri olmasına rağmen öğrenme eğrisi görece yumuşaktır. Veri analizi tarafında en sık kullanılan kütüphane ise Pandas’tır. Pandas ile Excel dosyası okuyabilir, filtreleme yapabilir, gereksiz satır-sütunları silebilir, veriyi dönüştürebilir ve yeni bir dosyaya kaydedebilirsiniz.
Python ile Veri Analizine Sıfırdan Başlamak: Kendi Deneyimim
Python’u veri analizinde “sıfırdan” kullanabilir miyim diye merak etmemin sebebi şuydu: Veriyi işlerken Python’un script mantığının bana diğer dillere göre daha anlaşılır gelmesi. Ayrıca Python’un sezgisel yapısı işimi gerçekten kolaylaştırdı. En önemlisi de, karşılaştığım her problemi doğru anahtar kelimelerle arama yaparak çözebilmem oldu.
Peki ben Python’da profesyonel miyim? Hayır. Tam tersine, ben de sıfırdan başladım ve kod yazarken zaman zaman saatlerce araştırma yapmak zorunda kaldım. Bu yüzden, benim gibi yeni başlayanlara yardımcı olabilecek pratik veri analizi kodlarını blogumda paylaşmaya karar verdim. Bu yazı, Python ile veri analizi üzerine ilk blog yazım ve devamında benzer örnekleri paylaşmaya devam edeceğim.
Çalışma Ortamı ve İş Akışı
Kodları yazarken Jupyter Notebook kullandım. Bilgisayarımda Anaconda kurulu ve Python sürümüm 3.7. Bu işte ihtiyaç duyduğum temel iş akışı şu şekildeydi:
- Verileri içeren Excel dosyasını okuma
- Belirli bir aralıktaki verileri filtreleme
- Gereksiz satır ve sütunları kaldırma
- Satır ve sütunların yerini değiştirme (transpose)
- Yeni oluşan veri setini yeni bir Excel dosyasına yazma
Aşağıda bu adımların tamamını karşılayan örnek kodları, daha düzenli ve hatasız bir şekilde paylaşıyorum. (Not: Metnin orijinalinde küçük bir değişken adı hatası vardı; burada düzelttim.)
Python Kodları: Excel Okuma, Temizleme, Filtreleme ve Yeni Dosyaya Yazma
1) Pandas Kütüphanesini İçe Aktarma
import pandas as pd
2) Excel Dosyasını Okuma ve İlk Satırları Görme
read_excel komutuyla Excel dosyanızı okursunuz. Ardından head() ile veri çerçevesinin ilk satırlarını kontrol etmek,
veri analizi sürecinde çok kritik bir alışkanlıktır.
df = pd.read_excel("C:/microbiology.xlsx")
df.head(5)
3) Gereksiz Sütunları Silme
Örneğin taxlevel ve daughterlevels sütunlarına ihtiyacınız yoksa, drop ile silebilirsiniz.
Sütun silerken axis=1 kullanılır. inplace=True ise değişikliği aynı veri çerçevesine uygular.
df.drop(["taxlevel", "daughterlevels"], axis=1, inplace=True)
df.head(5)
4) Gereksiz Satırları Silme
Bu kez satır silmek istiyorsanız axis=0 kullanılır. Aşağıdaki örnekte 0. indeksli satır siliniyor.
df.drop([0], axis=0, inplace=True)
df.head(5)
5) Belirli Bir Aralığa Göre Filtreleme (between)
Diyelim ki Excel dosyanızdaki total sütunundaki değerleri 0.01 ile 1.0 arasında filtrelemek istiyorsunuz.
Bunun için minimum ve maksimum değerleri değişkenlere atayıp between fonksiyonunu kullanabilirsiniz.
vmin = 0.01
vmax = 1.0
df2 = df[df["total"].between(vmin, vmax)]
df2.head(5)
6) Satır ve Sütunların Yerini Değiştirme (Transpose)
Bazı analizlerde satırları sütun, sütunları satır yapmak isteyebilirsiniz. Bu işlem için .T (transpose) kullanılır.
df3 = df2.T
df3.head(5)
Transpose sonrası veri çerçevesinin indeksleri bazen “başlık” gibi görünebilir. Eğer Excel’e yazarken başlık satırı istemiyorsanız,
header=False seçeneğini kullanabilirsiniz.
7) Yeni Excel Dosyasına Kaydetme
df3.to_excel("C:/final_microbiology.xlsx", index=True, header=False)
Sonuç: Python ile Excel Üzerinde Veri Analizi Yapmak Gerçekten Kolay
Görüldüğü gibi, Excel dosyası okumak, veri temizlemek, filtrelemek, dönüştürmek ve yeni bir Excel çıktısı almak gibi temel veri analizi adımlarını Python + Pandas ile oldukça kolay bir şekilde gerçekleştirebilirsiniz. Üstelik bu yaklaşımın en güzel yanı, yaptığınız işlemleri tek tıkla tekrar edilebilir hale getirmenizdir. Bu da hem zaman kazandırır hem de hataları azaltır.
Bu blogda, veri analizi sırasında yeni başlayanların işine yarayacak kodları paylaşmaya devam edeceğim. Eğer siz de Python’a yeni başladıysanız, umarım bu örnekler işinizi kolaylaştırır. Yeni içerikler için yazıyı kaydetmeyi ve blogu takip etmeyi unutmayın.
SEO Anahtar Kelimeler: Python ile veri analizi, Pandas Excel okuma, Jupyter Notebook veri analizi, Anaconda Python 3.7, Excel filtreleme Python, Data cleaning, Data transformation, beginner data analyst, veri temizleme, veri dönüştürme.