Makine Öğreniminde Verilere Giriş
Makine öğreniminde verilere giriş.

Makine öğreniminde veri, bir modelin eğitilmesi, değerlendirilmesi ve test edilmesi için temel bir bileşendir. Veriler, modelin öğrenme sürecinde kullanılır ve modelin performansını doğrudan etkiler. İşte makine öğreniminde verilerin nasıl kullanıldığına ve veri ile ilgili temel kavramlara dair ayrıntılar:
1. Veri Türleri
Makine öğreniminde kullanılan veriler çeşitli türlerde olabilir. Her bir türün belirli bir işlevi ve kullanımı vardır:
-
Sayılar (Numerical Data): Sürekli (örneğin, sıcaklık, fiyat) veya ayrık (örneğin, sayılar, miktarlar) olabilir. Regresyon analizlerinde yaygın olarak kullanılır.
yaş = 30
fiyat = 19.99
- Metin (Text Data): Doğal dil işleme (NLP) uygulamalarında kullanılır. Örneğin, e-posta içerikleri, makale metinleri.
mesaj = "Merhaba, nasılsın?"
- Kategorik Veriler (Categorical Data): Belirli kategorilere ayrılan veriler. Sınıflandırma problemlerinde kullanılır. Örneğin, "kırmızı", "yeşil", "mavi" renkleri.
renk = "kırmızı"
- Görüntü (Image Data): Görüntü işleme ve bilgisayarla görme (computer vision) uygulamalarında kullanılır. Örneğin, resimler veya videolar.
# Görüntü dosyası olarak temsil edilir
resim = "fotograf.jpg"
- Ses (Audio Data): Sesli asistanlar ve konuşma tanıma sistemlerinde kullanılır. Ses dalgaları veya ses kayıtları.
# Ses dosyası olarak temsil edilir
ses = "kayıt.wav"
2. Veri Toplama
Makine öğrenimi projelerinde veri toplamak, ilk adımdır ve verinin kalitesi ve miktarı, modelin başarısını etkiler. Veri toplama yöntemleri şunlardır:
- Veri Tabanları: Var olan veri tabanlarından veri çekme.
- Web Scraping: İnternetten veri toplama (örneğin, web sitelerinden veri çekme).
- Anketler ve Formlar: Kullanıcıların yanıtlarını toplama.
- Sensörler ve Donanımlar: Fiziksel cihazlardan veri toplama.
- Açık Veri Setleri: Kamuya açık verileri kullanma (örneğin, Kaggle, UCI Machine Learning Repository).
3. Veri Ön İşleme
Veri toplandıktan sonra, model eğitimi öncesinde bazı ön işleme adımları gereklidir:
-
Temizlik (Cleaning): Eksik değerlerin, hatalı veya tutarsız verilerin düzeltilmesi.
import pandas as pd
# Eksik değerleri doldurma
df.fillna(method='ffill', inplace=True)
- Normalizasyon (Normalization): Verilerin belirli bir aralıkta olmasını sağlama. Örneğin, [0, 1] aralığı.
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
veri_normalize = scaler.fit_transform(veri)
- Standartlaştırma (Standardization): Verilerin ortalamasını 0, standart sapmasını 1 yapma.
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
veri_standardize = scaler.fit_transform(veri)
- Öznitelik Seçimi (Feature Selection): Modelin performansını artırmak için en önemli özniteliklerin seçilmesi.
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_classif
select = SelectKBest(score_func=f_classif, k=10)
veri_secilmis = select.fit_transform(veri, hedef)
- Veri Dönüştürme (Transformation): Verileri, modelin daha iyi öğrenebilmesi için uygun formata dönüştürme. Örneğin, metin verilerini sayısal formata dönüştürme.
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
veri_donusturulmus = vectorizer.fit_transform(metin)
4. Veri Bölme
Veriyi genellikle üç bölüme ayırarak modelin eğitimini, doğruluğunu ve testini gerçekleştirirsiniz:
- Eğitim Seti (Training Set): Modelin eğitilmesi için kullanılan veri.
- Doğrulama Seti (Validation Set): Modelin hiperparametrelerinin ayarlandığı veri. Modelin genel performansını değerlendirmek için kullanılır.
- Test Seti (Test Set): Modelin son performansının değerlendirildiği veri. Eğitim sürecinden tamamen bağımsızdır.
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
5. Veri Analizi ve Görselleştirme
Veri analizi ve görselleştirme, verinin anlaşılması ve modelin sonuçlarının değerlendirilmesi için önemlidir. Yaygın olarak kullanılan araçlar ve kütüphaneler şunlardır:
- Pandas: Veri manipülasyonu ve analizi.
- Matplotlib ve Seaborn: Veri görselleştirme.
import matplotlib.pyplot as plt
import seaborn as sns
sns.histplot(veri)
plt.show()
6. Veri Güvenliği ve Etik
Veri kullanımı sırasında gizlilik ve güvenlik önemlidir. Verilerin gizli ve kişisel bilgileri içerebileceği göz önünde bulundurularak:
- Veri Gizliliği: Kişisel bilgilerin korunması.
- Veri Güvenliği: Verilerin yetkisiz erişimden korunması.
- Etik Kullanım: Verilerin adil ve etik bir şekilde kullanılması.
Sonuç
Veri, makine öğreniminin temel taşıdır ve doğru veri toplama, işleme ve analiz etme, başarılı makine öğrenimi modelleri oluşturmak için kritik öneme sahiptir. Verinin kalitesi ve işlenme şekli, modelin performansını büyük ölçüde etkiler, bu nedenle veri hazırlığı aşamasına yeterince özen göstermek gerekir.
Bu Yazıya Tepkin Nedir?






