Uygulamalı Makine Öğrenmesi
Bireysel sayfadasınız. Kurumsal sayfaya geçebilirsiniz.
Renkler tuhaf mı görünüyor? Samsung Internet tarayıcısı koyu modda site renklerini değiştiriyor olabilir. Kapatmak için Internet menüsünden Ayarlar → Kullanışlı Özellikler → Labs → Web site koyu temasını kullan seçeneğini etkinleştirebilirsiniz.
Bireysel sayfadasınız. Kurumsal sayfaya geçebilirsiniz.
Veri çağında rekabet avantajı sağlamanın anahtarı, veriden anlamlı içgörüler çıkarabilmektir.
Bu kapsamlı eğitim, katılımcılara makine öğrenmesinin temellerinden başlayarak gerçek dünya problemlerini çözebilecek seviyeye kadar pratik bir yolculuk sunar.
Python ve scikit-learn ekosistemiyle veri ön işleme, model kurma, hiperparametre optimizasyonu ve model değerlendirme süreçlerini uygulamalı olarak öğreneceksiniz.
XGBoost, LightGBM gibi modern algoritmaları kullanarak tahmin modelleri geliştirebilir, SHAP ile modellerinizi açıklayabilir ve dengesiz veri setleriyle başa çıkabilir hale geleceksiniz.
Bu eğitim, veri odaklı karar verme süreçlerinde aktif rol almak isteyen ve makine öğrenmesi ile iş değeri yaratmak isteyen profesyoneller için tasarlanmıştır.
Veri analistleri ve bilimcileri: ML becerilerini derinleştirmek ve modern algoritmalarla tanışmak isteyenler için idealdir.
Yazılım geliştiriciler: Uygulamalarına tahmin ve sınıflandırma yetenekleri eklemek isteyenler faydalanabilir.
İş analistleri ve ürün yöneticileri: Veri odaklı stratejiler geliştirmek ve ML projelerini daha iyi yönetmek için teknik altyapı kazanabilir.
Mühendisler, araştırmacılar ve akademisyenler: Üretim optimizasyonu, kalite kontrol veya bilimsel araştırmalarda ML kullanmak için sağlam bir temel oluşturabilir.
Finans, pazarlama, satış ve operasyon departmanlarında çalışan profesyoneller: Tahmin modelleri ile süreçlerini iyileştirmek isteyen herkes yararlanabilir.
Python programlama dilinde temel seviye bilgi (değişkenler, döngüler, fonksiyonlar)
Temel istatistik kavramlarına aşinalık (ortalama, standart sapma, korelasyon)
Pandas kütüphanelerinde başlangıç düzeyi deneyim (tercih edilir, gerekli değil)
Makine öğrenmesinin temellerini kavrayıp farklı ML öğrenme türlerini ayırt edebilmek
Train/validation/test split mantığını uygulayıp overfitting/underfitting problemlerini tespit ve çözebilmek
Farklı cross-validation stratejilerini (K-Fold, StratifiedKFold, TimeSeriesSplit) seçip uygulayabilmek
Eksik veri ve aykırı gözlemleri tespit edip modele hazır hale getirebilmek
Özellik mühendisliği ile yeni özellikler türetebilmek, kategorik değişkenleri encoding yöntemleriyle dönüştürebilmek
Modern ML algoritmalarını (Linear/Logistic Regression, Decision Trees, Random Forest, XGBoost, LightGBM, CatBoost) kurup optimize edebilmek
Optuna ile hiperparametre optimizasyonu yapabilmek; Grid Search ve Bayesian Optimization arasında seçim yapabilmek
Dengesiz veri setlerinde (SMOTE, class weights, threshold optimization) başarılı modeller geliştirebilmek
Model açıklanabilirliğini (SHAP, LIME, Permutation Importance) sağlayarak iş birimlerine aktarabilmek
Scikit-learn Pipeline ve ColumnTransformer ile end-to-end ML süreçleri tasarlayabilmek ve data leakage’ı önleyebilmek
Confusion matrix, ROC-AUC, PR-AUC, learning curves ile model performansını analiz edip yorumlayabilmek
ML tanımı
Geleneksel programlamadan farkı
Gerçek dünya uygulamaları ve örnekler
ML'i ne zaman kullanmalı, ne zaman kullanmamalı
Supervised vs Unsupervised
Classification vs Regression
Training vs Prediction aşamaları
Feature'lar ve target'lar
Altın kural: Test verisine final değerlendirmeden önce asla dokunma
Overfitting ve underfitting
Validation neden kritik öneme sahip
Metrik vs loss
Nasıl error fonksiyonu seçilir
Veri Toplama → Ön İşleme→ Özellik Mühendisliği → Modelleme → Değerlendirme→ Canlıya Alma
ML projelerinin iteratif doğası
Yaygın yapılan hatalar ve bunlardan kaçınma yöntemleri
Training set
Validation set
Test set - kilitli tutulur
Sadece train/test split'in neden tehlikeli olduğu
K-fold cross-validation nedir
Doğru K değerini seçme
Hesaplama maliyeti dengesi
Bölmelerin görselleştirilmesi
Ne zaman kullanılmamalı
TimeSeriesSplit
GroupKFold
StratifiedKFold
Iterative stratification ile StratifiedKFold
Nested Cross-Validation
Yeni feature'lar oluşturma
Alana özel oluşturulacak özellik analizi
Hali hazırdaki özelliklerin etkileşiminden yeni özellik oluşturma
Feature scaling ve normalization
Ön işleme neden önemli
Label encoding
One-hot encoding
Target encoding temelleri
Gelişmiş encoding stratejileri
Hangi yöntem ne zaman kullanılmalı
İlgisiz feature'ları kaldırma
Korelasyon analizi
Feature importance temelleri
İstatistiksel yöntemler: IQR, Z-score, Modified Z
ML tabanlı: Isolation Forest, Local Outlier Factor, DBSCAN
Alana özgü sınır değerleri
Multivariate outlier detection
Görsel analiz: box plot'lar, scatter plot'lar, QQ plot'lar
Ne zaman silinmeli: gerçek hatalar, veri girişi hataları
Yüzdelik eşik değer kuralları (örn: %5'ten fazlaysa sil)
Silmeden önce etki analizi
Yüzdeliklerde capping (örn: 1. ve 99. percentile)
Winsorization uygulaması
Data boyutunu korurken etkiyi azaltma
Sağa çarpık data için log transformation
Square root, cube root transformation'ları
Optimal normallik için Box-Cox transformation
Outlier etkisini minimize etmek için RobustScaler
Sürekli değerlerden kategorik değere geçme
Equal-width vs equal-frequency binning
Alan bilgisine dayalı custom bin'ler
Outlier'lar için ayrı model'ler kurma
Feature olarak outlier flagging
Ensemble yaklaşımı: normal + outlier model'leri
Eksik veri olarak kabul edip impute etme
Robust istatistik kullanma (median, trimmed mean)
Outlier'lar için model-based imputation
Farklı modellerin farklı outlier başa çıkma yöntemlerini gerektirmesi
Eksik verileri silme ve bu yaklaşımın zararları ve uygulanabileceği zamanlar
Basit imputation stratejileri ve sınırları
İleri düzey imputation: IterativeImputer, KNNImputer, MICE
Ne zaman atılmalı, ne zaman impute edilmeli
Missingness indicator'ları oluşturma
Alana özel imputation stratejileri
Eksik veriyi özellik olarak ekleme
Scikit-learn Pipeline ve ColumnTransformer
Doğru pipeline tasarımı ile data leakage'ı önleme
Custom transformer'lar oluşturma
Pipeline persistence ve versioning
Baz model mantığı
Basit linear/logistic regression baseline
AutoGluon/FLAML ile AutoML baseline
Baseline sonuçlarını yorumlama
Sürekli sayısal tahminler için linear regresyon
Sınıflandırma için logistic regresyon
Genelleştirilmiş linear modeller
Ridge, Lasso yaklaşımları
Ağaçlar nasıl karar verir
Hyperparameters (max_depth, min_samples)
Overfitting'i önleme
Ensemble learning konsepti
Ormanlar neden tek ağaçlardan daha iyi
Random Forest'tan feature importance
Random Feature selection konsepti
Bagging yaklaşımı
OOB score ve kullanımları
Random Forest'ın ne zaman üstün olduğu
Boosting konsepti açıklaması
Önemli parametreler
Regression ve classification modları
Uygulamalı model oluşturma
Boosting yaklaşımında GPU desteği kullanma
XGBoost yerine ne zaman kullanılmalı
Hız avantajları
Kategorik özellikleri işleme
Dahili kategorik encoding
Overfitting'i önleme
Model karşılaştırması
Accuracy
Precision
Recall
F1
ROC-AUC
PR-AUC
MAE
RMSE
MAPE
R²
quantile loss
Bias-variance analizi için learning curve'ler
Hiperparametre etkisi için validation curve'ler
Confusion matrix derinlemesine inceleme
Calibration plot'ları ve reliability diagram'ları
Erör analizi teknikleri
Grid search vs Random search vs Bayesian optimization
Optuna ile hiperparametre ayarlama
Multi-objective optimization
Daha hızlı optimizasyon için pruning stratejileri
Önce hangi hiperparametrelerden başlamak lazım?
Tablo verileri için NN’ler ne zaman kullanmalı
PyTorch tabular model'leri
SOTA mimariler
Kategorik değişkenler için entity embedding'ler
Ağaç bazlı modellerle karşılaştırma
Class weight ayarlamaları
SMOTE ve varyantları (BorderlineSMOTE, ADASYN)
Threshold optimization
TomekLinks
Cost-sensitive learning
Dengesiz veriler için ensemble yöntemleri
SHAP value'ları: global ve local açıklamalar
Local interpretability için LIME
Permutation importance
Partial dependence plot'ları
Individual conditional expectation plot'ları