Programlar
Hızlandırılmış programların ders süresi daha azdır ancak öğrencinin kendi vaktinde daha fazla çalışmasını gerektirir.
Kurs Açıklaması
Günümüzün dijital ekosisteminde verinin üretim hızı ve çeşitliliği hızla artıyor. İşletmeler, bu devasa veri yığınlarını stratejik içgörülere ve aksiyon alınabilir analizlere dönüştürerek rekabet avantajı elde etmeye çalışıyor. Bu kapsamlı eğitim kampı, temel veri bilimi ve büyük veri teknolojilerinden derin öğrenmeye, bulut tabanlı büyük veri işleme araçlarından MLOps uygulamalarına kadar uzanan geniş bir müfredat sunuyor. Python programlama temelleriyle başlayan eğitim; NumPy, Pandas gibi kritik kütüphanelerde ustalaşmayı, SQL ve API entegrasyonlarını, keşifsel veri analizini (EDA) ve gelişmiş özellik mühendisliğini kapsayan pratik uygulamalarla devam ediyor.
Yapay öğrenme alanında; denetimli ve denetimsiz makine öğrenimi, derin öğrenme (PyTorch/TensorFlow), bilgisayarlı görü (CNN, transfer learning), doğal dil işleme (transformer mimarileri, LLM’ler) ve generative modeller (GAN, Diffusion) gibi en güncel tekniklere derinlemesine değiniliyor. Büyük ölçekli verilerin yönetimi ve işlenmesi için Spark, Airflow, veri ambarları/veri gölleri gibi modern data engineering araç ve mimarileri inceleniyor. Eğitilen modellerin üretim ortamına alınması, izlenmesi ve yönetilmesini sağlayan MLOps prensipleriyle katılımcılar, uçtan uca bir veri projesinin tüm yaşam döngüsünü deneyimliyor.
Kariyerlerinde fark yaratmak isteyen profesyoneller ile veri bilimi ve büyük veri alanına sağlam bir başlangıç yapmayı hedefleyenler için tasarlanan bu program; teorik altyapıyı pratik projelerle, laboratuvar çalışmalarıyla ve bitirme projesiyle birleştirerek kapsamlı bir öğrenme deneyimi sunuyor.
Kursun Amacı
Bu eğitim, “veriyi bilgiye, bilgiyi aksiyona” dönüştürebilecek uzman veri bilimciler ve veri analitiği profesyonelleri yetiştirmeyi hedefliyor. Program sonunda katılımcıların:
- Python ile Veri Bilimi Temellerine Hakim Olması: Veri analizi ve modellemeye yönelik kodlama becerilerini, NumPy ve Pandas gibi kütüphanelerle pekiştirmesi
- Veri Yönetimi ve Mühendisliği Süreçlerini Yürütmesi: SQL, API, web scraping ve büyük veri ekosistemindeki modern araçlarla veri toplama, temizleme ve dönüştürme iş akışlarını kurabilmesi
- Keşifsel Veri Analizi ve Görselleştirme Kabiliyeti Geliştirmesi: İstatistiksel yöntemlerle verilere içgörü kazandırıp, Matplotlib, Seaborn ve Plotly gibi kütüphanelerle sonuçları etkili biçimde sunabilmesi
- Gelişmiş Özellik Mühendisliği ve Modelleme Becerilerine Sahip Olması: Denetimli/denetimsiz makine öğrenimi, ensemble yöntemler, derin öğrenme, bilgisayarlı görü ve NLP alanlarında pratik deneyim elde etmesi
- Büyük Veri ve Dağıtık İşleme Platformlarını Kullanmaya Başlaması: Apache Spark, veri ambarları/gölleri ve orkestrasyon araçlarıyla büyük ölçekli verileri yönetip analiz edebilmesi
- MLOps Prensipleriyle Model Dağıtımı ve Yönetimi Yapabilmesi: Model sürümleme, konteynerleştirme, CI/CD, deney ve performans izleme gibi uçtan uca süreci kavraması
- Etik, Açıklanabilirlik ve Nedensel Analiz Bilinci Geliştirmesi: Yapay öğrenme modellerindeki önyargıları azaltma, şeffaflığı sağlama ve nedensel ilişkileri anlama konularında yetkinleşmesi
- Profesyonel Portföy ve Kariyer Hazırlığını Tamamlaması: Bitirme projesi, sahte mülakat oturumları, özgeçmiş hazırlığı ve networking desteğiyle veri bilimi kariyerine güçlü bir adım atması
Kurs sonunda katılımcılar, veri bilimi ve büyük veri ekosistemini uçtan uca uygulayabilecek düzeye gelecek; farklı sektörlerdeki (finans, sağlık, teknoloji, perakende vb.) zorlu veri problemlerini çözmeye hazır, kapsamlı bir bilgi birikimine sahip olacaklardır.
Konular
Bootcamp Hazırlığı & Ortam Kurulumu
Ortak bir teknik temel oluşturmak için hazırlık.
- Geliştirme Ortamının Kurulumu:
- Python kurulumu (Anaconda dağıtımı önerilir)
- Conda ortamları ile bağımlılık yönetimi
- Entegre geliştirme ortamı kurulumu ve yapılandırması (VS Code önerilir)
- Komut Satırı Arayüzü (CLI) Temelleri:
- Dizinlerde gezinme (cd, ls/dir, pwd)
- Dosya manipülasyonu (cp, mv, rm, mkdir)
- Temel komut çalıştırma
- Git & GitHub ile Versiyon Kontrolü:
- Repository, commit, branch, merge, pull request kavramları
- Yerel Git kurulumu ve GitHub hesabı oluşturma
- Temel komutlar: git clone, git add, git commit, git status, git push, git pull, git branch, git checkout, git merge
Lab Session:
Python/Conda kurulumunu doğrulama, temel CLI komutlarını uygulama ve GitHub üzerinde tam bir Git iş akışını (repo klonlama, değişiklik yapma, commit etme, push etme) gerçekleştiren egzersizler
Python ile Veri Bilimi için Programlama
Python Temelleri Tekrarı & Derinlemesine İnceleme
Veri bilimi bağlamında temel Python kavramlarını pekiştirme.
- Python veri tipleri: int, float, str, bool, list, tuple, dict, set
- Operatörler ve kontrol akışı (if/elif/else, for ve while döngüleri)
- Fonksiyon tanımlama, argümanlar (args, kwargs), kapsam, lambda fonksiyonları
- Nesne Yönelimli Programlama: sınıflar, nesneler, nitelikler, metotlar, kalıtım
- Dosyalarla çalışma: metin ve CSV dosyalarını okuma/yazma
- Dahili kütüphaneler: math, datetime, collections
- Python standart pratikleri (PEP 8)
NumPy ile Sayısal Hesaplama
Sayısal veri ve vektörleştirme tekniklerinde ustalaşmak.
- NumPy array (ndarray) oluşturma, indeksleme, dilimleme, veri tipleri
- Vektörleştirme ve evrensel fonksiyonlar (ufuncs)
- Temel matematiksel fonksiyonlar: sum, mean, std vb.
- Lineer cebir: matris çarpımı ve nokta çarpımları
- Yayınlama (broadcasting) prensipleri
- Rastgele sayı üretimi
Pandas ile Veri Manipülasyonu
Tablo verilerinin işlenmesi ve analizi.
- Pandas veri yapıları: Series ve DataFrame
- Veri yükleme ve kaydetme (CSV, Excel, JSON, SQL)
- İndeksleme & seçim: loc, iloc, boolean indeksleme, indeks ayarlama
- Veri temizleme: eksik değerler (dropna, fillna), yinelenen veriler
- Veri dönüşümü: apply, map, astype, sütun yeniden adlandırma
- DataFrame birleştirme: merge, join, concat
- Gruplama ve toplama: groupby, toplama fonksiyonları (sum, mean, count, vb.)
- Zaman serisi işlemleri: datetime özellikleri, yeniden örnekleme (resampling)
Lab Session:
Birden çok veri setini alıp temizleme, birleştirme, özellik mühendisliği ve group-by toplamaları uygulama
Veri Toplama & SQL Ustalığı
İlişkisel Veritabanları & İleri Düzey SQL
Veritabanı kavramları ve ileri düzey SQL sorguları.
- Temel kavramlar: tablolar, satırlar, sütunlar, birincil ve yabancı anahtarlar, şemalar, veri tipleri
- SQL sorgulama: SELECT, FROM, WHERE, GROUP BY, HAVING, ORDER BY
- İleri SQL teknikleri:
- JOIN'ler: INNER, LEFT, RIGHT, FULL OUTER, CROSS, self-join
- Alt sorgular (subqueries)
- Ortak Tablo İfadeleri (CTE'ler, WITH ifadesi)
- Pencere fonksiyonları: OVER, PARTITION BY, ROW_NUMBER, RANK, DENSE_RANK
- Veri tanımlama (DDL) ve manipülasyon (DML) komutları
Python’u Veritabanlarına & API’lere Bağlama
Veritabanı ve web servislerinden veri çekme yöntemleri.
- Python’dan veritabanı bağlantısı: psycopg2, sqlite3, mysql-connector-python
- SQLAlchemy ile ORM kullanımı
- Sorgu çalıştırma ve sonuçların Pandas DataFrame’e aktarılması (pd.read_sql)
- REST API’lerle etkileşim: HTTP metotları, requests kütüphanesi, JSON işleme
- Kimlik doğrulama: API anahtarları, OAuth
- Web scraping: HTML temel bilgileri, BeautifulSoup, etik hususlar (robots.txt)
Lab Session:
PostgreSQL veritabanından sorgulama, canlı REST API’den veri çekme, verilerin tek bir DataFrame’de birleştirilmesi
Keşifsel Veri Analizi (EDA) & Görselleştirme
EDA için İstatistiksel Temeller
Veri özelliklerini anlamak için temel istatistik kavramları.
- Tanımlayıcı istatistikler: ortalama, medyan, mod, varyans, standart sapma, aralık, IQR
- Olasılık dağılımları: Normal, Binom, Poisson, Üniform; PDF ve CDF
- Çıkarımsal istatistik: popülasyon/örneklem kavramları, merkezi limit teoremi
- Hipotez testi çerçevesi: p-değeri, güven aralığı, t-testi, ANOVA, Ki-kare testi
Veri Görselleştirme İlkeleri & Araçları
Veriyi etkili görselleştirme yöntemleri.
- Uygun grafik türlerinin seçilmesi: çubuk, çizgi, saçılım, histogram, kutu grafiği, ısı haritası
- Matplotlib: figure, axes kavramları; grafik özelleştirme (etiket, başlık, lejant)
- Seaborn: istatistiksel görselleştirme, Pandas entegrasyonu
- Plotly: interaktif grafikler, yakınlaştırma, panolar
- Mekansal görselleştirme: GeoPandas, Folium
Keşifsel Veri Analizi İş Akışı & Hikaye Anlatımı
Veriyi analiz etme ve içgörüyü aktarabilme süreci.
- Veri yükleme ve ilk inceleme: .info(), .describe(), .head()
- Tek ve çift değişken analizi: dağılım, ilişkiler, korelasyonlar
- Anomalilerin, trendlerin ve desenlerin belirlenmesi
- EDA raporu oluşturma ve veri hikayesi anlatımı
Lab Session:
Gerçek dünya veri seti üzerinde EDA gerçekleştirme; statik (Matplotlib, Seaborn) ve interaktif (Plotly) grafiklerle içgörü sunma
Özellik Mühendisliği (Feature Engineering) & Seçimi
Veri Ön İşleme Teknikleri
Ham veriyi modele hazırlama adımları.
- Eksik veri yönetimi: silme, ortalama/medyan/mod doldurma, regresyon, KNN
- Kategorik değişken kodlama: one-hot, dummy, label encoding, ordinal encoding, target encoding, hashing trick
- Özellik ölçeklendirme: standardizasyon (Z-skoru), normalizasyon (min-max), robust scaling
- Aykırı değer tespiti ve müdahalesi
Özellik Oluşturma & Dönüştürme
Mevcut veriden yeni özellikler türetme yöntemleri.
- Etkileşim özellikleri oluşturma (çarpma, bölme gibi)
- Polinom özellikler: doğrusal modeller için polinom terimleri üretme
- Gruplama/ayrıklaştırma (binning)
- Logaritmik, karekök ve Box-Cox dönüşümleri
- Tarih/zaman özellik mühendisliği: yıl, ay, gün, hafta, süre hesaplamaları
Boyut Azaltma & Özellik Seçimi
Önemli bilgiyi koruyarak özellik sayısını azaltma.
- Curse of Dimensionality kavramı
- PCA: temel bileşenler, bileşen sayısı seçimi
- Özellik seçimi yöntemleri:
- Filtre yöntemleri (korelasyon, ANOVA, Ki-kare)
- Wrapper yöntemler (Recursive Feature Elimination)
- Gömülü yöntemler (Lasso, ağaç tabanlı yöntemler)
- Otomatik Özellik Mühendisliği kavramlarına giriş
Lab Session:
Scikit-learn pipeline kurarak veri ön işleme, ölçeklendirme, kodlama ve özellik seçimi uygulaması
Denetimli Öğrenme Temelleri
Temel Machine Learning Kavramları
Model eğitimi ve değerlendirme ilkeleri.
- Denetimli, denetimsiz ve pekiştirmeli öğrenme genel bakışı
- Veri bölme: train, validation, test setleri
- Model eğitimi, tahmin ve değerlendirme
- Bias-variance tradeoff, underfitting/overfitting
- Model değerlendirme metrikleri:
- Sınıflandırma: accuracy, precision, recall, F1-score, ROC, AUC, log loss
- Regresyon: MAE, MSE, RMSE, R²
- Çapraz doğrulama: K-fold, stratified K-fold, LOOCV
- Hiperparametre ayarlama: Grid Search, Randomized Search
Temel Denetimli Algoritmalar
Doğrusal ve doğrusal olmayan modellerin uygulanması.
- Linear Regression: model varsayımı, MSE, gradient descent
- Logistic Regression: sigmoid, log loss, karar sınırı
- K-Nearest Neighbors (KNN): mesafe metrikleri, k seçimi, boyut sorunları
- Support Vector Machines (SVM): maximum margin, kernel (lineer, polynomial, RBF), hiperparametreler (C, gamma)
- Decision Trees: özyinelemeli bölme, Gini impurity, entropy, budama, görselleştirme
Lab Session:
Regresyon ve sınıflandırma veri setleri üzerinde modellerin uygulanması, çapraz doğrulama ve hiperparametre ayarlaması
SOTA Ensemble Yöntemleri & Denetimsiz Öğrenme
Ensemble Learning Teorisi & Teknikleri
Ensemble yöntemlerinin çalışma mantığı ve uygulamaları.
- Bagging: Bootstrap aggregating, varyans azaltma, paralel eğitim
- Random Forests: ağaçlar, özellik alt örnekleme, Out-of-Bag hatası
- Boosting: sıra ile model oluşturma, bias azaltma
- AdaBoost, Gradient Boosting, XGBoost (regülarizasyon, ağaç budama, paralel işleme)
- LightGBM: histogram tabanlı bölme, GOSS, EFB
- CatBoost: ordered boosting, oblivious trees
- Stacking & Blending: meta model kullanımı
- AutoML kavramlarına giriş
Denetimsiz Öğrenme Teknikleri
Etiket olmadan veri keşfi ve boyut azaltma yöntemleri.
- Kümeleme:
- K-Means: k seçimi, Elbow, Silhouette skoru
- Hiyerarşik Kümeleme: dendrogramlar, linkage yöntemleri
- DBSCAN: yoğunluk tabanlı, eps ve min_samples seçimi
- Kümeleme performans ölçümleri: Silhouette skoru, Davies-Bouldin indeksi
- Boyut azaltma yöntemleri:
- PCA, t-SNE, UMAP
- Anomali/Aykırı değer tespiti:
- Isolation Forest, Local Outlier Factor, One-Class SVM
Lab Session:
Kaggle tarzı tablo veri seti üzerinde hiperparametre ayarlaması, kümeleme algoritmalarının uygulanması (PCA/t-SNE/UMAP görselleştirmeleri) ve anomali tespiti
İstatistiksel Çıkarım & Bayesian Düşünceye Giriş
İleri İstatistiksel Çıkarım
Daha titiz sonuçlar elde etmek için istatistiksel yöntemler.
- Hipotez testlerini derinlemesine inceleme: varsayımlar, yorumlama
- Güven aralıkları oluşturma ve yorumlama
- A/B Testing: tasarım, örneklem büyüklüğü, hipotez testleri, regresyona gerileme, çoklu test problemi
- Güç analizi: istatistiksel güç ve örneklem hesaplamaları
- Bootstrapping: ampirik örnekleme dağılımı tahmini
Zaman Serisi Analizine Giriş
Zamana bağlı verilerde temel bileşenler ve modeller.
- Zaman serisi bileşenleri: trend, mevsimsellik, döngüsellik, gürültü
- Zaman serisi ayrıştırma: additive vs. multiplicative modeller
- Durağanlık: kavram, ADF testi, fark alma
- Otokorelasyon (ACF) ve kısmi otokorelasyon (PACF)
- Klasik modeller: AR, MA, ARMA, ARIMA
Bayesian Yöntemlere Giriş
Bayesian akıl yürütme ilkeleri ve yöntemleri.
- Frekansçı vs. Bayesian yaklaşım
- Bayes teoremi: likelihood, prior, posterior, evidence
- Bayesian çıkarım iş akışı: model tanımlama, öncellerin seçimi, sonucun hesaplanması ve yorumlanması
- Markov Chain Monte Carlo (MCMC) yöntemlerine giriş
- Uygulamalar: Bayesian A/B testi, hiperparametre optimizasyonu
Lab Session:
Simüle edilmiş A/B testi verilerini analiz etme, güven aralıkları oluşturma; gerçek dünya zaman serisi verisi üzerinde ayrıştırma ve ACF/PACF grafikleri oluşturma; Bayesian yöntemlerin tartışılması
PyTorch/TensorFlow ile Deep Learning Temelleri
Sinir Ağlarına Giriş
Sinir ağlarının temel yapı taşlarını ve eğitim sürecini öğrenme.
- Biyolojik ilham ve perceptron kavramı
- Çok katmanlı perceptronlar (MLP) / İleri beslemeli sinir ağları: giriş, gizli, çıkış katmanları
- Aktivasyon fonksiyonları: Sigmoid, Tanh, ReLU (ve varyantları), Softmax
- Kayıp fonksiyonları: Cross-Entropy, MSE/MAE
- Geri yayılım algoritması: gradyan hesaplama prensipleri
- Gradient descent optimizasyonu: SGD, mini-batch, momentum, RMSprop, Adam
- Regülarizasyon: L1/L2 ve Dropout
Deep Learning Çerçeveleri & Eğitim
PyTorch veya TensorFlow kullanarak derin öğrenme modelleri oluşturma.
- Tensorlar, otomatik türev alma (autograd/GradientTape)
- nn.Module veya tf.keras.Model kullanarak sinir ağı modelleri oluşturma
- Katmanlar, kayıp fonksiyonları, optimizatör tanımlama
- Eğitim döngüsü: forward pass, kayıp hesaplama, backward pass, optimizasyon
- GPU hızlandırma, model kaydetme ve yükleme
- Eğitim izleme (TensorBoard)
CNN’lere ve RNN’lere Giriş
Mekansal ve sıralı veriler için özel sinir ağı mimarilerinin temelleri.
- CNN’ler:
- Evrişim işlemi: filtreler, stride, padding, özellik haritaları
- Havuzlama katmanları: max pooling, average pooling
- Temel CNN mimarisi: Conv -> ReLU -> Pool -> Fully Connected
- RNN’ler:
- Sıralı veri işleme ve gizli durum
- Basit RNN’lerin gradyan problemleri
- LSTM: hücre durumu, kapılar (input, forget, output)
- GRU: LSTM’lere basitleştirilmiş alternatif
Lab Session:
Tablo veri seti üzerinde MLP, MNIST/Fashion-MNIST için CNN ve küçük bir metin veri setinde (ör. IMDB) LSTM/GRU uygulaması; TensorBoard ile eğitim takibi
Computer Vision için İleri Deep Learning
İleri CNN Mimarileri & Transfer Learning
SOTA CNN mimarileri ve önceden eğitilmiş modellerin kullanımı.
- Derin ağların zorlukları: kaybolan gradyanlar, model derinliği
- Residual Networks (ResNet): skip connections
- Inception Networks (GoogLeNet): paralel filtreler
- EfficientNets: model ölçeklendirmesi
- Transfer Learning:
- Özellik çıkarımı ve ince ayar (fine-tuning)
- PyTorch/TensorFlow hub kullanımı
Temel Computer Vision Görevleri
Görüntü sınıflandırmasının ötesinde görevler.
- Nesne tespiti: sınırlayıcı kutular, Intersection over Union (IoU)
- Görüntü segmentasyonu: semantik ve örnek segmentasyon; FCN, U-Net
SOTA Trendleri: Vision Transformers & Self-Supervised Learning
Modern CV paradigmaları.
- Vision Transformers (ViT):
- Transformer mimarisinin görüntülere uygulanması
- Görüntü yamalama, pozisyon kodlamaları, self-attention
- CNN’lerle kıyaslama ve veri gereksinimleri
- Self-Supervised Learning (SSL):
- Kontrastif öğrenme (SimCLR, MoCo)
- Maskeli görüntü modelleme (MAE, BEiT)
Lab Session:
Önceden eğitilmiş bir ResNet modelinin fine-tune edilmesi, nesne tespiti için YOLO veya SSD ile çıkarım; ViT ve SSL iş akışlarının tartışılması
Transformers & LLM’ler ile SOTA NLP
RNN’lerden Attention & Transformerlara
Dil modellerinde RNN’lerin sınırları ve Transformer’ın avantajları.
- RNN’lerin/LSTM’lerin uzun menzilli bağımlılık sorunları
- Attention mekanizması:
- Scaled dot-product attention: queries, keys, values
- Transformer Mimarisinin Temelleri:
- Encoder-Decoder yapısı, self-attention, multi-head attention, positional encoding
- Layer normalization ve feed-forward network’ler
Önceden Eğitilmiş Dil Modelleri & LLM’ler
Büyük dil modellerinin kullanımı.
- Ön eğitimin gücü: BERT (Masked Language Modeling), GPT (Causal Language Modeling)
- LLM’lerin mimarisi ve ölçekleme yasaları: GPT-3/4, Llama, Claude, Gemini, Mistral
- Zero-shot ve Few-shot öğrenme, metin gömme teknikleri
SOTA Teknikleri: Prompting, RAG, PEFT & Hugging Face
Modern tekniklerle LLM’lerle etkileşim.
- Prompt Engineering: zero-shot, few-shot, instruction tuning, Chain-of-Thought
- Retrieval-Augmented Generation (RAG):
- Retriever + Generator, vector databases kullanımı
- Parameter-Efficient Fine-Tuning (PEFT):
- LoRA, QLoRA
- Hugging Face ekosistemi: transformers, datasets, evaluate, pipelines
Lab Session:
Hugging Face transformers ile önceden eğitilmiş modelin fine-tune edilmesi (ör. duygu analizi veya NER), LLM API’leri ile prompt engineering deneyleri; temel RAG sistemi kurulumu
SOTA Generative Modeller (Diffusion Odaklı) & İleri Sıralı Modeller
Generative Modellere Genel Bakış
Generative ve discriminative modellerin genel farkları.
- GANs: Generator vs. Discriminator, eğitim zorlukları (mode collapse, instability)
- Variational Autoencoders (VAEs): kodlayıcı-kod çözücü, latent space, olasılıksal yaklaşım
- Flow-based modeller (kısa değinme)
Derinlemesine İnceleme: Diffusion Modelleri
Yüksek kaliteli görüntü üretimi için SOTA yöntemler.
- İleri süreç: veriye kademeli olarak Gaussian gürültüsü ekleme
- Ters süreç: U-Net mimarisi ile gürültüyü adım adım kaldırma
- Noise schedule, koşullandırma (text-to-image)
- Uygulamalar: DALL-E, Stable Diffusion, Imagen, görüntü düzenleme, inpainting, super-resolution
- Zorluklar: örnekleme hızı, bilgi damıtma, kontrol edilebilirlik
İleri Sıralı & Graf Modelleri
Modern sıralı ve graf verisi için alternatif model yapılandırmaları.
- Verimli sıralı modeller:
- State Space Models (SSM’ler), Lineer RNN’ler, Mamba örneği, hibrit mimariler
- Graph Neural Networks (GNN’ler):
- Mesaj geçirme (message passing), GCN, GAT, ölçeklenebilirlik ve aşırı düzgünleştirme sorunları
Lab Session:
Stable Diffusion kullanarak text-to-image üretimi, farklı prompt’lar, rehberlik ölçekleri ve negatif prompt’larla deneyler; temel bir GCN modelinin uygulanması
Data Engineering & Big Data Temelleri
Veri Pipeline’ları & Orkestrasyonu
Otomatik ve güvenilir veri iş akışlarının oluşturulması.
- ETL vs. ELT paradigmaları
- Veri pipeline bileşenleri: kaynaklar, dönüşümler, hedefler
- İş akışı orkestrasyon araçları:
- Apache Airflow: DAG’ler, operatörler, görevler, zamanlama
- Alternatifler: Prefect, Dagster
- Veri kalitesi kontrolleri ve izleme
- Batch vs. Streaming veri işleme (Kafka, Spark Streaming)
Veri Depolama Mimarileri
Büyük veri setlerinin depolanması ve yönetilmesi.
- Veri ambarları: Redshift, BigQuery, Snowflake
- Veri gölleri: S3, ADLS, GCS; Parquet, ORC
- Data lakehouses: Databricks Delta Lake, Apache Iceberg, Apache Hudi
- Vector databases: Pinecone, Milvus, Weaviate, Chroma kavramı
Dağıtık Hesaplama & Big Data İşleme
Tek makineden büyük ölçekli verilerin işlenmesi.
- Dağıtık hesaplama ihtiyacı ve Hadoop ekosistemi (HDFS, MapReduce/YARN)
- Apache Spark:
- RDD’ler, DataFrame API, lazy evaluation, driver/executor mimarisi
- Spark SQL, bulut entegrasyonu
- Bulut tabanlı Big Data hizmetleri: AWS EMR, Google Dataproc, Azure HDInsight/Synapse
Lab Session:
PySpark ile basit veri okuma, dönüşüm ve çıktı işlemleri; Apache Airflow DAG oluşturma; vector database’in LLM/RAG pipeline’a entegrasyonu üzerine tartışma
MLOps - Modelleri Dağıtma, İzleme & Yönetme
MLOps’un Temelleri
ML modellerini operasyonelleştirme süreçleri.
- Neden MLOps? Model dağıtımındaki zorluklar ve ML yaşam döngüsü yönetimi
- Versiyonlama, otomasyon (CI/CD), test etme, dağıtım, izleme, yönetişim
- Tekrarlanabilirlik: kod, veri, parametre ve ortam izleme
Model Dağıtım Stratejileri
Eğitilen modellerin çıkarım için kullanıma sunulması.
- Docker ile konteynerleştirme: Dockerfile yazımı, imaj oluşturma, konteyner çalıştırma
- Dağıtım desenleri:
- Çevrimiçi/gerçek zamanlı çıkarım (REST API’ler: Flask, FastAPI)
- Toplu çıkarım (batch)
- Uç noktası dağıtımı (edge deployment)
- Model sunum çerçeveleri: TF Serving, TorchServe, KFServing, Seldon Core
- Sunucusuz dağıtım: AWS Lambda, Google Cloud Functions, Azure Functions
- Kubernetes: konteyner orkestrasyonu (kavramsal)
Deney İzleme, Model İzleme & Sürümleme
Model ve deneylerin izlenmesi ile sürümlendirilmesi.
- Deney izleme: parametre, metrik, kod versiyonu, artefakt günlüğü
- MLflow, Weights & Biases, Comet ML
- Model izleme: performans, veri drift, kavram drift ölçümleri
- Sürümleme: Git ile kod versiyon kontrolü, DVC ile veri/model sürümlendirme
- Feature store’lar: Feast, Tecton vb.
Lab Session:
MLflow ile model eğitimi, kayıt, Docker konteynerleştirme, API aracılığıyla çıkarım, DVC ve drift tespit araçlarının tartışılması
Nedensel Çıkarım, Açıklanabilirlik & Etik
Nedensel Çıkarıma Giriş
Korelasyon ve nedensellik arasındaki farklar ve yöntemler.
- "Korelasyon nedensellik anlamına gelmez" örnekleri
- Neyman-Rubin Causal Model: tedavi, kontrol grupları, Ortalama Tedavi Etkisi (ATE)
- Karıştırıcı değişkenler ve nedensel önyargı
- Yöntemler:
- Rastgele kontrollü deneyler (RCT’ler, A/B testleri)
- Gözlemsel yöntemler: propensity score matching, difference-in-differences, regression discontinuity
- ML tabanlı nedensel yöntemler (Causal Forests, Double ML)
- Nedensel keşif (kısa değinme)
Açıklanabilir AI (XAI) & Model Yorumlanabilirliği
Karmaşık modellerin yorumlanması ve açıklanması.
- Açıklanabilirlik ihtiyacı: güven, hata ayıklama, adalet, düzenleme
- Model-özel vs. modelden bağımsız yöntemler
- Yorumlama teknikleri:
- Doğrusal modellerin katsayı yorumlaması
- Ağaç tabanlı modellerde özellik önemi ve karar yolları
- Yerel (LIME) ve küresel (SHAP) açıklamalar
- Karşı olgu açıklamaları, kavram tabanlı yöntemler (ör. TCAV)
Sorumlu AI: Etik, Adalet & Gizlilik
AI uygulamalarında etik ilkelerin uygulanması.
- AI’da etik ilkeler: hesap verebilirlik, şeffaflık, adalet, zarar vermeme
- ML’de sapma kaynakları: veri, algoritma, insan önyargısı
- Adalet metrikleri: demografik eşitlik, eşit fırsat, ödünleşmeler
- Sapma azaltma teknikleri: ön işleme, eğitim sırasında kısıtlamalar, son işleme ayarlamaları
- Gizlilik: veri anonimleştirme, diferansiyel gizlilik, federated learning
Lab Session:
Karmaşık bir model üzerinde SHAP analizi ile açıklama, adalet metriklerinin değerlendirilmesi; potansiyel sapma azaltma stratejilerinin tartışılması
Bitirme Projesi - Bölüm 1
Proje Fikri Geliştirme & Kapsam Belirleme
Öğrenilen teknikleri uygulayan gerçek dünya problemlerini belirleme süreci.
- Gerçek dünya problemlerinin tespiti
- Bireysel veya takım tabanlı beyin fırtınası
- Hedef, teslimat ve başarı metriklerinin tanımlanması
- Proje planlama, kapsam belirleme ve etik inceleme
Bitirme Projesi için Veri Toplama & İleri EDA
Proje hedeflerine yönelik veri toplama ve derinlemesine analiz.
- İlgili veri setlerinin bulunuşu ve edinimi (kamu kaynakları, API’ler, web scraping)
- Veri alım pipeline’larının oluşturulması
- Hedefe yönelik EDA ve ileri görselleştirme teknikleri
- Başlangıç hipotezlerinin formüle edilmesi
Temel Modelleme & İterasyon Planı
Başlangıç model performansının değerlendirilmesi ve geliştirme planı.
- Uygun temel modellerin seçimi ve uygulanması
- Model performansının ölçülmesi
- İyileştirme alanlarının belirlenmesi
- İterasyon planı: feature engineering, SOTA model seçimi, hiperparametre ayarlama
Lab Session:
Özel mentorluk eşliğinde proje üzerinde yoğun uygulamalı çalışma, problem ifadesinin iyileştirilmesi, veri güvence altına alma, kapsamlı EDA ve temel model uygulamasının planlanması
Bitirme Projesi - Bölüm 2 & Kariyer Hazırlığı
Bitirme Projesi için İleri Modelleme & Değerlendirme
SOTA modelleri uygulayarak nihai çözümün değerlendirilmesi.
- Gelişmiş modellerin (Transformer, XGBoost/LightGBM, RAG, Diffusion) uygulanması
- İleri hiperparametre optimizasyonu (ör. Bayesian optimizasyon)
- Model değerlendirme, hata analizi ve yorumlama (SHAP, LIME)
- Dağıtım stratejilerinin simülasyonu
Proje Sunumu & Dokümantasyonu
Proje metodolojisini, sonuçlarını ve etkisini etkili bir şekilde iletmek.
- Teknik bir sunum yapılandırma
- Sonuçlar için ilgi çekici görselleştirmeler oluşturma
- Karmaşık fikirleri farklı kitlelere açıkça iletme
- Proje dokümantasyonu yazma (ör. README, teknik rapor)
- Bir proje portföyü parçası oluşturma
Kariyer Başlangıç Pisti
Veri bilimi alanında başarılı iş arayışına hazırlanma.
- Veri bilimi iş piyasası: roller, gerekli beceriler, endüstri trendleri
- Etkili bir özgeçmiş hazırlama
- Profesyonel çevrimiçi varlık oluşturma (LinkedIn, GitHub portföyü)
- Networking stratejileri
- Teknik ve davranışsal mülakat hazırlığı (STAR metodu, take-home assignments, vaka çalışmaları, maaş pazarlığı)
Lab Session:
Proje sonlandırma, sunum pratiği, akran ve eğitmen geri bildirimi, sahte mülakat oturumları ve özgeçmiş inceleme atölyeleri
Bootcamp Sonrası Destek
Sürekli Öğrenme & Topluluk
Güncel kalmak ve destek sağlamak için kaynaklar ve networking.
- Kürateli kaynaklara erişim (bloglar, bültenler, anahtar araştırmacılar, konferanslar)
- Bootcamp mezunları ağı ile devam eden destek ve networking
Kariyer Hizmetleri Uzantısı
Mezuniyet sonrası iş arama desteği ve işveren ortak ağlarına erişim imkanı.
Bizimle iletişime geçin