Data Science (Veri Bilimi) Bootcamp

Model Online/Fiziksel

Modüller 18 modül

Bireysel Kurumsal

Bilgi al

Sayfadaki kurs içeriği genel bilgi içindir. Eğitim kurumun ihtiyaçlarına göre tasarlanabilir. Detaylı bilgi için İletişim

İsteyen kurumlara Boğaziçi Üniversitesi Yaşamboyu Eğitim Merkezi ile birlikte eğitim ve sertifika düzenlenebilir.

Paylaş

Programlar

Hızlandırılmış 48 saat
Bootcamp 150 saat

Hızlandırılmış programların ders süresi daha azdır ancak öğrencinin kendi vaktinde daha fazla çalışmasını gerektirir.

Kurs Açıklaması

Günümüzün dijital ekosisteminde verinin üretim hızı ve çeşitliliği hızla artıyor. İşletmeler, bu devasa veri yığınlarını stratejik içgörülere ve aksiyon alınabilir analizlere dönüştürerek rekabet avantajı elde etmeye çalışıyor. Bu kapsamlı eğitim kampı, temel veri bilimi ve büyük veri teknolojilerinden derin öğrenmeye, bulut tabanlı büyük veri işleme araçlarından MLOps uygulamalarına kadar uzanan geniş bir müfredat sunuyor. Python programlama temelleriyle başlayan eğitim; NumPy, Pandas gibi kritik kütüphanelerde ustalaşmayı, SQL ve API entegrasyonlarını, keşifsel veri analizini (EDA) ve gelişmiş özellik mühendisliğini kapsayan pratik uygulamalarla devam ediyor.

Yapay öğrenme alanında; denetimli ve denetimsiz makine öğrenimi, derin öğrenme (PyTorch/TensorFlow), bilgisayarlı görü (CNN, transfer learning), doğal dil işleme (transformer mimarileri, LLM’ler) ve generative modeller (GAN, Diffusion) gibi en güncel tekniklere derinlemesine değiniliyor. Büyük ölçekli verilerin yönetimi ve işlenmesi için Spark, Airflow, veri ambarları/veri gölleri gibi modern data engineering araç ve mimarileri inceleniyor. Eğitilen modellerin üretim ortamına alınması, izlenmesi ve yönetilmesini sağlayan MLOps prensipleriyle katılımcılar, uçtan uca bir veri projesinin tüm yaşam döngüsünü deneyimliyor.

Kariyerlerinde fark yaratmak isteyen profesyoneller ile veri bilimi ve büyük veri alanına sağlam bir başlangıç yapmayı hedefleyenler için tasarlanan bu program; teorik altyapıyı pratik projelerle, laboratuvar çalışmalarıyla ve bitirme projesiyle birleştirerek kapsamlı bir öğrenme deneyimi sunuyor.

Kursun Amacı

Bu eğitim, “veriyi bilgiye, bilgiyi aksiyona” dönüştürebilecek uzman veri bilimciler ve veri analitiği profesyonelleri yetiştirmeyi hedefliyor. Program sonunda katılımcıların:

Python ile Veri Bilimi Temellerine Hakim Olması: Veri analizi ve modellemeye yönelik kodlama becerilerini, NumPy ve Pandas gibi kütüphanelerle pekiştirmesi
Veri Yönetimi ve Mühendisliği Süreçlerini Yürütmesi: SQL, API, web scraping ve büyük veri ekosistemindeki modern araçlarla veri toplama, temizleme ve dönüştürme iş akışlarını kurabilmesi
Keşifsel Veri Analizi ve Görselleştirme Kabiliyeti Geliştirmesi: İstatistiksel yöntemlerle verilere içgörü kazandırıp, Matplotlib, Seaborn ve Plotly gibi kütüphanelerle sonuçları etkili biçimde sunabilmesi
Gelişmiş Özellik Mühendisliği ve Modelleme Becerilerine Sahip Olması: Denetimli/denetimsiz makine öğrenimi, ensemble yöntemler, derin öğrenme, bilgisayarlı görü ve NLP alanlarında pratik deneyim elde etmesi
Büyük Veri ve Dağıtık İşleme Platformlarını Kullanmaya Başlaması: Apache Spark, veri ambarları/gölleri ve orkestrasyon araçlarıyla büyük ölçekli verileri yönetip analiz edebilmesi
MLOps Prensipleriyle Model Dağıtımı ve Yönetimi Yapabilmesi: Model sürümleme, konteynerleştirme, CI/CD, deney ve performans izleme gibi uçtan uca süreci kavraması
Etik, Açıklanabilirlik ve Nedensel Analiz Bilinci Geliştirmesi: Yapay öğrenme modellerindeki önyargıları azaltma, şeffaflığı sağlama ve nedensel ilişkileri anlama konularında yetkinleşmesi
Profesyonel Portföy ve Kariyer Hazırlığını Tamamlaması: Bitirme projesi, sahte mülakat oturumları, özgeçmiş hazırlığı ve networking desteğiyle veri bilimi kariyerine güçlü bir adım atması

Kurs sonunda katılımcılar, veri bilimi ve büyük veri ekosistemini uçtan uca uygulayabilecek düzeye gelecek; farklı sektörlerdeki (finans, sağlık, teknoloji, perakende vb.) zorlu veri problemlerini çözmeye hazır, kapsamlı bir bilgi birikimine sahip olacaklardır.

Konular

Bootcamp Hazırlığı & Ortam Kurulumu

Ortak bir teknik temel oluşturmak için hazırlık.

Geliştirme Ortamının Kurulumu:
- Python kurulumu (Anaconda dağıtımı önerilir)
- Conda ortamları ile bağımlılık yönetimi
- Entegre geliştirme ortamı kurulumu ve yapılandırması (VS Code önerilir)
Komut Satırı Arayüzü (CLI) Temelleri:
- Dizinlerde gezinme (cd, ls/dir, pwd)
- Dosya manipülasyonu (cp, mv, rm, mkdir)
- Temel komut çalıştırma
Git & GitHub ile Versiyon Kontrolü:
- Repository, commit, branch, merge, pull request kavramları
- Yerel Git kurulumu ve GitHub hesabı oluşturma
- Temel komutlar: git clone, git add, git commit, git status, git push, git pull, git branch, git checkout, git merge

Lab Session:

Python/Conda kurulumunu doğrulama, temel CLI komutlarını uygulama ve GitHub üzerinde tam bir Git iş akışını (repo klonlama, değişiklik yapma, commit etme, push etme) gerçekleştiren egzersizler

Python ile Veri Bilimi için Programlama

Python Temelleri Tekrarı & Derinlemesine İnceleme

Veri bilimi bağlamında temel Python kavramlarını pekiştirme.

Python veri tipleri: int, float, str, bool, list, tuple, dict, set
Operatörler ve kontrol akışı (if/elif/else, for ve while döngüleri)
Fonksiyon tanımlama, argümanlar (args, kwargs), kapsam, lambda fonksiyonları
Nesne Yönelimli Programlama: sınıflar, nesneler, nitelikler, metotlar, kalıtım
Dosyalarla çalışma: metin ve CSV dosyalarını okuma/yazma
Dahili kütüphaneler: math, datetime, collections
Python standart pratikleri (PEP 8)

NumPy ile Sayısal Hesaplama

Sayısal veri ve vektörleştirme tekniklerinde ustalaşmak.

NumPy array (ndarray) oluşturma, indeksleme, dilimleme, veri tipleri
Vektörleştirme ve evrensel fonksiyonlar (ufuncs)
Temel matematiksel fonksiyonlar: sum, mean, std vb.
Lineer cebir: matris çarpımı ve nokta çarpımları
Yayınlama (broadcasting) prensipleri
Rastgele sayı üretimi

Pandas ile Veri Manipülasyonu

Tablo verilerinin işlenmesi ve analizi.

Pandas veri yapıları: Series ve DataFrame
Veri yükleme ve kaydetme (CSV, Excel, JSON, SQL)
İndeksleme & seçim: loc, iloc, boolean indeksleme, indeks ayarlama
Veri temizleme: eksik değerler (dropna, fillna), yinelenen veriler
Veri dönüşümü: apply, map, astype, sütun yeniden adlandırma
DataFrame birleştirme: merge, join, concat
Gruplama ve toplama: groupby, toplama fonksiyonları (sum, mean, count, vb.)
Zaman serisi işlemleri: datetime özellikleri, yeniden örnekleme (resampling)

Lab Session:

Birden çok veri setini alıp temizleme, birleştirme, özellik mühendisliği ve group-by toplamaları uygulama

Veri Toplama & SQL Ustalığı

İlişkisel Veritabanları & İleri Düzey SQL

Veritabanı kavramları ve ileri düzey SQL sorguları.

Temel kavramlar: tablolar, satırlar, sütunlar, birincil ve yabancı anahtarlar, şemalar, veri tipleri
SQL sorgulama: SELECT, FROM, WHERE, GROUP BY, HAVING, ORDER BY
İleri SQL teknikleri:
- JOIN'ler: INNER, LEFT, RIGHT, FULL OUTER, CROSS, self-join
- Alt sorgular (subqueries)
- Ortak Tablo İfadeleri (CTE'ler, WITH ifadesi)
- Pencere fonksiyonları: OVER, PARTITION BY, ROW_NUMBER, RANK, DENSE_RANK
- Veri tanımlama (DDL) ve manipülasyon (DML) komutları

Python’u Veritabanlarına & API’lere Bağlama

Veritabanı ve web servislerinden veri çekme yöntemleri.

Python’dan veritabanı bağlantısı: psycopg2, sqlite3, mysql-connector-python
SQLAlchemy ile ORM kullanımı
Sorgu çalıştırma ve sonuçların Pandas DataFrame’e aktarılması (pd.read_sql)
REST API’lerle etkileşim: HTTP metotları, requests kütüphanesi, JSON işleme
Kimlik doğrulama: API anahtarları, OAuth
Web scraping: HTML temel bilgileri, BeautifulSoup, etik hususlar (robots.txt)

Lab Session:

PostgreSQL veritabanından sorgulama, canlı REST API’den veri çekme, verilerin tek bir DataFrame’de birleştirilmesi

Keşifsel Veri Analizi (EDA) & Görselleştirme

EDA için İstatistiksel Temeller

Veri özelliklerini anlamak için temel istatistik kavramları.

Tanımlayıcı istatistikler: ortalama, medyan, mod, varyans, standart sapma, aralık, IQR
Olasılık dağılımları: Normal, Binom, Poisson, Üniform; PDF ve CDF
Çıkarımsal istatistik: popülasyon/örneklem kavramları, merkezi limit teoremi
Hipotez testi çerçevesi: p-değeri, güven aralığı, t-testi, ANOVA, Ki-kare testi

Veri Görselleştirme İlkeleri & Araçları

Veriyi etkili görselleştirme yöntemleri.

Uygun grafik türlerinin seçilmesi: çubuk, çizgi, saçılım, histogram, kutu grafiği, ısı haritası
Matplotlib: figure, axes kavramları; grafik özelleştirme (etiket, başlık, lejant)
Seaborn: istatistiksel görselleştirme, Pandas entegrasyonu
Plotly: interaktif grafikler, yakınlaştırma, panolar
Mekansal görselleştirme: GeoPandas, Folium

Keşifsel Veri Analizi İş Akışı & Hikaye Anlatımı

Veriyi analiz etme ve içgörüyü aktarabilme süreci.

Veri yükleme ve ilk inceleme: .info(), .describe(), .head()
Tek ve çift değişken analizi: dağılım, ilişkiler, korelasyonlar
Anomalilerin, trendlerin ve desenlerin belirlenmesi
EDA raporu oluşturma ve veri hikayesi anlatımı

Lab Session:

Gerçek dünya veri seti üzerinde EDA gerçekleştirme; statik (Matplotlib, Seaborn) ve interaktif (Plotly) grafiklerle içgörü sunma

Özellik Mühendisliği (Feature Engineering) & Seçimi

Veri Ön İşleme Teknikleri

Ham veriyi modele hazırlama adımları.

Eksik veri yönetimi: silme, ortalama/medyan/mod doldurma, regresyon, KNN
Kategorik değişken kodlama: one-hot, dummy, label encoding, ordinal encoding, target encoding, hashing trick
Özellik ölçeklendirme: standardizasyon (Z-skoru), normalizasyon (min-max), robust scaling
Aykırı değer tespiti ve müdahalesi

Özellik Oluşturma & Dönüştürme

Mevcut veriden yeni özellikler türetme yöntemleri.

Etkileşim özellikleri oluşturma (çarpma, bölme gibi)
Polinom özellikler: doğrusal modeller için polinom terimleri üretme
Gruplama/ayrıklaştırma (binning)
Logaritmik, karekök ve Box-Cox dönüşümleri
Tarih/zaman özellik mühendisliği: yıl, ay, gün, hafta, süre hesaplamaları

Boyut Azaltma & Özellik Seçimi

Önemli bilgiyi koruyarak özellik sayısını azaltma.

Curse of Dimensionality kavramı
PCA: temel bileşenler, bileşen sayısı seçimi
Özellik seçimi yöntemleri:
- Filtre yöntemleri (korelasyon, ANOVA, Ki-kare)
- Wrapper yöntemler (Recursive Feature Elimination)
- Gömülü yöntemler (Lasso, ağaç tabanlı yöntemler)
Otomatik Özellik Mühendisliği kavramlarına giriş

Lab Session:

Scikit-learn pipeline kurarak veri ön işleme, ölçeklendirme, kodlama ve özellik seçimi uygulaması

Denetimli Öğrenme Temelleri

Temel Machine Learning Kavramları

Model eğitimi ve değerlendirme ilkeleri.

Denetimli, denetimsiz ve pekiştirmeli öğrenme genel bakışı
Veri bölme: train, validation, test setleri
Model eğitimi, tahmin ve değerlendirme
Bias-variance tradeoff, underfitting/overfitting
Model değerlendirme metrikleri:
- Sınıflandırma: accuracy, precision, recall, F1-score, ROC, AUC, log loss
- Regresyon: MAE, MSE, RMSE, R²
Çapraz doğrulama: K-fold, stratified K-fold, LOOCV
Hiperparametre ayarlama: Grid Search, Randomized Search

Temel Denetimli Algoritmalar

Doğrusal ve doğrusal olmayan modellerin uygulanması.

Linear Regression: model varsayımı, MSE, gradient descent
Logistic Regression: sigmoid, log loss, karar sınırı
K-Nearest Neighbors (KNN): mesafe metrikleri, k seçimi, boyut sorunları
Support Vector Machines (SVM): maximum margin, kernel (lineer, polynomial, RBF), hiperparametreler (C, gamma)
Decision Trees: özyinelemeli bölme, Gini impurity, entropy, budama, görselleştirme

Lab Session:

Regresyon ve sınıflandırma veri setleri üzerinde modellerin uygulanması, çapraz doğrulama ve hiperparametre ayarlaması

SOTA Ensemble Yöntemleri & Denetimsiz Öğrenme

Ensemble Learning Teorisi & Teknikleri

Ensemble yöntemlerinin çalışma mantığı ve uygulamaları.

Bagging: Bootstrap aggregating, varyans azaltma, paralel eğitim
- Random Forests: ağaçlar, özellik alt örnekleme, Out-of-Bag hatası
Boosting: sıra ile model oluşturma, bias azaltma
- AdaBoost, Gradient Boosting, XGBoost (regülarizasyon, ağaç budama, paralel işleme)
- LightGBM: histogram tabanlı bölme, GOSS, EFB
- CatBoost: ordered boosting, oblivious trees
Stacking & Blending: meta model kullanımı
AutoML kavramlarına giriş

Denetimsiz Öğrenme Teknikleri

Etiket olmadan veri keşfi ve boyut azaltma yöntemleri.

Kümeleme:
- K-Means: k seçimi, Elbow, Silhouette skoru
- Hiyerarşik Kümeleme: dendrogramlar, linkage yöntemleri
- DBSCAN: yoğunluk tabanlı, eps ve min_samples seçimi
Kümeleme performans ölçümleri: Silhouette skoru, Davies-Bouldin indeksi
Boyut azaltma yöntemleri:
- PCA, t-SNE, UMAP
Anomali/Aykırı değer tespiti:
- Isolation Forest, Local Outlier Factor, One-Class SVM

Lab Session:

Kaggle tarzı tablo veri seti üzerinde hiperparametre ayarlaması, kümeleme algoritmalarının uygulanması (PCA/t-SNE/UMAP görselleştirmeleri) ve anomali tespiti

İstatistiksel Çıkarım & Bayesian Düşünceye Giriş

İleri İstatistiksel Çıkarım

Daha titiz sonuçlar elde etmek için istatistiksel yöntemler.

Hipotez testlerini derinlemesine inceleme: varsayımlar, yorumlama
Güven aralıkları oluşturma ve yorumlama
A/B Testing: tasarım, örneklem büyüklüğü, hipotez testleri, regresyona gerileme, çoklu test problemi
Güç analizi: istatistiksel güç ve örneklem hesaplamaları
Bootstrapping: ampirik örnekleme dağılımı tahmini

Zaman Serisi Analizine Giriş

Zamana bağlı verilerde temel bileşenler ve modeller.

Zaman serisi bileşenleri: trend, mevsimsellik, döngüsellik, gürültü
Zaman serisi ayrıştırma: additive vs. multiplicative modeller
Durağanlık: kavram, ADF testi, fark alma
Otokorelasyon (ACF) ve kısmi otokorelasyon (PACF)
Klasik modeller: AR, MA, ARMA, ARIMA

Bayesian Yöntemlere Giriş

Bayesian akıl yürütme ilkeleri ve yöntemleri.

Frekansçı vs. Bayesian yaklaşım
Bayes teoremi: likelihood, prior, posterior, evidence
Bayesian çıkarım iş akışı: model tanımlama, öncellerin seçimi, sonucun hesaplanması ve yorumlanması
Markov Chain Monte Carlo (MCMC) yöntemlerine giriş
Uygulamalar: Bayesian A/B testi, hiperparametre optimizasyonu

Lab Session:

Simüle edilmiş A/B testi verilerini analiz etme, güven aralıkları oluşturma; gerçek dünya zaman serisi verisi üzerinde ayrıştırma ve ACF/PACF grafikleri oluşturma; Bayesian yöntemlerin tartışılması

PyTorch/TensorFlow ile Deep Learning Temelleri

Sinir Ağlarına Giriş

Sinir ağlarının temel yapı taşlarını ve eğitim sürecini öğrenme.

Biyolojik ilham ve perceptron kavramı
Çok katmanlı perceptronlar (MLP) / İleri beslemeli sinir ağları: giriş, gizli, çıkış katmanları
Aktivasyon fonksiyonları: Sigmoid, Tanh, ReLU (ve varyantları), Softmax
Kayıp fonksiyonları: Cross-Entropy, MSE/MAE
Geri yayılım algoritması: gradyan hesaplama prensipleri
Gradient descent optimizasyonu: SGD, mini-batch, momentum, RMSprop, Adam
Regülarizasyon: L1/L2 ve Dropout

Deep Learning Çerçeveleri & Eğitim

PyTorch veya TensorFlow kullanarak derin öğrenme modelleri oluşturma.

Tensorlar, otomatik türev alma (autograd/GradientTape)
nn.Module veya tf.keras.Model kullanarak sinir ağı modelleri oluşturma
Katmanlar, kayıp fonksiyonları, optimizatör tanımlama
Eğitim döngüsü: forward pass, kayıp hesaplama, backward pass, optimizasyon
GPU hızlandırma, model kaydetme ve yükleme
Eğitim izleme (TensorBoard)

CNN’lere ve RNN’lere Giriş

Mekansal ve sıralı veriler için özel sinir ağı mimarilerinin temelleri.

CNN’ler:
- Evrişim işlemi: filtreler, stride, padding, özellik haritaları
- Havuzlama katmanları: max pooling, average pooling
- Temel CNN mimarisi: Conv -> ReLU -> Pool -> Fully Connected
RNN’ler:
- Sıralı veri işleme ve gizli durum
- Basit RNN’lerin gradyan problemleri
- LSTM: hücre durumu, kapılar (input, forget, output)
- GRU: LSTM’lere basitleştirilmiş alternatif

Lab Session:

Tablo veri seti üzerinde MLP, MNIST/Fashion-MNIST için CNN ve küçük bir metin veri setinde (ör. IMDB) LSTM/GRU uygulaması; TensorBoard ile eğitim takibi

Computer Vision için İleri Deep Learning

İleri CNN Mimarileri & Transfer Learning

SOTA CNN mimarileri ve önceden eğitilmiş modellerin kullanımı.

Derin ağların zorlukları: kaybolan gradyanlar, model derinliği
Residual Networks (ResNet): skip connections
Inception Networks (GoogLeNet): paralel filtreler
EfficientNets: model ölçeklendirmesi
Transfer Learning:
- Özellik çıkarımı ve ince ayar (fine-tuning)
- PyTorch/TensorFlow hub kullanımı

Temel Computer Vision Görevleri

Görüntü sınıflandırmasının ötesinde görevler.

Nesne tespiti: sınırlayıcı kutular, Intersection over Union (IoU)
Görüntü segmentasyonu: semantik ve örnek segmentasyon; FCN, U-Net

SOTA Trendleri: Vision Transformers & Self-Supervised Learning

Modern CV paradigmaları.

Vision Transformers (ViT):
- Transformer mimarisinin görüntülere uygulanması
- Görüntü yamalama, pozisyon kodlamaları, self-attention
- CNN’lerle kıyaslama ve veri gereksinimleri
Self-Supervised Learning (SSL):
- Kontrastif öğrenme (SimCLR, MoCo)
- Maskeli görüntü modelleme (MAE, BEiT)

Lab Session:

Önceden eğitilmiş bir ResNet modelinin fine-tune edilmesi, nesne tespiti için YOLO veya SSD ile çıkarım; ViT ve SSL iş akışlarının tartışılması

Transformers & LLM’ler ile SOTA NLP

RNN’lerden Attention & Transformerlara

Dil modellerinde RNN’lerin sınırları ve Transformer’ın avantajları.

RNN’lerin/LSTM’lerin uzun menzilli bağımlılık sorunları
Attention mekanizması:
- Scaled dot-product attention: queries, keys, values
Transformer Mimarisinin Temelleri:
- Encoder-Decoder yapısı, self-attention, multi-head attention, positional encoding
- Layer normalization ve feed-forward network’ler

Önceden Eğitilmiş Dil Modelleri & LLM’ler

Büyük dil modellerinin kullanımı.

Ön eğitimin gücü: BERT (Masked Language Modeling), GPT (Causal Language Modeling)
LLM’lerin mimarisi ve ölçekleme yasaları: GPT-3/4, Llama, Claude, Gemini, Mistral
Zero-shot ve Few-shot öğrenme, metin gömme teknikleri

SOTA Teknikleri: Prompting, RAG, PEFT & Hugging Face

Modern tekniklerle LLM’lerle etkileşim.

Prompt Engineering: zero-shot, few-shot, instruction tuning, Chain-of-Thought
Retrieval-Augmented Generation (RAG):
- Retriever + Generator, vector databases kullanımı
Parameter-Efficient Fine-Tuning (PEFT):
- LoRA, QLoRA
Hugging Face ekosistemi: transformers, datasets, evaluate, pipelines

Lab Session:

Hugging Face transformers ile önceden eğitilmiş modelin fine-tune edilmesi (ör. duygu analizi veya NER), LLM API’leri ile prompt engineering deneyleri; temel RAG sistemi kurulumu

SOTA Generative Modeller (Diffusion Odaklı) & İleri Sıralı Modeller

Generative Modellere Genel Bakış

Generative ve discriminative modellerin genel farkları.

GANs: Generator vs. Discriminator, eğitim zorlukları (mode collapse, instability)
Variational Autoencoders (VAEs): kodlayıcı-kod çözücü, latent space, olasılıksal yaklaşım
Flow-based modeller (kısa değinme)

Derinlemesine İnceleme: Diffusion Modelleri

Yüksek kaliteli görüntü üretimi için SOTA yöntemler.

İleri süreç: veriye kademeli olarak Gaussian gürültüsü ekleme
Ters süreç: U-Net mimarisi ile gürültüyü adım adım kaldırma
Noise schedule, koşullandırma (text-to-image)
Uygulamalar: DALL-E, Stable Diffusion, Imagen, görüntü düzenleme, inpainting, super-resolution
Zorluklar: örnekleme hızı, bilgi damıtma, kontrol edilebilirlik

İleri Sıralı & Graf Modelleri

Modern sıralı ve graf verisi için alternatif model yapılandırmaları.

Verimli sıralı modeller:
- State Space Models (SSM’ler), Lineer RNN’ler, Mamba örneği, hibrit mimariler
Graph Neural Networks (GNN’ler):
- Mesaj geçirme (message passing), GCN, GAT, ölçeklenebilirlik ve aşırı düzgünleştirme sorunları

Lab Session:

Stable Diffusion kullanarak text-to-image üretimi, farklı prompt’lar, rehberlik ölçekleri ve negatif prompt’larla deneyler; temel bir GCN modelinin uygulanması

Data Engineering & Big Data Temelleri

Veri Pipeline’ları & Orkestrasyonu

Otomatik ve güvenilir veri iş akışlarının oluşturulması.

ETL vs. ELT paradigmaları
Veri pipeline bileşenleri: kaynaklar, dönüşümler, hedefler
İş akışı orkestrasyon araçları:
- Apache Airflow: DAG’ler, operatörler, görevler, zamanlama
- Alternatifler: Prefect, Dagster
Veri kalitesi kontrolleri ve izleme
Batch vs. Streaming veri işleme (Kafka, Spark Streaming)

Veri Depolama Mimarileri

Büyük veri setlerinin depolanması ve yönetilmesi.

Veri ambarları: Redshift, BigQuery, Snowflake
Veri gölleri: S3, ADLS, GCS; Parquet, ORC
Data lakehouses: Databricks Delta Lake, Apache Iceberg, Apache Hudi
Vector databases: Pinecone, Milvus, Weaviate, Chroma kavramı

Dağıtık Hesaplama & Big Data İşleme

Tek makineden büyük ölçekli verilerin işlenmesi.

Dağıtık hesaplama ihtiyacı ve Hadoop ekosistemi (HDFS, MapReduce/YARN)
Apache Spark:
- RDD’ler, DataFrame API, lazy evaluation, driver/executor mimarisi
- Spark SQL, bulut entegrasyonu
Bulut tabanlı Big Data hizmetleri: AWS EMR, Google Dataproc, Azure HDInsight/Synapse

Lab Session:

PySpark ile basit veri okuma, dönüşüm ve çıktı işlemleri; Apache Airflow DAG oluşturma; vector database’in LLM/RAG pipeline’a entegrasyonu üzerine tartışma

MLOps - Modelleri Dağıtma, İzleme & Yönetme

MLOps’un Temelleri

ML modellerini operasyonelleştirme süreçleri.

Neden MLOps? Model dağıtımındaki zorluklar ve ML yaşam döngüsü yönetimi
Versiyonlama, otomasyon (CI/CD), test etme, dağıtım, izleme, yönetişim
Tekrarlanabilirlik: kod, veri, parametre ve ortam izleme

Model Dağıtım Stratejileri

Eğitilen modellerin çıkarım için kullanıma sunulması.

Docker ile konteynerleştirme: Dockerfile yazımı, imaj oluşturma, konteyner çalıştırma
Dağıtım desenleri:
- Çevrimiçi/gerçek zamanlı çıkarım (REST API’ler: Flask, FastAPI)
- Toplu çıkarım (batch)
- Uç noktası dağıtımı (edge deployment)
Model sunum çerçeveleri: TF Serving, TorchServe, KFServing, Seldon Core
Sunucusuz dağıtım: AWS Lambda, Google Cloud Functions, Azure Functions
Kubernetes: konteyner orkestrasyonu (kavramsal)

Deney İzleme, Model İzleme & Sürümleme

Model ve deneylerin izlenmesi ile sürümlendirilmesi.

Deney izleme: parametre, metrik, kod versiyonu, artefakt günlüğü
- MLflow, Weights & Biases, Comet ML
Model izleme: performans, veri drift, kavram drift ölçümleri
Sürümleme: Git ile kod versiyon kontrolü, DVC ile veri/model sürümlendirme
Feature store’lar: Feast, Tecton vb.

Lab Session:

MLflow ile model eğitimi, kayıt, Docker konteynerleştirme, API aracılığıyla çıkarım, DVC ve drift tespit araçlarının tartışılması

Nedensel Çıkarım, Açıklanabilirlik & Etik

Nedensel Çıkarıma Giriş

Korelasyon ve nedensellik arasındaki farklar ve yöntemler.

"Korelasyon nedensellik anlamına gelmez" örnekleri
Neyman-Rubin Causal Model: tedavi, kontrol grupları, Ortalama Tedavi Etkisi (ATE)
Karıştırıcı değişkenler ve nedensel önyargı
Yöntemler:
- Rastgele kontrollü deneyler (RCT’ler, A/B testleri)
- Gözlemsel yöntemler: propensity score matching, difference-in-differences, regression discontinuity
- ML tabanlı nedensel yöntemler (Causal Forests, Double ML)
Nedensel keşif (kısa değinme)

Açıklanabilir AI (XAI) & Model Yorumlanabilirliği

Karmaşık modellerin yorumlanması ve açıklanması.

Açıklanabilirlik ihtiyacı: güven, hata ayıklama, adalet, düzenleme
Model-özel vs. modelden bağımsız yöntemler
Yorumlama teknikleri:
- Doğrusal modellerin katsayı yorumlaması
- Ağaç tabanlı modellerde özellik önemi ve karar yolları
- Yerel (LIME) ve küresel (SHAP) açıklamalar
- Karşı olgu açıklamaları, kavram tabanlı yöntemler (ör. TCAV)

Sorumlu AI: Etik, Adalet & Gizlilik

AI uygulamalarında etik ilkelerin uygulanması.

AI’da etik ilkeler: hesap verebilirlik, şeffaflık, adalet, zarar vermeme
ML’de sapma kaynakları: veri, algoritma, insan önyargısı
Adalet metrikleri: demografik eşitlik, eşit fırsat, ödünleşmeler
Sapma azaltma teknikleri: ön işleme, eğitim sırasında kısıtlamalar, son işleme ayarlamaları
Gizlilik: veri anonimleştirme, diferansiyel gizlilik, federated learning

Lab Session:

Karmaşık bir model üzerinde SHAP analizi ile açıklama, adalet metriklerinin değerlendirilmesi; potansiyel sapma azaltma stratejilerinin tartışılması

Bitirme Projesi - Bölüm 1

Proje Fikri Geliştirme & Kapsam Belirleme

Öğrenilen teknikleri uygulayan gerçek dünya problemlerini belirleme süreci.

Gerçek dünya problemlerinin tespiti
Bireysel veya takım tabanlı beyin fırtınası
Hedef, teslimat ve başarı metriklerinin tanımlanması
Proje planlama, kapsam belirleme ve etik inceleme

Bitirme Projesi için Veri Toplama & İleri EDA

Proje hedeflerine yönelik veri toplama ve derinlemesine analiz.

İlgili veri setlerinin bulunuşu ve edinimi (kamu kaynakları, API’ler, web scraping)
Veri alım pipeline’larının oluşturulması
Hedefe yönelik EDA ve ileri görselleştirme teknikleri
Başlangıç hipotezlerinin formüle edilmesi

Temel Modelleme & İterasyon Planı

Başlangıç model performansının değerlendirilmesi ve geliştirme planı.

Uygun temel modellerin seçimi ve uygulanması
Model performansının ölçülmesi
İyileştirme alanlarının belirlenmesi
İterasyon planı: feature engineering, SOTA model seçimi, hiperparametre ayarlama

Lab Session:

Özel mentorluk eşliğinde proje üzerinde yoğun uygulamalı çalışma, problem ifadesinin iyileştirilmesi, veri güvence altına alma, kapsamlı EDA ve temel model uygulamasının planlanması

Bitirme Projesi - Bölüm 2 & Kariyer Hazırlığı

Bitirme Projesi için İleri Modelleme & Değerlendirme

SOTA modelleri uygulayarak nihai çözümün değerlendirilmesi.

Gelişmiş modellerin (Transformer, XGBoost/LightGBM, RAG, Diffusion) uygulanması
İleri hiperparametre optimizasyonu (ör. Bayesian optimizasyon)
Model değerlendirme, hata analizi ve yorumlama (SHAP, LIME)
Dağıtım stratejilerinin simülasyonu

Proje Sunumu & Dokümantasyonu

Proje metodolojisini, sonuçlarını ve etkisini etkili bir şekilde iletmek.

Teknik bir sunum yapılandırma
Sonuçlar için ilgi çekici görselleştirmeler oluşturma
Karmaşık fikirleri farklı kitlelere açıkça iletme
Proje dokümantasyonu yazma (ör. README, teknik rapor)
Bir proje portföyü parçası oluşturma

Kariyer Başlangıç Pisti

Veri bilimi alanında başarılı iş arayışına hazırlanma.

Veri bilimi iş piyasası: roller, gerekli beceriler, endüstri trendleri
Etkili bir özgeçmiş hazırlama
Profesyonel çevrimiçi varlık oluşturma (LinkedIn, GitHub portföyü)
Networking stratejileri
Teknik ve davranışsal mülakat hazırlığı (STAR metodu, take-home assignments, vaka çalışmaları, maaş pazarlığı)

Lab Session:

Proje sonlandırma, sunum pratiği, akran ve eğitmen geri bildirimi, sahte mülakat oturumları ve özgeçmiş inceleme atölyeleri

Bootcamp Sonrası Destek

Sürekli Öğrenme & Topluluk

Güncel kalmak ve destek sağlamak için kaynaklar ve networking.

Kürateli kaynaklara erişim (bloglar, bültenler, anahtar araştırmacılar, konferanslar)
Bootcamp mezunları ağı ile devam eden destek ve networking

Kariyer Hizmetleri Uzantısı

Mezuniyet sonrası iş arama desteği ve işveren ortak ağlarına erişim imkanı.