Süre
Modüller 18 modül
Bilgi al

Programlar

Hızlandırılmış programların ders süresi daha azdır ancak öğrencinin kendi vaktinde daha fazla çalışmasını gerektirir.

Kurs Açıklaması

Eğitmenler

Günümüzün dijital ekosisteminde verinin üretim hızı ve çeşitliliği hızla artıyor. İşletmeler, bu devasa veri yığınlarını stratejik içgörülere ve aksiyon alınabilir analizlere dönüştürerek rekabet avantajı elde etmeye çalışıyor. Bu kapsamlı eğitim kampı, temel veri bilimi ve büyük veri teknolojilerinden derin öğrenmeye, bulut tabanlı büyük veri işleme araçlarından MLOps uygulamalarına kadar uzanan geniş bir müfredat sunuyor. Python programlama temelleriyle başlayan eğitim; NumPy, Pandas gibi kritik kütüphanelerde ustalaşmayı, SQL ve API entegrasyonlarını, keşifsel veri analizini (EDA) ve gelişmiş özellik mühendisliğini kapsayan pratik uygulamalarla devam ediyor.

Yapay öğrenme alanında; denetimli ve denetimsiz makine öğrenimi, derin öğrenme (PyTorch/TensorFlow), bilgisayarlı görü (CNN, transfer learning), doğal dil işleme (transformer mimarileri, LLM’ler) ve generative modeller (GAN, Diffusion) gibi en güncel tekniklere derinlemesine değiniliyor. Büyük ölçekli verilerin yönetimi ve işlenmesi için Spark, Airflow, veri ambarları/veri gölleri gibi modern data engineering araç ve mimarileri inceleniyor. Eğitilen modellerin üretim ortamına alınması, izlenmesi ve yönetilmesini sağlayan MLOps prensipleriyle katılımcılar, uçtan uca bir veri projesinin tüm yaşam döngüsünü deneyimliyor.

Kariyerlerinde fark yaratmak isteyen profesyoneller ile veri bilimi ve büyük veri alanına sağlam bir başlangıç yapmayı hedefleyenler için tasarlanan bu program; teorik altyapıyı pratik projelerle, laboratuvar çalışmalarıyla ve bitirme projesiyle birleştirerek kapsamlı bir öğrenme deneyimi sunuyor.

Kursun Amacı

Bu eğitim, “veriyi bilgiye, bilgiyi aksiyona” dönüştürebilecek uzman veri bilimciler ve veri analitiği profesyonelleri yetiştirmeyi hedefliyor. Program sonunda katılımcıların:

  • Python ile Veri Bilimi Temellerine Hakim Olması: Veri analizi ve modellemeye yönelik kodlama becerilerini, NumPy ve Pandas gibi kütüphanelerle pekiştirmesi
  • Veri Yönetimi ve Mühendisliği Süreçlerini Yürütmesi: SQL, API, web scraping ve büyük veri ekosistemindeki modern araçlarla veri toplama, temizleme ve dönüştürme iş akışlarını kurabilmesi
  • Keşifsel Veri Analizi ve Görselleştirme Kabiliyeti Geliştirmesi: İstatistiksel yöntemlerle verilere içgörü kazandırıp, Matplotlib, Seaborn ve Plotly gibi kütüphanelerle sonuçları etkili biçimde sunabilmesi
  • Gelişmiş Özellik Mühendisliği ve Modelleme Becerilerine Sahip Olması: Denetimli/denetimsiz makine öğrenimi, ensemble yöntemler, derin öğrenme, bilgisayarlı görü ve NLP alanlarında pratik deneyim elde etmesi
  • Büyük Veri ve Dağıtık İşleme Platformlarını Kullanmaya Başlaması: Apache Spark, veri ambarları/gölleri ve orkestrasyon araçlarıyla büyük ölçekli verileri yönetip analiz edebilmesi
  • MLOps Prensipleriyle Model Dağıtımı ve Yönetimi Yapabilmesi: Model sürümleme, konteynerleştirme, CI/CD, deney ve performans izleme gibi uçtan uca süreci kavraması
  • Etik, Açıklanabilirlik ve Nedensel Analiz Bilinci Geliştirmesi: Yapay öğrenme modellerindeki önyargıları azaltma, şeffaflığı sağlama ve nedensel ilişkileri anlama konularında yetkinleşmesi
  • Profesyonel Portföy ve Kariyer Hazırlığını Tamamlaması: Bitirme projesi, sahte mülakat oturumları, özgeçmiş hazırlığı ve networking desteğiyle veri bilimi kariyerine güçlü bir adım atması

Kurs sonunda katılımcılar, veri bilimi ve büyük veri ekosistemini uçtan uca uygulayabilecek düzeye gelecek; farklı sektörlerdeki (finans, sağlık, teknoloji, perakende vb.) zorlu veri problemlerini çözmeye hazır, kapsamlı bir bilgi birikimine sahip olacaklardır.

Konular

Bootcamp Hazırlığı & Ortam Kurulumu

Ortak bir teknik temel oluşturmak için hazırlık.

  • Geliştirme Ortamının Kurulumu:
    • Python kurulumu (Anaconda dağıtımı önerilir)
    • Conda ortamları ile bağımlılık yönetimi
    • Entegre geliştirme ortamı kurulumu ve yapılandırması (VS Code önerilir)
  • Komut Satırı Arayüzü (CLI) Temelleri:
    • Dizinlerde gezinme (cd, ls/dir, pwd)
    • Dosya manipülasyonu (cp, mv, rm, mkdir)
    • Temel komut çalıştırma
  • Git & GitHub ile Versiyon Kontrolü:
    • Repository, commit, branch, merge, pull request kavramları
    • Yerel Git kurulumu ve GitHub hesabı oluşturma
    • Temel komutlar: git clone, git add, git commit, git status, git push, git pull, git branch, git checkout, git merge

Lab Session:

Python/Conda kurulumunu doğrulama, temel CLI komutlarını uygulama ve GitHub üzerinde tam bir Git iş akışını (repo klonlama, değişiklik yapma, commit etme, push etme) gerçekleştiren egzersizler

Python ile Veri Bilimi için Programlama

Python Temelleri Tekrarı & Derinlemesine İnceleme

Veri bilimi bağlamında temel Python kavramlarını pekiştirme.

  • Python veri tipleri: int, float, str, bool, list, tuple, dict, set
  • Operatörler ve kontrol akışı (if/elif/else, for ve while döngüleri)
  • Fonksiyon tanımlama, argümanlar (args, kwargs), kapsam, lambda fonksiyonları
  • Nesne Yönelimli Programlama: sınıflar, nesneler, nitelikler, metotlar, kalıtım
  • Dosyalarla çalışma: metin ve CSV dosyalarını okuma/yazma
  • Dahili kütüphaneler: math, datetime, collections
  • Python standart pratikleri (PEP 8)

NumPy ile Sayısal Hesaplama

Sayısal veri ve vektörleştirme tekniklerinde ustalaşmak.

  • NumPy array (ndarray) oluşturma, indeksleme, dilimleme, veri tipleri
  • Vektörleştirme ve evrensel fonksiyonlar (ufuncs)
  • Temel matematiksel fonksiyonlar: sum, mean, std vb.
  • Lineer cebir: matris çarpımı ve nokta çarpımları
  • Yayınlama (broadcasting) prensipleri
  • Rastgele sayı üretimi

Pandas ile Veri Manipülasyonu

Tablo verilerinin işlenmesi ve analizi.

  • Pandas veri yapıları: Series ve DataFrame
  • Veri yükleme ve kaydetme (CSV, Excel, JSON, SQL)
  • İndeksleme & seçim: loc, iloc, boolean indeksleme, indeks ayarlama
  • Veri temizleme: eksik değerler (dropna, fillna), yinelenen veriler
  • Veri dönüşümü: apply, map, astype, sütun yeniden adlandırma
  • DataFrame birleştirme: merge, join, concat
  • Gruplama ve toplama: groupby, toplama fonksiyonları (sum, mean, count, vb.)
  • Zaman serisi işlemleri: datetime özellikleri, yeniden örnekleme (resampling)

Lab Session:

Birden çok veri setini alıp temizleme, birleştirme, özellik mühendisliği ve group-by toplamaları uygulama

Veri Toplama & SQL Ustalığı

İlişkisel Veritabanları & İleri Düzey SQL

Veritabanı kavramları ve ileri düzey SQL sorguları.

  • Temel kavramlar: tablolar, satırlar, sütunlar, birincil ve yabancı anahtarlar, şemalar, veri tipleri
  • SQL sorgulama: SELECT, FROM, WHERE, GROUP BY, HAVING, ORDER BY
  • İleri SQL teknikleri:
    • JOIN'ler: INNER, LEFT, RIGHT, FULL OUTER, CROSS, self-join
    • Alt sorgular (subqueries)
    • Ortak Tablo İfadeleri (CTE'ler, WITH ifadesi)
    • Pencere fonksiyonları: OVER, PARTITION BY, ROW_NUMBER, RANK, DENSE_RANK
    • Veri tanımlama (DDL) ve manipülasyon (DML) komutları

Python’u Veritabanlarına & API’lere Bağlama

Veritabanı ve web servislerinden veri çekme yöntemleri.

  • Python’dan veritabanı bağlantısı: psycopg2, sqlite3, mysql-connector-python
  • SQLAlchemy ile ORM kullanımı
  • Sorgu çalıştırma ve sonuçların Pandas DataFrame’e aktarılması (pd.read_sql)
  • REST API’lerle etkileşim: HTTP metotları, requests kütüphanesi, JSON işleme
  • Kimlik doğrulama: API anahtarları, OAuth
  • Web scraping: HTML temel bilgileri, BeautifulSoup, etik hususlar (robots.txt)

Lab Session:

PostgreSQL veritabanından sorgulama, canlı REST API’den veri çekme, verilerin tek bir DataFrame’de birleştirilmesi

Keşifsel Veri Analizi (EDA) & Görselleştirme

EDA için İstatistiksel Temeller

Veri özelliklerini anlamak için temel istatistik kavramları.

  • Tanımlayıcı istatistikler: ortalama, medyan, mod, varyans, standart sapma, aralık, IQR
  • Olasılık dağılımları: Normal, Binom, Poisson, Üniform; PDF ve CDF
  • Çıkarımsal istatistik: popülasyon/örneklem kavramları, merkezi limit teoremi
  • Hipotez testi çerçevesi: p-değeri, güven aralığı, t-testi, ANOVA, Ki-kare testi

Veri Görselleştirme İlkeleri & Araçları

Veriyi etkili görselleştirme yöntemleri.

  • Uygun grafik türlerinin seçilmesi: çubuk, çizgi, saçılım, histogram, kutu grafiği, ısı haritası
  • Matplotlib: figure, axes kavramları; grafik özelleştirme (etiket, başlık, lejant)
  • Seaborn: istatistiksel görselleştirme, Pandas entegrasyonu
  • Plotly: interaktif grafikler, yakınlaştırma, panolar
  • Mekansal görselleştirme: GeoPandas, Folium

Keşifsel Veri Analizi İş Akışı & Hikaye Anlatımı

Veriyi analiz etme ve içgörüyü aktarabilme süreci.

  • Veri yükleme ve ilk inceleme: .info(), .describe(), .head()
  • Tek ve çift değişken analizi: dağılım, ilişkiler, korelasyonlar
  • Anomalilerin, trendlerin ve desenlerin belirlenmesi
  • EDA raporu oluşturma ve veri hikayesi anlatımı

Lab Session:

Gerçek dünya veri seti üzerinde EDA gerçekleştirme; statik (Matplotlib, Seaborn) ve interaktif (Plotly) grafiklerle içgörü sunma

Özellik Mühendisliği (Feature Engineering) & Seçimi

Veri Ön İşleme Teknikleri

Ham veriyi modele hazırlama adımları.

  • Eksik veri yönetimi: silme, ortalama/medyan/mod doldurma, regresyon, KNN
  • Kategorik değişken kodlama: one-hot, dummy, label encoding, ordinal encoding, target encoding, hashing trick
  • Özellik ölçeklendirme: standardizasyon (Z-skoru), normalizasyon (min-max), robust scaling
  • Aykırı değer tespiti ve müdahalesi

Özellik Oluşturma & Dönüştürme

Mevcut veriden yeni özellikler türetme yöntemleri.

  • Etkileşim özellikleri oluşturma (çarpma, bölme gibi)
  • Polinom özellikler: doğrusal modeller için polinom terimleri üretme
  • Gruplama/ayrıklaştırma (binning)
  • Logaritmik, karekök ve Box-Cox dönüşümleri
  • Tarih/zaman özellik mühendisliği: yıl, ay, gün, hafta, süre hesaplamaları

Boyut Azaltma & Özellik Seçimi

Önemli bilgiyi koruyarak özellik sayısını azaltma.

  • Curse of Dimensionality kavramı
  • PCA: temel bileşenler, bileşen sayısı seçimi
  • Özellik seçimi yöntemleri:
    • Filtre yöntemleri (korelasyon, ANOVA, Ki-kare)
    • Wrapper yöntemler (Recursive Feature Elimination)
    • Gömülü yöntemler (Lasso, ağaç tabanlı yöntemler)
  • Otomatik Özellik Mühendisliği kavramlarına giriş

Lab Session:

Scikit-learn pipeline kurarak veri ön işleme, ölçeklendirme, kodlama ve özellik seçimi uygulaması

Denetimli Öğrenme Temelleri

Temel Machine Learning Kavramları

Model eğitimi ve değerlendirme ilkeleri.

  • Denetimli, denetimsiz ve pekiştirmeli öğrenme genel bakışı
  • Veri bölme: train, validation, test setleri
  • Model eğitimi, tahmin ve değerlendirme
  • Bias-variance tradeoff, underfitting/overfitting
  • Model değerlendirme metrikleri:
    • Sınıflandırma: accuracy, precision, recall, F1-score, ROC, AUC, log loss
    • Regresyon: MAE, MSE, RMSE, R²
  • Çapraz doğrulama: K-fold, stratified K-fold, LOOCV
  • Hiperparametre ayarlama: Grid Search, Randomized Search

Temel Denetimli Algoritmalar

Doğrusal ve doğrusal olmayan modellerin uygulanması.

  • Linear Regression: model varsayımı, MSE, gradient descent
  • Logistic Regression: sigmoid, log loss, karar sınırı
  • K-Nearest Neighbors (KNN): mesafe metrikleri, k seçimi, boyut sorunları
  • Support Vector Machines (SVM): maximum margin, kernel (lineer, polynomial, RBF), hiperparametreler (C, gamma)
  • Decision Trees: özyinelemeli bölme, Gini impurity, entropy, budama, görselleştirme

Lab Session:

Regresyon ve sınıflandırma veri setleri üzerinde modellerin uygulanması, çapraz doğrulama ve hiperparametre ayarlaması

SOTA Ensemble Yöntemleri & Denetimsiz Öğrenme

Ensemble Learning Teorisi & Teknikleri

Ensemble yöntemlerinin çalışma mantığı ve uygulamaları.

  • Bagging: Bootstrap aggregating, varyans azaltma, paralel eğitim
    • Random Forests: ağaçlar, özellik alt örnekleme, Out-of-Bag hatası
  • Boosting: sıra ile model oluşturma, bias azaltma
    • AdaBoost, Gradient Boosting, XGBoost (regülarizasyon, ağaç budama, paralel işleme)
    • LightGBM: histogram tabanlı bölme, GOSS, EFB
    • CatBoost: ordered boosting, oblivious trees
  • Stacking & Blending: meta model kullanımı
  • AutoML kavramlarına giriş

Denetimsiz Öğrenme Teknikleri

Etiket olmadan veri keşfi ve boyut azaltma yöntemleri.

  • Kümeleme:
    • K-Means: k seçimi, Elbow, Silhouette skoru
    • Hiyerarşik Kümeleme: dendrogramlar, linkage yöntemleri
    • DBSCAN: yoğunluk tabanlı, eps ve min_samples seçimi
  • Kümeleme performans ölçümleri: Silhouette skoru, Davies-Bouldin indeksi
  • Boyut azaltma yöntemleri:
    • PCA, t-SNE, UMAP
  • Anomali/Aykırı değer tespiti:
    • Isolation Forest, Local Outlier Factor, One-Class SVM

Lab Session:

Kaggle tarzı tablo veri seti üzerinde hiperparametre ayarlaması, kümeleme algoritmalarının uygulanması (PCA/t-SNE/UMAP görselleştirmeleri) ve anomali tespiti

İstatistiksel Çıkarım & Bayesian Düşünceye Giriş

İleri İstatistiksel Çıkarım

Daha titiz sonuçlar elde etmek için istatistiksel yöntemler.

  • Hipotez testlerini derinlemesine inceleme: varsayımlar, yorumlama
  • Güven aralıkları oluşturma ve yorumlama
  • A/B Testing: tasarım, örneklem büyüklüğü, hipotez testleri, regresyona gerileme, çoklu test problemi
  • Güç analizi: istatistiksel güç ve örneklem hesaplamaları
  • Bootstrapping: ampirik örnekleme dağılımı tahmini

Zaman Serisi Analizine Giriş

Zamana bağlı verilerde temel bileşenler ve modeller.

  • Zaman serisi bileşenleri: trend, mevsimsellik, döngüsellik, gürültü
  • Zaman serisi ayrıştırma: additive vs. multiplicative modeller
  • Durağanlık: kavram, ADF testi, fark alma
  • Otokorelasyon (ACF) ve kısmi otokorelasyon (PACF)
  • Klasik modeller: AR, MA, ARMA, ARIMA

Bayesian Yöntemlere Giriş

Bayesian akıl yürütme ilkeleri ve yöntemleri.

  • Frekansçı vs. Bayesian yaklaşım
  • Bayes teoremi: likelihood, prior, posterior, evidence
  • Bayesian çıkarım iş akışı: model tanımlama, öncellerin seçimi, sonucun hesaplanması ve yorumlanması
  • Markov Chain Monte Carlo (MCMC) yöntemlerine giriş
  • Uygulamalar: Bayesian A/B testi, hiperparametre optimizasyonu

Lab Session:

Simüle edilmiş A/B testi verilerini analiz etme, güven aralıkları oluşturma; gerçek dünya zaman serisi verisi üzerinde ayrıştırma ve ACF/PACF grafikleri oluşturma; Bayesian yöntemlerin tartışılması

PyTorch/TensorFlow ile Deep Learning Temelleri

Sinir Ağlarına Giriş

Sinir ağlarının temel yapı taşlarını ve eğitim sürecini öğrenme.

  • Biyolojik ilham ve perceptron kavramı
  • Çok katmanlı perceptronlar (MLP) / İleri beslemeli sinir ağları: giriş, gizli, çıkış katmanları
  • Aktivasyon fonksiyonları: Sigmoid, Tanh, ReLU (ve varyantları), Softmax
  • Kayıp fonksiyonları: Cross-Entropy, MSE/MAE
  • Geri yayılım algoritması: gradyan hesaplama prensipleri
  • Gradient descent optimizasyonu: SGD, mini-batch, momentum, RMSprop, Adam
  • Regülarizasyon: L1/L2 ve Dropout

Deep Learning Çerçeveleri & Eğitim

PyTorch veya TensorFlow kullanarak derin öğrenme modelleri oluşturma.

  • Tensorlar, otomatik türev alma (autograd/GradientTape)
  • nn.Module veya tf.keras.Model kullanarak sinir ağı modelleri oluşturma
  • Katmanlar, kayıp fonksiyonları, optimizatör tanımlama
  • Eğitim döngüsü: forward pass, kayıp hesaplama, backward pass, optimizasyon
  • GPU hızlandırma, model kaydetme ve yükleme
  • Eğitim izleme (TensorBoard)

CNN’lere ve RNN’lere Giriş

Mekansal ve sıralı veriler için özel sinir ağı mimarilerinin temelleri.

  • CNN’ler:
    • Evrişim işlemi: filtreler, stride, padding, özellik haritaları
    • Havuzlama katmanları: max pooling, average pooling
    • Temel CNN mimarisi: Conv -> ReLU -> Pool -> Fully Connected
  • RNN’ler:
    • Sıralı veri işleme ve gizli durum
    • Basit RNN’lerin gradyan problemleri
    • LSTM: hücre durumu, kapılar (input, forget, output)
    • GRU: LSTM’lere basitleştirilmiş alternatif

Lab Session:

Tablo veri seti üzerinde MLP, MNIST/Fashion-MNIST için CNN ve küçük bir metin veri setinde (ör. IMDB) LSTM/GRU uygulaması; TensorBoard ile eğitim takibi

Computer Vision için İleri Deep Learning

İleri CNN Mimarileri & Transfer Learning

SOTA CNN mimarileri ve önceden eğitilmiş modellerin kullanımı.

  • Derin ağların zorlukları: kaybolan gradyanlar, model derinliği
  • Residual Networks (ResNet): skip connections
  • Inception Networks (GoogLeNet): paralel filtreler
  • EfficientNets: model ölçeklendirmesi
  • Transfer Learning:
    • Özellik çıkarımı ve ince ayar (fine-tuning)
    • PyTorch/TensorFlow hub kullanımı

Temel Computer Vision Görevleri

Görüntü sınıflandırmasının ötesinde görevler.

  • Nesne tespiti: sınırlayıcı kutular, Intersection over Union (IoU)
  • Görüntü segmentasyonu: semantik ve örnek segmentasyon; FCN, U-Net

SOTA Trendleri: Vision Transformers & Self-Supervised Learning

Modern CV paradigmaları.

  • Vision Transformers (ViT):
    • Transformer mimarisinin görüntülere uygulanması
    • Görüntü yamalama, pozisyon kodlamaları, self-attention
    • CNN’lerle kıyaslama ve veri gereksinimleri
  • Self-Supervised Learning (SSL):
    • Kontrastif öğrenme (SimCLR, MoCo)
    • Maskeli görüntü modelleme (MAE, BEiT)

Lab Session:

Önceden eğitilmiş bir ResNet modelinin fine-tune edilmesi, nesne tespiti için YOLO veya SSD ile çıkarım; ViT ve SSL iş akışlarının tartışılması

Transformers & LLM’ler ile SOTA NLP

RNN’lerden Attention & Transformerlara

Dil modellerinde RNN’lerin sınırları ve Transformer’ın avantajları.

  • RNN’lerin/LSTM’lerin uzun menzilli bağımlılık sorunları
  • Attention mekanizması:
    • Scaled dot-product attention: queries, keys, values
  • Transformer Mimarisinin Temelleri:
    • Encoder-Decoder yapısı, self-attention, multi-head attention, positional encoding
    • Layer normalization ve feed-forward network’ler

Önceden Eğitilmiş Dil Modelleri & LLM’ler

Büyük dil modellerinin kullanımı.

  • Ön eğitimin gücü: BERT (Masked Language Modeling), GPT (Causal Language Modeling)
  • LLM’lerin mimarisi ve ölçekleme yasaları: GPT-3/4, Llama, Claude, Gemini, Mistral
  • Zero-shot ve Few-shot öğrenme, metin gömme teknikleri

SOTA Teknikleri: Prompting, RAG, PEFT & Hugging Face

Modern tekniklerle LLM’lerle etkileşim.

  • Prompt Engineering: zero-shot, few-shot, instruction tuning, Chain-of-Thought
  • Retrieval-Augmented Generation (RAG):
    • Retriever + Generator, vector databases kullanımı
  • Parameter-Efficient Fine-Tuning (PEFT):
    • LoRA, QLoRA
  • Hugging Face ekosistemi: transformers, datasets, evaluate, pipelines

Lab Session:

Hugging Face transformers ile önceden eğitilmiş modelin fine-tune edilmesi (ör. duygu analizi veya NER), LLM API’leri ile prompt engineering deneyleri; temel RAG sistemi kurulumu

SOTA Generative Modeller (Diffusion Odaklı) & İleri Sıralı Modeller

Generative Modellere Genel Bakış

Generative ve discriminative modellerin genel farkları.

  • GANs: Generator vs. Discriminator, eğitim zorlukları (mode collapse, instability)
  • Variational Autoencoders (VAEs): kodlayıcı-kod çözücü, latent space, olasılıksal yaklaşım
  • Flow-based modeller (kısa değinme)

Derinlemesine İnceleme: Diffusion Modelleri

Yüksek kaliteli görüntü üretimi için SOTA yöntemler.

  • İleri süreç: veriye kademeli olarak Gaussian gürültüsü ekleme
  • Ters süreç: U-Net mimarisi ile gürültüyü adım adım kaldırma
  • Noise schedule, koşullandırma (text-to-image)
  • Uygulamalar: DALL-E, Stable Diffusion, Imagen, görüntü düzenleme, inpainting, super-resolution
  • Zorluklar: örnekleme hızı, bilgi damıtma, kontrol edilebilirlik

İleri Sıralı & Graf Modelleri

Modern sıralı ve graf verisi için alternatif model yapılandırmaları.

  • Verimli sıralı modeller:
    • State Space Models (SSM’ler), Lineer RNN’ler, Mamba örneği, hibrit mimariler
  • Graph Neural Networks (GNN’ler):
    • Mesaj geçirme (message passing), GCN, GAT, ölçeklenebilirlik ve aşırı düzgünleştirme sorunları

Lab Session:

Stable Diffusion kullanarak text-to-image üretimi, farklı prompt’lar, rehberlik ölçekleri ve negatif prompt’larla deneyler; temel bir GCN modelinin uygulanması

Data Engineering & Big Data Temelleri

Veri Pipeline’ları & Orkestrasyonu

Otomatik ve güvenilir veri iş akışlarının oluşturulması.

  • ETL vs. ELT paradigmaları
  • Veri pipeline bileşenleri: kaynaklar, dönüşümler, hedefler
  • İş akışı orkestrasyon araçları:
    • Apache Airflow: DAG’ler, operatörler, görevler, zamanlama
    • Alternatifler: Prefect, Dagster
  • Veri kalitesi kontrolleri ve izleme
  • Batch vs. Streaming veri işleme (Kafka, Spark Streaming)

Veri Depolama Mimarileri

Büyük veri setlerinin depolanması ve yönetilmesi.

  • Veri ambarları: Redshift, BigQuery, Snowflake
  • Veri gölleri: S3, ADLS, GCS; Parquet, ORC
  • Data lakehouses: Databricks Delta Lake, Apache Iceberg, Apache Hudi
  • Vector databases: Pinecone, Milvus, Weaviate, Chroma kavramı

Dağıtık Hesaplama & Big Data İşleme

Tek makineden büyük ölçekli verilerin işlenmesi.

  • Dağıtık hesaplama ihtiyacı ve Hadoop ekosistemi (HDFS, MapReduce/YARN)
  • Apache Spark:
    • RDD’ler, DataFrame API, lazy evaluation, driver/executor mimarisi
    • Spark SQL, bulut entegrasyonu
  • Bulut tabanlı Big Data hizmetleri: AWS EMR, Google Dataproc, Azure HDInsight/Synapse

Lab Session:

PySpark ile basit veri okuma, dönüşüm ve çıktı işlemleri; Apache Airflow DAG oluşturma; vector database’in LLM/RAG pipeline’a entegrasyonu üzerine tartışma

MLOps - Modelleri Dağıtma, İzleme & Yönetme

MLOps’un Temelleri

ML modellerini operasyonelleştirme süreçleri.

  • Neden MLOps? Model dağıtımındaki zorluklar ve ML yaşam döngüsü yönetimi
  • Versiyonlama, otomasyon (CI/CD), test etme, dağıtım, izleme, yönetişim
  • Tekrarlanabilirlik: kod, veri, parametre ve ortam izleme

Model Dağıtım Stratejileri

Eğitilen modellerin çıkarım için kullanıma sunulması.

  • Docker ile konteynerleştirme: Dockerfile yazımı, imaj oluşturma, konteyner çalıştırma
  • Dağıtım desenleri:
    • Çevrimiçi/gerçek zamanlı çıkarım (REST API’ler: Flask, FastAPI)
    • Toplu çıkarım (batch)
    • Uç noktası dağıtımı (edge deployment)
  • Model sunum çerçeveleri: TF Serving, TorchServe, KFServing, Seldon Core
  • Sunucusuz dağıtım: AWS Lambda, Google Cloud Functions, Azure Functions
  • Kubernetes: konteyner orkestrasyonu (kavramsal)

Deney İzleme, Model İzleme & Sürümleme

Model ve deneylerin izlenmesi ile sürümlendirilmesi.

  • Deney izleme: parametre, metrik, kod versiyonu, artefakt günlüğü
    • MLflow, Weights & Biases, Comet ML
  • Model izleme: performans, veri drift, kavram drift ölçümleri
  • Sürümleme: Git ile kod versiyon kontrolü, DVC ile veri/model sürümlendirme
  • Feature store’lar: Feast, Tecton vb.

Lab Session:

MLflow ile model eğitimi, kayıt, Docker konteynerleştirme, API aracılığıyla çıkarım, DVC ve drift tespit araçlarının tartışılması

Nedensel Çıkarım, Açıklanabilirlik & Etik

Nedensel Çıkarıma Giriş

Korelasyon ve nedensellik arasındaki farklar ve yöntemler.

  • "Korelasyon nedensellik anlamına gelmez" örnekleri
  • Neyman-Rubin Causal Model: tedavi, kontrol grupları, Ortalama Tedavi Etkisi (ATE)
  • Karıştırıcı değişkenler ve nedensel önyargı
  • Yöntemler:
    • Rastgele kontrollü deneyler (RCT’ler, A/B testleri)
    • Gözlemsel yöntemler: propensity score matching, difference-in-differences, regression discontinuity
    • ML tabanlı nedensel yöntemler (Causal Forests, Double ML)
  • Nedensel keşif (kısa değinme)

Açıklanabilir AI (XAI) & Model Yorumlanabilirliği

Karmaşık modellerin yorumlanması ve açıklanması.

  • Açıklanabilirlik ihtiyacı: güven, hata ayıklama, adalet, düzenleme
  • Model-özel vs. modelden bağımsız yöntemler
  • Yorumlama teknikleri:
    • Doğrusal modellerin katsayı yorumlaması
    • Ağaç tabanlı modellerde özellik önemi ve karar yolları
    • Yerel (LIME) ve küresel (SHAP) açıklamalar
    • Karşı olgu açıklamaları, kavram tabanlı yöntemler (ör. TCAV)

Sorumlu AI: Etik, Adalet & Gizlilik

AI uygulamalarında etik ilkelerin uygulanması.

  • AI’da etik ilkeler: hesap verebilirlik, şeffaflık, adalet, zarar vermeme
  • ML’de sapma kaynakları: veri, algoritma, insan önyargısı
  • Adalet metrikleri: demografik eşitlik, eşit fırsat, ödünleşmeler
  • Sapma azaltma teknikleri: ön işleme, eğitim sırasında kısıtlamalar, son işleme ayarlamaları
  • Gizlilik: veri anonimleştirme, diferansiyel gizlilik, federated learning

Lab Session:

Karmaşık bir model üzerinde SHAP analizi ile açıklama, adalet metriklerinin değerlendirilmesi; potansiyel sapma azaltma stratejilerinin tartışılması

Bitirme Projesi - Bölüm 1

Proje Fikri Geliştirme & Kapsam Belirleme

Öğrenilen teknikleri uygulayan gerçek dünya problemlerini belirleme süreci.

  • Gerçek dünya problemlerinin tespiti
  • Bireysel veya takım tabanlı beyin fırtınası
  • Hedef, teslimat ve başarı metriklerinin tanımlanması
  • Proje planlama, kapsam belirleme ve etik inceleme

Bitirme Projesi için Veri Toplama & İleri EDA

Proje hedeflerine yönelik veri toplama ve derinlemesine analiz.

  • İlgili veri setlerinin bulunuşu ve edinimi (kamu kaynakları, API’ler, web scraping)
  • Veri alım pipeline’larının oluşturulması
  • Hedefe yönelik EDA ve ileri görselleştirme teknikleri
  • Başlangıç hipotezlerinin formüle edilmesi

Temel Modelleme & İterasyon Planı

Başlangıç model performansının değerlendirilmesi ve geliştirme planı.

  • Uygun temel modellerin seçimi ve uygulanması
  • Model performansının ölçülmesi
  • İyileştirme alanlarının belirlenmesi
  • İterasyon planı: feature engineering, SOTA model seçimi, hiperparametre ayarlama

Lab Session:

Özel mentorluk eşliğinde proje üzerinde yoğun uygulamalı çalışma, problem ifadesinin iyileştirilmesi, veri güvence altına alma, kapsamlı EDA ve temel model uygulamasının planlanması

Bitirme Projesi - Bölüm 2 & Kariyer Hazırlığı

Bitirme Projesi için İleri Modelleme & Değerlendirme

SOTA modelleri uygulayarak nihai çözümün değerlendirilmesi.

  • Gelişmiş modellerin (Transformer, XGBoost/LightGBM, RAG, Diffusion) uygulanması
  • İleri hiperparametre optimizasyonu (ör. Bayesian optimizasyon)
  • Model değerlendirme, hata analizi ve yorumlama (SHAP, LIME)
  • Dağıtım stratejilerinin simülasyonu

Proje Sunumu & Dokümantasyonu

Proje metodolojisini, sonuçlarını ve etkisini etkili bir şekilde iletmek.

  • Teknik bir sunum yapılandırma
  • Sonuçlar için ilgi çekici görselleştirmeler oluşturma
  • Karmaşık fikirleri farklı kitlelere açıkça iletme
  • Proje dokümantasyonu yazma (ör. README, teknik rapor)
  • Bir proje portföyü parçası oluşturma

Kariyer Başlangıç Pisti

Veri bilimi alanında başarılı iş arayışına hazırlanma.

  • Veri bilimi iş piyasası: roller, gerekli beceriler, endüstri trendleri
  • Etkili bir özgeçmiş hazırlama
  • Profesyonel çevrimiçi varlık oluşturma (LinkedIn, GitHub portföyü)
  • Networking stratejileri
  • Teknik ve davranışsal mülakat hazırlığı (STAR metodu, take-home assignments, vaka çalışmaları, maaş pazarlığı)

Lab Session:

Proje sonlandırma, sunum pratiği, akran ve eğitmen geri bildirimi, sahte mülakat oturumları ve özgeçmiş inceleme atölyeleri

Bootcamp Sonrası Destek

Sürekli Öğrenme & Topluluk

Güncel kalmak ve destek sağlamak için kaynaklar ve networking.

  • Kürateli kaynaklara erişim (bloglar, bültenler, anahtar araştırmacılar, konferanslar)
  • Bootcamp mezunları ağı ile devam eden destek ve networking

Kariyer Hizmetleri Uzantısı

Mezuniyet sonrası iş arama desteği ve işveren ortak ağlarına erişim imkanı.

Bizimle iletişime geçin