Programlar
Hızlandırılmış programların ders süresi daha azdır ancak öğrencinin kendi vaktinde daha fazla çalışmasını gerektirir.
Kurs Açıklaması
Veri Mühendisliğinde Uzmanlaşın: Temellerden Modern Mimarilere Uçtan Uca Büyük Veri Yolculuğu
Verinin en değerli kaynak olduğu günümüz dünyasında, bu verileri işleyebilen, depolayabilen ve değere dönüştürebilen profesyonellere olan talep hiç olmadığı kadar yüksek.
Bu kapsamlı kurs, sizi Büyük Veri dünyasının temellerinden alıp, en modern bulut tabanlı veri platformlarını tasarlayıp yönetecek ileri düzey yetkinliklere taşıyor. İlişkisel veritabanlarından NoSQL'e, HDFS'ten bulut depolamaya (AWS/Azure), Batch işlemeden gerçek zamanlı akışa (Spark & Kafka), Data Lake'lerden Lakehouse mimarilerine kadar tüm kritik konuları derinlemesine ve uygulamalı olarak ele alıyoruz.
Sadece teoride kalmayacak; Docker, Terraform (IaC), Apache Spark, Kafka, Airflow gibi endüstri standardı araçlarla laboratuvarlarda pratik deneyim kazanacak, veri boru hatları (pipelines) kuracak, optimize edecek ve operasyonel hale getireceksiniz. Veri kalitesi, güvenlik, yönetişim ve maliyet optimizasyonu gibi gerçek dünya zorluklarına çözümler üretebilen, aranan bir Veri Mühendisi olmak için gereken her şeyi bu kursta bulacaksınız. Kariyerinizde bir sonraki adımı atmaya hazırsanız veya bu konuda çalışıyor ve daha da yetkin hale gelmek istiyorsanız bu yolculuk tam da size göre!
Kursun Amacı
Bu kursun temel amacı, katılımcılara modern veri ekosisteminde başarılı bir Veri Mühendisi olmak için gereken teorik bilgiyi, pratik becerileri ve stratejik bakış açısını kazandırmaktır. Kurs sonunda katılımcılar şunları yapabiliyor olacaktır:
Büyük Veri kavramlarını (5V), yaşam döngüsünü ve modern veri mimarilerine (Data Lake, Lakehouse, Lambda/Kappa) hakim olacak ve sistem tasarımları yapabilecek.
İlişkisel (SQL) ve NoSQL veritabanı sistemlerini anlayacak, modelleyecek ve projelerine entegre edebilecek.
AWS/Azure gibi lider bulut platformlarında altyapıyı kod (IaC - Terraform) ile kurup yönetebilecek, temel bulut hizmetlerini (depolama, işlem) etkin bir şekilde kullanabilecek.
Hadoop ekosistemini (HDFS, Hive) ve modern depolama formatlarını (Parquet, Avro) anlayacak ve uygulayabilecek.
Apache Spark kullanarak büyük veri kümelerini etkin bir şekilde işleyebilecek (DataFrame API, Spark SQL), optimize edebilecek ve yönetebilecek.
Apache Kafka ve Spark Structured Streaming gibi teknolojilerle gerçek zamanlı veri akışlarını işleyebilecek sistemler tasarlayabilecek ve kurabilecek .
Veri alımı (ETL/ELT), orkestrasyon (Airflow/Bulut Araçları) ve veri boru hattı(pipeline) yönetimi süreçlerini tasarlayabilecek ve uygulayabilecek.
Veri kalitesi, güvenlik, yönetişim prensiplerini anlayacak ve büyük veri sistemlerine entegre edebilecek .
Büyük veri platformlarını izleyebilecek, test edebilecek, CI/CD süreçlerini uygulayabilecek ve maliyet optimizasyonu yapabilecek .
Uçtan uca bir büyük veri projesini tasarlayıp hayata geçirebilecek yetkinliğe ulaşacak.
Konular
Büyük Veri Temelleri ve İlişkisel Veri Sistemleri
Büyük Veri Nedir?
Büyük Veri Tanımı ve Özellikleri (5V - Hacim, Hız, Çeşitlilik, Doğruluk, Değer)
Hangi Veri "Büyük Veri"dir?
Hangi iş süreçlerinde kullanılır?
Büyük Veri Yaşam Döngüsü
Veri Alımı → Depolama → İşleme → Analiz → Sunum → Yönetişim
İlişkisel Veri Tabanlarına Giriş
İlişkisel Veri Modeli Temelleri
SQL Temel İşlemleri (SELECT, JOIN, GROUP BY, WHERE)
Normalizasyon (1NF, 2NF, 3NF) Kavramları ve Önemi
ACID Özellikleri ve Önemi
Veri Mimarilerinin Evrimi
Veritabanı → Veri Deposu →Data Lake → Lakehouse Mimarileri
Lambda & Kappa Mimarileri (Bağlam & Önemi)
Dağıtık Sistemler Temelleri
Tek bir süper bilgisayarda yapmak yerine neden dağıtık sistemler?
CAP Teoremi, BASE Kavramı ve Uygulamadaki Anlamları
Bulut Geliştirme Ortamı Kurma (AWS/Azure Odaklı)
Bulut Konsoluna Giriş & IAM Temelleri
CLI Kurulumu
Kod Olarak Altyapı (IaC) Temelleri (Terraform/CloudFormation)
Docker Temelleri
Laboratuvar 1
Docker’da basit dağıtık (HDFS + Spark) ve MySQL ortamı kurmak
MinIO ile yerel “S3” deneyi
Terraform ile AWS S3 oluşturmak
IaC ile temel bulut depolaması sağlamak
Petabaytları Depolama: On-Prem ve Bulut Çözümler
Geleneksel (On-Premise) Veri Depolama Çözümleri
Yerel Dosya Sistemleri (HDFS - Hadoop Distributed File System)
Hadoop Temelleri ve Ekosistemi
Hadoop Cluster (YARN) Kurulumu ve Yönetimi
Hadoop Ekosistem Araçları (HDFS, Hive, HBase)
Bulut Temelleri ve Altyapı Kurulumu
AWS/Azure/GCP Temelleri, Konsol ve CLI Kullanımı
Altyapıyı Kod Olarak Yönetme (Terraform, CloudFormation)
Bulutta Nesne Depolama Hizmetleri
AWS S3, Azure Data Lake Storage (ADLS), Google Cloud Storage (GCS)
Depolama Türleri, Fiyatlandırma ve Yaşam Döngüsü Yönetimi
Erişim Yönetimi, Güvenlik (IAM, Erişim Kontrolü)
Büyük Veri için Veri Formatları
CSV, JSON formatı ve kısıtlamaları
Sütun-Bazlı Depolama Formatları: Parquet, ORC
Serileştirme ve Veri Evrimi (Avro, Protobuf)
NoSQL ve Lakehouse Mimarisi
NoSQL Veritabanları
NoSQL Nedir? Ne Zaman Tercih Edilir? (CAP ve BASE Bağlantısı)
Anahtar-Değer Depoları (DynamoDB, Redis vb.)
Kullanım durumları, modelleme, ölçeklendirme
Doküman Tabanlı Depolar (MongoDB, Cosmos DB)
kullanım durumları, esnek şema
Sütun-Ailesi Depoları (Cassandra, HBase)
Write-heavy, zaman serisi
Grafik ve Zaman Serisi Veritabanlarına Kısa Bakış
Lakehouse Mimarisi
Data Lake vs Data Warehouse vs Lakehouse
Delta Lake, Apache Iceberg, Apache Hudi Temelleri
ACID, Schema Evolution, Time Travel
Laboratuvar 2
Bulut depolamada verileri Parquet’e alma ve dönüştürme
Temel NoSQL etkileşimleri
Basit bir Delta Lake tablosu uygulaması
Veri Alımı, Orkestrasyon ve ETL/ELT Süreçleri
Veri Alımı Stratejileri (Data Ingestion)
Batch Alım vs Streaming Alım
ETL ve ELT Farkları
CDC (Change Data Capture) Yaklaşımları (Debezium)
API Tabanlı Alım
Alım Araçları ve Teknolojiler
Sqoop, Flume
Apache Kafka ve Kafka Connect
Bulut Araçları (AWS Glue, Azure Data Factory, GCP Dataflow)
Veri Orkestrasyonu
Orkestrasyon nedir?
Neden orkestre edilmeli?
Apache Airflow Kavramları (DAG, Operatörler, Hata Yönetimi)
Bulut Orkestrasyon Araçları (AWS Step Functions, Azure Data Factory Pipelines)
Bağımlılıklar, hata yönetimi, yeniden denemeler, izleme
Veri Boru Hatları için Kod Olarak Altyapı (IaC)
Terraform / CloudFormation / ARM Şablonlarını Kullanma
Veri kaynaklarını yönetme (Depolama, Hesaplama,
Altyapı için sürüm kontrolü
Laboratuvar 3
Bulut hizmetlerini (örn. ADF/Glue) kullanarak bir ELT boru hattı oluşturma
Veri dönüşümleri yapmak
IaC ile tanımlanan Airflow veya Step Functions ile orkestrasyon
Veri İşlemek İçin Apache Spark
Spark Mimarisi & Temel Kavramlar
Temel Kavramlar (Driver, Executor, Cluster Manager)
RDD, DataFrame ve Dataset Kavramları
Catalyst Optimizer & Tungsten
Lazy Evaluation
Spark SQL & DataFrame API
Farklı kaynakları okuma/yazma (Parquet, Delta, JDBC, NoSQL)
SQL sorguları & DataFrame işlemleri
Select
Filter
Join
GroupBy, Aggregate, Window Fonksiyonları
Kullanıcı Tanımlı Fonksiyonlar (UDF’ler)
Spark Performans Ayarları
Partitioning, Shuffling ve Join Stratejileri
Cache ve Persistence Yöntemleri
Spark UI kullanımı ve optimizasyonu
Bulutta Spark Yönetimi
AWS EMR, Azure Databricks, GCP Dataproc Kullanımı ve Yönetimi
Spark Cluster Ayarlama ve Optimizasyonu
Laboratuvar 4.1
Gerçek hayat verileri üzerinde Spark SQL & DataFrame API ile kapsamlı uygulama
Laboratuvar 4.2
Yönetilen bulut hizmetinde Spark görevlerini dağıtma, izleme ve temel ayarlamalar yapma
Gerçek Zamanlı Akan Veri İşleme (Streaming)
Gerçek Zamanlı Veri İşleme Kavramları
Event Time, Processing Time, Windowing ve Watermarking
Veri İşleme Garantileri (Exactly-once, At-least-once)
Streaming Platformları ve Kafka
Apache Kafka Detaylı Bakış (Broker, Topic, Partition, Offset, Consumers)
Bulut Platformları (AWS Kinesis, Azure Event Hubs, GCP Pub/Sub)
Spark Structured Streaming
Spark Streaming ve Structured Streaming Kavramları
DataFrame API
Mikro-batch ve Continuous Processing Farkları
Streaming Verinin Bulutta Yönetimi (Kafka → Spark → Depolama)
Sources & Sinks (Kafka, Dosyalar, Bulut Akışları, Delta Lake)
Checkpoint oluşturma & hata toleransı
Apache Flink’e Giriş (Karşılaştırmalı Genel Bakış)
Düşük gecikmeli akışa odaklanma
Spark Streaming’den temel kavramsal farklar
Laboratuvar 5.1
Kafka veya bulut akış hizmetini (Kinesis/Event Hubs/PubSub) kurma ve etkileşim oluşturma
Laboratuvar 5.2
Spark Yapılandırılmış Akış görevi oluşturma (okuma, dönüştürme, pencereleme, yazma)
Watermarking & checkpointing uygulama
Veri Kalitesi, Güvenlik ve Yönetişim
Veri Kalitesi Yönetimi
- Veri Kalitesi Boyutları (Doğruluk, Tutarlılık, Tamlık vb.)
- Veri Kalitesi Araçları (Great Expectations, Deequ)
Veri Yönetişimi Temelleri
- Metadata Yönetimi ve Veri Kataloğu (AWS Glue Catalog, Azure Purview)
- Veri Kökeni (Lineage) Kavramı ve Uyumluluk (GDPR, CCPA)
Büyük Veri Güvenliği
- Kimlik Doğrulama ve Yetkilendirme (IAM, RBAC)
- Veri Gizliliği Teknikleri (Anonimleştirme, Takma İsimlendirme)
- Şifreleme (Veri Saklarken ve Taşırken)
Veriyi Sunma - Analitik & BI Entegrasyonu
Büyük Veri Analitiği Araçları
Dağıtık SQL Motorları (Presto, Trino, AWS Athena, Google BigQuery)
Bulut Veri Depoları (AWS Redshift, Azure Synapse, Google BigQuery)
Modern Bulut Veri Deposusu
AWS Redshift / Azure Synapse Dedicated SQL / Google BigQuery
MPP mimarisi, sütun depolama, dağıtım, WLM
Lakehouse’dan yükleme
Veri deposu kullanımı vs. lake sorgulama zamanı
İş Zekası (BI) Araçları ile Entegrasyon
Tableau, Power BI, Looker ve AWS QuickSight Bağlantısı
DirectQuery ve Veri İçe Aktarma Stratejileri
Sorgu motoru uç noktaları (Athena, Synapse, BigQuery, Databricks SQL)
Veri API’si ve Sunum Katmanlarına Giriş
Basit veri sunumu için sunucusuz fonksiyonları (Lambda/Azure Functions) kullanma
Laboratuvar 6
Athena/Synapse Serverless/BigQuery kullanarak Lakehouse verisini sorgulama
Bir BI aracını bağlama
Basit bir sunucusuz veri API’si oluşturma
Büyük Veri Pipeline Operasyonelleştirme
İzleme, Günlükleme ve Alarm Yönetimi
Dağıtık izleme kavramları
Boru hatları için ana metrikler (Spark, Kafka, Depolama, Sorgu Motorları)
Bulut İzleme Araçları (CloudWatch, Azure Monitor, Google Monitoring)
Dağıtık Sistemlerde Loglama ve Uyarılar
Veri Boru Hatlarını Test Etme
Birim testi (Spark)
Entegrasyon test aşamaları
Veri doğrulama testi (Veri kalitesi entegrasyonu)
Test veri stratejileri & canary dağıtımlar
CI/CD Yaklaşımları
GitHub Actions, GitLab CI, Jenkinsve ve Azure DevOps ile Sürekli Entegrasyon ve Teslimat
Test Stratejileri ve Ortam Yönetimi (Development, Stage, Production)
Maliyet Yönetimi ve Optimizasyonu
Bulut Hizmetleri Maliyetlendirme Modelleri
Kaynak Optimizasyonu (Reserved Instance, Spot Instance)
Depolama katmanı optimizasyonu
Maliyet izleme araçları & bütçeleme
Sorgu maliyeti optimizasyonu
Laboratuvar 7
İşleri ve metrikler günlüklerle enstrümante etme
Uyarılar oluşturma
Temel bir CI/CD pipeline oluşturma
Örnek bir iş yükü için maliyet optimizasyonlarını analiz etme ve önerme
Güncel Trendler ve Kariyer
Yeni Trendler
Veri Mesh Konsepti ve Uygulamaları
MLOps ve Özellik Mağazaları (Feature Store)
Vektör Veritabanları ve Yapay Zeka Bağlantısı
Kariyer ve Sürekli Öğrenme
Veri Mühendisliği Kariyer Yolları
Sürekli Öğrenme Stratejileri ve Kaynakları
Capstone Projesi (Bitirme Projesi)
Uçtan Uca Büyük Veri Projesi
Gerçek Hayat Senaryosu ile Veri Alımı, Depolama, İşleme, Analitik ve Görselleştirme
IaC, CI/CD, Güvenlik, İzleme, Maliyet Optimizasyonu Entegrasyonu
Proje Dokümantasyonu ve Demo/Sunum
Bizimle iletişime geçin