Big Data (Büyük Veri) Bootcamp

Model Online/Fiziksel

Modüller 11 modül

Bireysel Kurumsal

Bilgi al

Sayfadaki kurs içeriği genel bilgi içindir. Eğitim kurumun ihtiyaçlarına göre tasarlanabilir. Detaylı bilgi için İletişim

İsteyen kurumlara Boğaziçi Üniversitesi Yaşamboyu Eğitim Merkezi ile birlikte eğitim ve sertifika düzenlenebilir.

Paylaş

Programlar

Hızlandırılmış 48 saat
Bootcamp 90 saat

Hızlandırılmış programların ders süresi daha azdır ancak öğrencinin kendi vaktinde daha fazla çalışmasını gerektirir.

Kurs Açıklaması

Veri Mühendisliğinde Uzmanlaşın: Temellerden Modern Mimarilere Uçtan Uca Büyük Veri Yolculuğu

Verinin en değerli kaynak olduğu günümüz dünyasında, bu verileri işleyebilen, depolayabilen ve değere dönüştürebilen profesyonellere olan talep hiç olmadığı kadar yüksek.

Bu kapsamlı kurs, sizi Büyük Veri dünyasının temellerinden alıp, en modern bulut tabanlı veri platformlarını tasarlayıp yönetecek ileri düzey yetkinliklere taşıyor. İlişkisel veritabanlarından NoSQL'e, HDFS'ten bulut depolamaya (AWS/Azure), Batch işlemeden gerçek zamanlı akışa (Spark & Kafka), Data Lake'lerden Lakehouse mimarilerine kadar tüm kritik konuları derinlemesine ve uygulamalı olarak ele alıyoruz.

Sadece teoride kalmayacak; Docker, Terraform (IaC), Apache Spark, Kafka, Airflow gibi endüstri standardı araçlarla laboratuvarlarda pratik deneyim kazanacak, veri boru hatları (pipelines) kuracak, optimize edecek ve operasyonel hale getireceksiniz. Veri kalitesi, güvenlik, yönetişim ve maliyet optimizasyonu gibi gerçek dünya zorluklarına çözümler üretebilen, aranan bir Veri Mühendisi olmak için gereken her şeyi bu kursta bulacaksınız. Kariyerinizde bir sonraki adımı atmaya hazırsanız veya bu konuda çalışıyor ve daha da yetkin hale gelmek istiyorsanız bu yolculuk tam da size göre!

Kursun Amacı

Bu kursun temel amacı, katılımcılara modern veri ekosisteminde başarılı bir Veri Mühendisi olmak için gereken teorik bilgiyi, pratik becerileri ve stratejik bakış açısını kazandırmaktır. Kurs sonunda katılımcılar şunları yapabiliyor olacaktır:

Büyük Veri kavramlarını (5V), yaşam döngüsünü ve modern veri mimarilerine (Data Lake, Lakehouse, Lambda/Kappa) hakim olacak ve sistem tasarımları yapabilecek.
İlişkisel (SQL) ve NoSQL veritabanı sistemlerini anlayacak, modelleyecek ve projelerine entegre edebilecek.
AWS/Azure gibi lider bulut platformlarında altyapıyı kod (IaC - Terraform) ile kurup yönetebilecek, temel bulut hizmetlerini (depolama, işlem) etkin bir şekilde kullanabilecek.
Hadoop ekosistemini (HDFS, Hive) ve modern depolama formatlarını (Parquet, Avro) anlayacak ve uygulayabilecek.
Apache Spark kullanarak büyük veri kümelerini etkin bir şekilde işleyebilecek (DataFrame API, Spark SQL), optimize edebilecek ve yönetebilecek.
Apache Kafka ve Spark Structured Streaming gibi teknolojilerle gerçek zamanlı veri akışlarını işleyebilecek sistemler tasarlayabilecek ve kurabilecek .
Veri alımı (ETL/ELT), orkestrasyon (Airflow/Bulut Araçları) ve veri boru hattı(pipeline) yönetimi süreçlerini tasarlayabilecek ve uygulayabilecek.
Veri kalitesi, güvenlik, yönetişim prensiplerini anlayacak ve büyük veri sistemlerine entegre edebilecek .
Büyük veri platformlarını izleyebilecek, test edebilecek, CI/CD süreçlerini uygulayabilecek ve maliyet optimizasyonu yapabilecek .
Uçtan uca bir büyük veri projesini tasarlayıp hayata geçirebilecek yetkinliğe ulaşacak.

Konular

Büyük Veri Temelleri ve İlişkisel Veri Sistemleri

Büyük Veri Nedir?

Büyük Veri Tanımı ve Özellikleri (5V - Hacim, Hız, Çeşitlilik, Doğruluk, Değer)
Hangi Veri "Büyük Veri"dir?
Hangi iş süreçlerinde kullanılır?

Büyük Veri Yaşam Döngüsü

Veri Alımı → Depolama → İşleme → Analiz → Sunum → Yönetişim

İlişkisel Veri Tabanlarına Giriş

İlişkisel Veri Modeli Temelleri
SQL Temel İşlemleri (SELECT, JOIN, GROUP BY, WHERE)
Normalizasyon (1NF, 2NF, 3NF) Kavramları ve Önemi
ACID Özellikleri ve Önemi

Veri Mimarilerinin Evrimi

Veritabanı → Veri Deposu →Data Lake → Lakehouse Mimarileri
Lambda & Kappa Mimarileri (Bağlam & Önemi)

Dağıtık Sistemler Temelleri

Tek bir süper bilgisayarda yapmak yerine neden dağıtık sistemler?
CAP Teoremi, BASE Kavramı ve Uygulamadaki Anlamları

Bulut Geliştirme Ortamı Kurma (AWS/Azure Odaklı)

Bulut Konsoluna Giriş & IAM Temelleri
CLI Kurulumu
Kod Olarak Altyapı (IaC) Temelleri (Terraform/CloudFormation)
Docker Temelleri

Laboratuvar 1

Docker’da basit dağıtık (HDFS + Spark) ve MySQL ortamı kurmak
MinIO ile yerel “S3” deneyi
Terraform ile AWS S3 oluşturmak
IaC ile temel bulut depolaması sağlamak

Petabaytları Depolama: On-Prem ve Bulut Çözümler

Geleneksel (On-Premise) Veri Depolama Çözümleri

Yerel Dosya Sistemleri (HDFS - Hadoop Distributed File System)
Hadoop Temelleri ve Ekosistemi
Hadoop Cluster (YARN) Kurulumu ve Yönetimi
Hadoop Ekosistem Araçları (HDFS, Hive, HBase)

Bulut Temelleri ve Altyapı Kurulumu

AWS/Azure/GCP Temelleri, Konsol ve CLI Kullanımı
Altyapıyı Kod Olarak Yönetme (Terraform, CloudFormation)

Bulutta Nesne Depolama Hizmetleri

AWS S3, Azure Data Lake Storage (ADLS), Google Cloud Storage (GCS)
Depolama Türleri, Fiyatlandırma ve Yaşam Döngüsü Yönetimi
Erişim Yönetimi, Güvenlik (IAM, Erişim Kontrolü)

Büyük Veri için Veri Formatları

CSV, JSON formatı ve kısıtlamaları
Sütun-Bazlı Depolama Formatları: Parquet, ORC
Serileştirme ve Veri Evrimi (Avro, Protobuf)

NoSQL ve Lakehouse Mimarisi

NoSQL Veritabanları

NoSQL Nedir? Ne Zaman Tercih Edilir? (CAP ve BASE Bağlantısı)
Anahtar-Değer Depoları (DynamoDB, Redis vb.)
- Kullanım durumları, modelleme, ölçeklendirme
Doküman Tabanlı Depolar (MongoDB, Cosmos DB)
- kullanım durumları, esnek şema
Sütun-Ailesi Depoları (Cassandra, HBase)
- Write-heavy, zaman serisi
Grafik ve Zaman Serisi Veritabanlarına Kısa Bakış

Lakehouse Mimarisi

Data Lake vs Data Warehouse vs Lakehouse
Delta Lake, Apache Iceberg, Apache Hudi Temelleri
ACID, Schema Evolution, Time Travel

Laboratuvar 2

Bulut depolamada verileri Parquet’e alma ve dönüştürme
Temel NoSQL etkileşimleri
Basit bir Delta Lake tablosu uygulaması

Veri Alımı, Orkestrasyon ve ETL/ELT Süreçleri

Veri Alımı Stratejileri (Data Ingestion)

Batch Alım vs Streaming Alım
ETL ve ELT Farkları
CDC (Change Data Capture) Yaklaşımları (Debezium)
API Tabanlı Alım

Alım Araçları ve Teknolojiler

Sqoop, Flume
Apache Kafka ve Kafka Connect
Bulut Araçları (AWS Glue, Azure Data Factory, GCP Dataflow)

Veri Orkestrasyonu

Orkestrasyon nedir?
Neden orkestre edilmeli?
Apache Airflow Kavramları (DAG, Operatörler, Hata Yönetimi)
Bulut Orkestrasyon Araçları (AWS Step Functions, Azure Data Factory Pipelines)
Bağımlılıklar, hata yönetimi, yeniden denemeler, izleme

Veri Boru Hatları için Kod Olarak Altyapı (IaC)

Terraform / CloudFormation / ARM Şablonlarını Kullanma
Veri kaynaklarını yönetme (Depolama, Hesaplama,
Altyapı için sürüm kontrolü

Laboratuvar 3

Bulut hizmetlerini (örn. ADF/Glue) kullanarak bir ELT boru hattı oluşturma
Veri dönüşümleri yapmak
IaC ile tanımlanan Airflow veya Step Functions ile orkestrasyon

Veri İşlemek İçin Apache Spark

Spark Mimarisi & Temel Kavramlar

Temel Kavramlar (Driver, Executor, Cluster Manager)
RDD, DataFrame ve Dataset Kavramları
Catalyst Optimizer & Tungsten
Lazy Evaluation

Spark SQL & DataFrame API

Farklı kaynakları okuma/yazma (Parquet, Delta, JDBC, NoSQL)
SQL sorguları & DataFrame işlemleri
- Select
- Filter
- Join
- GroupBy, Aggregate, Window Fonksiyonları
Kullanıcı Tanımlı Fonksiyonlar (UDF’ler)

Spark Performans Ayarları

Partitioning, Shuffling ve Join Stratejileri
Cache ve Persistence Yöntemleri
Spark UI kullanımı ve optimizasyonu

Bulutta Spark Yönetimi

AWS EMR, Azure Databricks, GCP Dataproc Kullanımı ve Yönetimi
Spark Cluster Ayarlama ve Optimizasyonu

Laboratuvar 4.1

Gerçek hayat verileri üzerinde Spark SQL & DataFrame API ile kapsamlı uygulama

Laboratuvar 4.2

Yönetilen bulut hizmetinde Spark görevlerini dağıtma, izleme ve temel ayarlamalar yapma

Gerçek Zamanlı Akan Veri İşleme (Streaming)

Gerçek Zamanlı Veri İşleme Kavramları

Event Time, Processing Time, Windowing ve Watermarking
Veri İşleme Garantileri (Exactly-once, At-least-once)

Streaming Platformları ve Kafka

Apache Kafka Detaylı Bakış (Broker, Topic, Partition, Offset, Consumers)
Bulut Platformları (AWS Kinesis, Azure Event Hubs, GCP Pub/Sub)

Spark Structured Streaming

Spark Streaming ve Structured Streaming Kavramları
DataFrame API
Mikro-batch ve Continuous Processing Farkları
Streaming Verinin Bulutta Yönetimi (Kafka → Spark → Depolama)
Sources & Sinks (Kafka, Dosyalar, Bulut Akışları, Delta Lake)
Checkpoint oluşturma & hata toleransı

Apache Flink’e Giriş (Karşılaştırmalı Genel Bakış)

Düşük gecikmeli akışa odaklanma
Spark Streaming’den temel kavramsal farklar

Laboratuvar 5.1

Kafka veya bulut akış hizmetini (Kinesis/Event Hubs/PubSub) kurma ve etkileşim oluşturma

Laboratuvar 5.2

Spark Yapılandırılmış Akış görevi oluşturma (okuma, dönüştürme, pencereleme, yazma)
Watermarking & checkpointing uygulama

Veri Kalitesi, Güvenlik ve Yönetişim

Veri Kalitesi Yönetimi

Veri Kalitesi Boyutları (Doğruluk, Tutarlılık, Tamlık vb.)
Veri Kalitesi Araçları (Great Expectations, Deequ)

Veri Yönetişimi Temelleri

Metadata Yönetimi ve Veri Kataloğu (AWS Glue Catalog, Azure Purview)
Veri Kökeni (Lineage) Kavramı ve Uyumluluk (GDPR, CCPA)

Büyük Veri Güvenliği

Kimlik Doğrulama ve Yetkilendirme (IAM, RBAC)
Veri Gizliliği Teknikleri (Anonimleştirme, Takma İsimlendirme)
Şifreleme (Veri Saklarken ve Taşırken)

Veriyi Sunma - Analitik & BI Entegrasyonu

Büyük Veri Analitiği Araçları

Dağıtık SQL Motorları (Presto, Trino, AWS Athena, Google BigQuery)
Bulut Veri Depoları (AWS Redshift, Azure Synapse, Google BigQuery)

Modern Bulut Veri Deposusu

AWS Redshift / Azure Synapse Dedicated SQL / Google BigQuery
MPP mimarisi, sütun depolama, dağıtım, WLM
Lakehouse’dan yükleme
Veri deposu kullanımı vs. lake sorgulama zamanı

İş Zekası (BI) Araçları ile Entegrasyon

Tableau, Power BI, Looker ve AWS QuickSight Bağlantısı
DirectQuery ve Veri İçe Aktarma Stratejileri
Sorgu motoru uç noktaları (Athena, Synapse, BigQuery, Databricks SQL)

Veri API’si ve Sunum Katmanlarına Giriş

Basit veri sunumu için sunucusuz fonksiyonları (Lambda/Azure Functions) kullanma

Laboratuvar 6

Athena/Synapse Serverless/BigQuery kullanarak Lakehouse verisini sorgulama
Bir BI aracını bağlama
Basit bir sunucusuz veri API’si oluşturma

Büyük Veri Pipeline Operasyonelleştirme

İzleme, Günlükleme ve Alarm Yönetimi

Dağıtık izleme kavramları
Boru hatları için ana metrikler (Spark, Kafka, Depolama, Sorgu Motorları)
Bulut İzleme Araçları (CloudWatch, Azure Monitor, Google Monitoring)
Dağıtık Sistemlerde Loglama ve Uyarılar

Veri Boru Hatlarını Test Etme

Birim testi (Spark)
Entegrasyon test aşamaları
Veri doğrulama testi (Veri kalitesi entegrasyonu)
Test veri stratejileri & canary dağıtımlar

CI/CD Yaklaşımları

GitHub Actions, GitLab CI, Jenkinsve ve Azure DevOps ile Sürekli Entegrasyon ve Teslimat
Test Stratejileri ve Ortam Yönetimi (Development, Stage, Production)

Maliyet Yönetimi ve Optimizasyonu

Bulut Hizmetleri Maliyetlendirme Modelleri
Kaynak Optimizasyonu (Reserved Instance, Spot Instance)
Depolama katmanı optimizasyonu
Maliyet izleme araçları & bütçeleme
Sorgu maliyeti optimizasyonu

Laboratuvar 7

İşleri ve metrikler günlüklerle enstrümante etme
Uyarılar oluşturma
Temel bir CI/CD pipeline oluşturma
Örnek bir iş yükü için maliyet optimizasyonlarını analiz etme ve önerme

Güncel Trendler ve Kariyer

Yeni Trendler

Veri Mesh Konsepti ve Uygulamaları
MLOps ve Özellik Mağazaları (Feature Store)
Vektör Veritabanları ve Yapay Zeka Bağlantısı

Kariyer ve Sürekli Öğrenme

Veri Mühendisliği Kariyer Yolları
Sürekli Öğrenme Stratejileri ve Kaynakları

Capstone Projesi (Bitirme Projesi)

Uçtan Uca Büyük Veri Projesi

Gerçek Hayat Senaryosu ile Veri Alımı, Depolama, İşleme, Analitik ve Görselleştirme
IaC, CI/CD, Güvenlik, İzleme, Maliyet Optimizasyonu Entegrasyonu
Proje Dokümantasyonu ve Demo/Sunum