Model Online/Fiziksel
Modüller 11 modül
Bilgi al

Programlar

Hızlandırılmış programların ders süresi daha azdır ancak öğrencinin kendi vaktinde daha fazla çalışmasını gerektirir.

Kurs Açıklaması

Eğitmen

Veri Mühendisliğinde Uzmanlaşın: Temellerden Modern Mimarilere Uçtan Uca Büyük Veri Yolculuğu

Verinin en değerli kaynak olduğu günümüz dünyasında, bu verileri işleyebilen, depolayabilen ve değere dönüştürebilen profesyonellere olan talep hiç olmadığı kadar yüksek.

Bu kapsamlı kurs, sizi Büyük Veri dünyasının temellerinden alıp, en modern bulut tabanlı veri platformlarını tasarlayıp yönetecek ileri düzey yetkinliklere taşıyor. İlişkisel veritabanlarından NoSQL'e, HDFS'ten bulut depolamaya (AWS/Azure), Batch işlemeden gerçek zamanlı akışa (Spark & Kafka), Data Lake'lerden Lakehouse mimarilerine kadar tüm kritik konuları derinlemesine ve uygulamalı olarak ele alıyoruz.

Sadece teoride kalmayacak; Docker, Terraform (IaC), Apache Spark, Kafka, Airflow gibi endüstri standardı araçlarla laboratuvarlarda pratik deneyim kazanacak, veri boru hatları (pipelines) kuracak, optimize edecek ve operasyonel hale getireceksiniz. Veri kalitesi, güvenlik, yönetişim ve maliyet optimizasyonu gibi gerçek dünya zorluklarına çözümler üretebilen, aranan bir Veri Mühendisi olmak için gereken her şeyi bu kursta bulacaksınız. Kariyerinizde bir sonraki adımı atmaya hazırsanız veya bu konuda çalışıyor ve daha da yetkin hale gelmek istiyorsanız bu yolculuk tam da size göre!

Kursun Amacı

Bu kursun temel amacı, katılımcılara modern veri ekosisteminde başarılı bir Veri Mühendisi olmak için gereken teorik bilgiyi, pratik becerileri ve stratejik bakış açısını kazandırmaktır. Kurs sonunda katılımcılar şunları yapabiliyor olacaktır:

  • Büyük Veri kavramlarını (5V), yaşam döngüsünü ve modern veri mimarilerine (Data Lake, Lakehouse, Lambda/Kappa) hakim olacak ve sistem tasarımları yapabilecek.

  • İlişkisel (SQL) ve NoSQL veritabanı sistemlerini anlayacak, modelleyecek ve projelerine entegre edebilecek.

  • AWS/Azure gibi lider bulut platformlarında altyapıyı kod (IaC - Terraform) ile kurup yönetebilecek, temel bulut hizmetlerini (depolama, işlem) etkin bir şekilde kullanabilecek.

  • Hadoop ekosistemini (HDFS, Hive) ve modern depolama formatlarını (Parquet, Avro) anlayacak ve uygulayabilecek.

  • Apache Spark kullanarak büyük veri kümelerini etkin bir şekilde işleyebilecek (DataFrame API, Spark SQL), optimize edebilecek ve yönetebilecek.

  • Apache Kafka ve Spark Structured Streaming gibi teknolojilerle gerçek zamanlı veri akışlarını işleyebilecek sistemler tasarlayabilecek ve kurabilecek .

  • Veri alımı (ETL/ELT), orkestrasyon (Airflow/Bulut Araçları) ve veri boru hattı(pipeline) yönetimi süreçlerini tasarlayabilecek ve uygulayabilecek.

  • Veri kalitesi, güvenlik, yönetişim prensiplerini anlayacak ve büyük veri sistemlerine entegre edebilecek .

  • Büyük veri platformlarını izleyebilecek, test edebilecek, CI/CD süreçlerini uygulayabilecek ve maliyet optimizasyonu yapabilecek .

  • Uçtan uca bir büyük veri projesini tasarlayıp hayata geçirebilecek yetkinliğe ulaşacak.

Konular

Büyük Veri Temelleri ve İlişkisel Veri Sistemleri

Büyük Veri Nedir?

  • Büyük Veri Tanımı ve Özellikleri (5V - Hacim, Hız, Çeşitlilik, Doğruluk, Değer)

  • Hangi Veri "Büyük Veri"dir?

  • Hangi iş süreçlerinde kullanılır?

Büyük Veri Yaşam Döngüsü

  • Veri Alımı → Depolama → İşleme → Analiz → Sunum → Yönetişim

İlişkisel Veri Tabanlarına Giriş

  • İlişkisel Veri Modeli Temelleri

  • SQL Temel İşlemleri (SELECT, JOIN, GROUP BY, WHERE)

  • Normalizasyon (1NF, 2NF, 3NF) Kavramları ve Önemi

  • ACID Özellikleri ve Önemi

Veri Mimarilerinin Evrimi

  • Veritabanı → Veri Deposu →Data Lake → Lakehouse Mimarileri

  • Lambda & Kappa Mimarileri (Bağlam & Önemi)

Dağıtık Sistemler Temelleri

  • Tek bir süper bilgisayarda yapmak yerine neden dağıtık sistemler?

  • CAP Teoremi, BASE Kavramı ve Uygulamadaki Anlamları

Bulut Geliştirme Ortamı Kurma (AWS/Azure Odaklı)

  • Bulut Konsoluna Giriş & IAM Temelleri  

  • CLI Kurulumu

  • Kod Olarak Altyapı (IaC) Temelleri (Terraform/CloudFormation)

  • Docker Temelleri

Laboratuvar 1

  • Docker’da basit dağıtık (HDFS + Spark) ve MySQL ortamı kurmak

  • MinIO ile yerel “S3” deneyi

  • Terraform ile AWS S3 oluşturmak

  • IaC ile temel bulut depolaması sağlamak

Petabaytları Depolama: On-Prem ve Bulut Çözümler

Geleneksel (On-Premise) Veri Depolama Çözümleri

  • Yerel Dosya Sistemleri (HDFS - Hadoop Distributed File System)

  • Hadoop Temelleri ve Ekosistemi

  • Hadoop Cluster (YARN) Kurulumu ve Yönetimi

  • Hadoop Ekosistem Araçları (HDFS, Hive, HBase)

Bulut Temelleri ve Altyapı Kurulumu

  • AWS/Azure/GCP Temelleri, Konsol ve CLI Kullanımı

  • Altyapıyı Kod Olarak Yönetme (Terraform, CloudFormation)

Bulutta Nesne Depolama Hizmetleri

  • AWS S3, Azure Data Lake Storage (ADLS), Google Cloud Storage (GCS)

  • Depolama Türleri, Fiyatlandırma ve Yaşam Döngüsü Yönetimi

  • Erişim Yönetimi, Güvenlik (IAM, Erişim Kontrolü)

Büyük Veri için Veri Formatları

  • CSV, JSON formatı ve kısıtlamaları

  • Sütun-Bazlı Depolama Formatları: Parquet, ORC

  • Serileştirme ve Veri Evrimi (Avro, Protobuf)

NoSQL ve Lakehouse Mimarisi

NoSQL Veritabanları

  • NoSQL Nedir? Ne Zaman Tercih Edilir? (CAP ve BASE Bağlantısı)

  • Anahtar-Değer Depoları (DynamoDB, Redis vb.)

    • Kullanım durumları, modelleme, ölçeklendirme

  • Doküman Tabanlı Depolar (MongoDB, Cosmos DB)

    • kullanım durumları, esnek şema

  • Sütun-Ailesi Depoları (Cassandra, HBase)

    • Write-heavy, zaman serisi

  • Grafik ve Zaman Serisi Veritabanlarına Kısa Bakış

Lakehouse Mimarisi

  • Data Lake vs Data Warehouse vs Lakehouse

  • Delta Lake, Apache Iceberg, Apache Hudi Temelleri

  • ACID, Schema Evolution, Time Travel

Laboratuvar 2

  • Bulut depolamada verileri Parquet’e alma ve dönüştürme

  • Temel NoSQL etkileşimleri

  • Basit bir Delta Lake tablosu uygulaması

Veri Alımı, Orkestrasyon ve ETL/ELT Süreçleri

Veri Alımı Stratejileri (Data Ingestion)

  • Batch Alım vs Streaming Alım

  • ETL ve ELT Farkları

  • CDC (Change Data Capture) Yaklaşımları (Debezium)

  • API Tabanlı Alım

Alım Araçları ve Teknolojiler

  • Sqoop, Flume

  • Apache Kafka ve Kafka Connect

  • Bulut Araçları (AWS Glue, Azure Data Factory, GCP Dataflow)

Veri Orkestrasyonu

  • Orkestrasyon nedir?

  • Neden orkestre edilmeli?

  • Apache Airflow Kavramları (DAG, Operatörler, Hata Yönetimi)

  • Bulut Orkestrasyon Araçları (AWS Step Functions, Azure Data Factory Pipelines)

  • Bağımlılıklar, hata yönetimi, yeniden denemeler, izleme

Veri Boru Hatları için Kod Olarak Altyapı (IaC)

  • Terraform / CloudFormation / ARM Şablonlarını Kullanma

  • Veri kaynaklarını yönetme (Depolama, Hesaplama,

  • Altyapı için sürüm kontrolü

Laboratuvar 3

  • Bulut hizmetlerini (örn. ADF/Glue) kullanarak bir ELT boru hattı oluşturma

  • Veri dönüşümleri yapmak

  • IaC ile tanımlanan Airflow veya Step Functions ile orkestrasyon

Veri İşlemek İçin Apache Spark

Spark Mimarisi & Temel Kavramlar

  • Temel Kavramlar (Driver, Executor, Cluster Manager)

  • RDD, DataFrame ve Dataset Kavramları

  • Catalyst Optimizer & Tungsten

  • Lazy Evaluation

Spark SQL & DataFrame API

  • Farklı kaynakları okuma/yazma (Parquet, Delta, JDBC, NoSQL)

  • SQL sorguları & DataFrame işlemleri

    • Select

    • Filter

    • Join

    • GroupBy, Aggregate, Window Fonksiyonları

  • Kullanıcı Tanımlı Fonksiyonlar (UDF’ler)

Spark Performans Ayarları

  • Partitioning, Shuffling ve Join Stratejileri

  • Cache ve Persistence Yöntemleri

  • Spark UI kullanımı ve optimizasyonu

Bulutta Spark Yönetimi

  • AWS EMR, Azure Databricks, GCP Dataproc Kullanımı ve Yönetimi

  • Spark Cluster Ayarlama ve Optimizasyonu

Laboratuvar 4.1

  • Gerçek hayat verileri üzerinde Spark SQL & DataFrame API ile kapsamlı uygulama

Laboratuvar 4.2

  • Yönetilen bulut hizmetinde Spark görevlerini dağıtma, izleme ve temel ayarlamalar yapma

Gerçek Zamanlı Akan Veri İşleme (Streaming)

Gerçek Zamanlı Veri İşleme Kavramları

  • Event Time, Processing Time, Windowing ve Watermarking

  • Veri İşleme Garantileri (Exactly-once, At-least-once)

Streaming Platformları ve Kafka

  • Apache Kafka Detaylı Bakış (Broker, Topic, Partition, Offset, Consumers)

  • Bulut Platformları (AWS Kinesis, Azure Event Hubs, GCP Pub/Sub)

Spark Structured Streaming

  • Spark Streaming ve Structured Streaming Kavramları

  • DataFrame API

  • Mikro-batch ve Continuous Processing Farkları

  • Streaming Verinin Bulutta Yönetimi (Kafka → Spark → Depolama)

  • Sources & Sinks (Kafka, Dosyalar, Bulut Akışları, Delta Lake)

  • Checkpoint oluşturma & hata toleransı

Apache Flink’e Giriş (Karşılaştırmalı Genel Bakış)

  • Düşük gecikmeli akışa odaklanma

  • Spark Streaming’den temel kavramsal farklar

Laboratuvar 5.1

  • Kafka veya bulut akış hizmetini (Kinesis/Event Hubs/PubSub) kurma ve etkileşim oluşturma

Laboratuvar 5.2

  • Spark Yapılandırılmış Akış görevi oluşturma (okuma, dönüştürme, pencereleme, yazma)

  • Watermarking & checkpointing uygulama

Veri Kalitesi, Güvenlik ve Yönetişim

Veri Kalitesi Yönetimi

  • Veri Kalitesi Boyutları (Doğruluk, Tutarlılık, Tamlık vb.)
  • Veri Kalitesi Araçları (Great Expectations, Deequ)

Veri Yönetişimi Temelleri

  • Metadata Yönetimi ve Veri Kataloğu (AWS Glue Catalog, Azure Purview)
  • Veri Kökeni (Lineage) Kavramı ve Uyumluluk (GDPR, CCPA)

Büyük Veri Güvenliği

  • Kimlik Doğrulama ve Yetkilendirme (IAM, RBAC)
  • Veri Gizliliği Teknikleri (Anonimleştirme, Takma İsimlendirme)
  • Şifreleme (Veri Saklarken ve Taşırken)

Veriyi Sunma - Analitik & BI Entegrasyonu

Büyük Veri Analitiği Araçları

  • Dağıtık SQL Motorları (Presto, Trino, AWS Athena, Google BigQuery)

  • Bulut Veri Depoları (AWS Redshift, Azure Synapse, Google BigQuery)

Modern Bulut Veri Deposusu

  • AWS Redshift / Azure Synapse Dedicated SQL / Google BigQuery

  • MPP mimarisi, sütun depolama, dağıtım, WLM

  • Lakehouse’dan yükleme

  • Veri deposu kullanımı vs. lake sorgulama zamanı

İş Zekası (BI) Araçları ile Entegrasyon

  • Tableau, Power BI, Looker ve AWS QuickSight Bağlantısı

  • DirectQuery ve Veri İçe Aktarma Stratejileri

  • Sorgu motoru uç noktaları (Athena, Synapse, BigQuery, Databricks SQL)

Veri API’si ve Sunum Katmanlarına Giriş

  • Basit veri sunumu için sunucusuz fonksiyonları (Lambda/Azure Functions) kullanma

Laboratuvar 6

  • Athena/Synapse Serverless/BigQuery kullanarak Lakehouse verisini sorgulama

  • Bir BI aracını bağlama

  • Basit bir sunucusuz veri API’si oluşturma

Büyük Veri Pipeline Operasyonelleştirme

İzleme, Günlükleme ve Alarm Yönetimi

  • Dağıtık izleme kavramları

  • Boru hatları için ana metrikler (Spark, Kafka, Depolama, Sorgu Motorları)

  • Bulut İzleme Araçları (CloudWatch, Azure Monitor, Google Monitoring)

  • Dağıtık Sistemlerde Loglama ve Uyarılar

Veri Boru Hatlarını Test Etme

  • Birim testi (Spark)

  • Entegrasyon test aşamaları

  • Veri doğrulama testi (Veri kalitesi entegrasyonu)

  • Test veri stratejileri & canary dağıtımlar

CI/CD Yaklaşımları

  • GitHub Actions, GitLab CI, Jenkinsve ve Azure DevOps ile Sürekli Entegrasyon ve Teslimat

  • Test Stratejileri ve Ortam Yönetimi (Development, Stage, Production)

Maliyet Yönetimi ve Optimizasyonu

  • Bulut Hizmetleri Maliyetlendirme Modelleri

  • Kaynak Optimizasyonu (Reserved Instance, Spot Instance)

  • Depolama katmanı optimizasyonu

  • Maliyet izleme araçları & bütçeleme

  • Sorgu maliyeti optimizasyonu

Laboratuvar 7

  • İşleri ve metrikler günlüklerle enstrümante etme

  • Uyarılar oluşturma

  • Temel bir CI/CD pipeline oluşturma

  • Örnek bir iş yükü için maliyet optimizasyonlarını analiz etme ve önerme

Güncel Trendler ve Kariyer

Yeni Trendler

  • Veri Mesh Konsepti ve Uygulamaları

  • MLOps ve Özellik Mağazaları (Feature Store)

  • Vektör Veritabanları ve Yapay Zeka Bağlantısı

Kariyer ve Sürekli Öğrenme

  • Veri Mühendisliği Kariyer Yolları

  • Sürekli Öğrenme Stratejileri ve Kaynakları

Capstone Projesi (Bitirme Projesi)

Uçtan Uca Büyük Veri Projesi

  • Gerçek Hayat Senaryosu ile Veri Alımı, Depolama, İşleme, Analitik ve Görselleştirme

  • IaC, CI/CD, Güvenlik, İzleme, Maliyet Optimizasyonu Entegrasyonu

  • Proje Dokümantasyonu ve Demo/Sunum

Bizimle iletişime geçin