Big Data (Büyük Veri)
Bireysel sayfadasınız. Kurumsal sayfaya geçebilirsiniz.
Renkler tuhaf mı görünüyor? Samsung Internet tarayıcısı koyu modda site renklerini değiştiriyor olabilir. Kapatmak için Internet menüsünden Ayarlar → Kullanışlı Özellikler → Labs → Web site koyu temasını kullan seçeneğini etkinleştirebilirsiniz.
Bireysel sayfadasınız. Kurumsal sayfaya geçebilirsiniz.
Hızlandırılmış programların ders süresi daha azdır ancak öğrencinin kendi vaktinde daha fazla çalışmasını gerektirir.
Veri Mühendisliğinde Uzmanlaşın: Temellerden Modern Mimarilere Uçtan Uca Büyük Veri Yolculuğu
Verinin en değerli kaynak olduğu günümüz dünyasında, bu verileri işleyebilen, depolayabilen ve değere dönüştürebilen profesyonellere olan talep hiç olmadığı kadar yüksek.
Bu kapsamlı kurs, sizi Büyük Veri dünyasının temellerinden alıp, en modern bulut tabanlı veri platformlarını tasarlayıp yönetecek ileri düzey yetkinliklere taşıyor. İlişkisel veritabanlarından NoSQL'e, HDFS'ten bulut depolamaya (AWS/Azure), Batch işlemeden gerçek zamanlı akışa (Spark & Kafka), Data Lake'lerden Lakehouse mimarilerine kadar tüm kritik konuları derinlemesine ve uygulamalı olarak ele alıyoruz.
Sadece teoride kalmayacak; Docker, Terraform (IaC), Apache Spark, Kafka, Airflow gibi endüstri standardı araçlarla laboratuvarlarda pratik deneyim kazanacak, veri boru hatları (pipelines) kuracak, optimize edecek ve operasyonel hale getireceksiniz. Veri kalitesi, güvenlik, yönetişim ve maliyet optimizasyonu gibi gerçek dünya zorluklarına çözümler üretebilen, aranan bir Veri Mühendisi olmak için gereken her şeyi bu kursta bulacaksınız. Kariyerinizde bir sonraki adımı atmaya hazırsanız veya bu konuda çalışıyor ve daha da yetkin hale gelmek istiyorsanız bu yolculuk tam da size göre!
Bu kursun temel amacı, katılımcılara modern veri ekosisteminde başarılı bir Veri Mühendisi olmak için gereken teorik bilgiyi, pratik becerileri ve stratejik bakış açısını kazandırmaktır. Kurs sonunda katılımcılar şunları yapabiliyor olacaktır:
Büyük Veri kavramlarını (5V), yaşam döngüsünü ve modern veri mimarilerine (Data Lake, Lakehouse, Lambda/Kappa) hakim olacak ve sistem tasarımları yapabilecek.
İlişkisel (SQL) ve NoSQL veritabanı sistemlerini anlayacak, modelleyecek ve projelerine entegre edebilecek.
AWS/Azure gibi lider bulut platformlarında altyapıyı kod (IaC - Terraform) ile kurup yönetebilecek, temel bulut hizmetlerini (depolama, işlem) etkin bir şekilde kullanabilecek.
Hadoop ekosistemini (HDFS, Hive) ve modern depolama formatlarını (Parquet, Avro) anlayacak ve uygulayabilecek.
Apache Spark kullanarak büyük veri kümelerini etkin bir şekilde işleyebilecek (DataFrame API, Spark SQL), optimize edebilecek ve yönetebilecek.
Apache Kafka ve Spark Structured Streaming gibi teknolojilerle gerçek zamanlı veri akışlarını işleyebilecek sistemler tasarlayabilecek ve kurabilecek .
Veri alımı (ETL/ELT), orkestrasyon (Airflow/Bulut Araçları) ve veri boru hattı(pipeline) yönetimi süreçlerini tasarlayabilecek ve uygulayabilecek.
Veri kalitesi, güvenlik, yönetişim prensiplerini anlayacak ve büyük veri sistemlerine entegre edebilecek .
Büyük veri platformlarını izleyebilecek, test edebilecek, CI/CD süreçlerini uygulayabilecek ve maliyet optimizasyonu yapabilecek .
Uçtan uca bir büyük veri projesini tasarlayıp hayata geçirebilecek yetkinliğe ulaşacak.
Büyük Veri Tanımı ve Özellikleri (5V - Hacim, Hız, Çeşitlilik, Doğruluk, Değer)
Hangi Veri "Büyük Veri"dir?
Hangi iş süreçlerinde kullanılır?
Veri Alımı → Depolama → İşleme → Analiz → Sunum → Yönetişim
İlişkisel Veri Modeli Temelleri
SQL Temel İşlemleri (SELECT, JOIN, GROUP BY, WHERE)
Normalizasyon (1NF, 2NF, 3NF) Kavramları ve Önemi
ACID Özellikleri ve Önemi
Veritabanı → Veri Deposu →Data Lake → Lakehouse Mimarileri
Lambda & Kappa Mimarileri (Bağlam & Önemi)
Tek bir süper bilgisayarda yapmak yerine neden dağıtık sistemler?
CAP Teoremi, BASE Kavramı ve Uygulamadaki Anlamları
Bulut Konsoluna Giriş & IAM Temelleri
CLI Kurulumu
Kod Olarak Altyapı (IaC) Temelleri (Terraform/CloudFormation)
Docker Temelleri
Docker’da basit dağıtık (HDFS + Spark) ve MySQL ortamı kurmak
MinIO ile yerel “S3” deneyi
Terraform ile AWS S3 oluşturmak
IaC ile temel bulut depolaması sağlamak
Yerel Dosya Sistemleri (HDFS - Hadoop Distributed File System)
Hadoop Temelleri ve Ekosistemi
Hadoop Cluster (YARN) Kurulumu ve Yönetimi
Hadoop Ekosistem Araçları (HDFS, Hive, HBase)
AWS/Azure/GCP Temelleri, Konsol ve CLI Kullanımı
Altyapıyı Kod Olarak Yönetme (Terraform, CloudFormation)
AWS S3, Azure Data Lake Storage (ADLS), Google Cloud Storage (GCS)
Depolama Türleri, Fiyatlandırma ve Yaşam Döngüsü Yönetimi
Erişim Yönetimi, Güvenlik (IAM, Erişim Kontrolü)
CSV, JSON formatı ve kısıtlamaları
Sütun-Bazlı Depolama Formatları: Parquet, ORC
Serileştirme ve Veri Evrimi (Avro, Protobuf)
NoSQL Nedir? Ne Zaman Tercih Edilir? (CAP ve BASE Bağlantısı)
Anahtar-Değer Depoları (DynamoDB, Redis vb.)
Kullanım durumları, modelleme, ölçeklendirme
Doküman Tabanlı Depolar (MongoDB, Cosmos DB)
kullanım durumları, esnek şema
Sütun-Ailesi Depoları (Cassandra, HBase)
Write-heavy, zaman serisi
Grafik ve Zaman Serisi Veritabanlarına Kısa Bakış
Data Lake vs Data Warehouse vs Lakehouse
Delta Lake, Apache Iceberg, Apache Hudi Temelleri
ACID, Schema Evolution, Time Travel
Bulut depolamada verileri Parquet’e alma ve dönüştürme
Temel NoSQL etkileşimleri
Basit bir Delta Lake tablosu uygulaması
Batch Alım vs Streaming Alım
ETL ve ELT Farkları
CDC (Change Data Capture) Yaklaşımları (Debezium)
API Tabanlı Alım
Sqoop, Flume
Apache Kafka ve Kafka Connect
Bulut Araçları (AWS Glue, Azure Data Factory, GCP Dataflow)
Orkestrasyon nedir?
Neden orkestre edilmeli?
Apache Airflow Kavramları (DAG, Operatörler, Hata Yönetimi)
Bulut Orkestrasyon Araçları (AWS Step Functions, Azure Data Factory Pipelines)
Bağımlılıklar, hata yönetimi, yeniden denemeler, izleme
Terraform / CloudFormation / ARM Şablonlarını Kullanma
Veri kaynaklarını yönetme (Depolama, Hesaplama,
Altyapı için sürüm kontrolü
Bulut hizmetlerini (örn. ADF/Glue) kullanarak bir ELT boru hattı oluşturma
Veri dönüşümleri yapmak
IaC ile tanımlanan Airflow veya Step Functions ile orkestrasyon
Temel Kavramlar (Driver, Executor, Cluster Manager)
RDD, DataFrame ve Dataset Kavramları
Catalyst Optimizer & Tungsten
Lazy Evaluation
Farklı kaynakları okuma/yazma (Parquet, Delta, JDBC, NoSQL)
SQL sorguları & DataFrame işlemleri
Select
Filter
Join
GroupBy, Aggregate, Window Fonksiyonları
Kullanıcı Tanımlı Fonksiyonlar (UDF’ler)
Partitioning, Shuffling ve Join Stratejileri
Cache ve Persistence Yöntemleri
Spark UI kullanımı ve optimizasyonu
AWS EMR, Azure Databricks, GCP Dataproc Kullanımı ve Yönetimi
Spark Cluster Ayarlama ve Optimizasyonu
Gerçek hayat verileri üzerinde Spark SQL & DataFrame API ile kapsamlı uygulama
Yönetilen bulut hizmetinde Spark görevlerini dağıtma, izleme ve temel ayarlamalar yapma
Event Time, Processing Time, Windowing ve Watermarking
Veri İşleme Garantileri (Exactly-once, At-least-once)
Apache Kafka Detaylı Bakış (Broker, Topic, Partition, Offset, Consumers)
Bulut Platformları (AWS Kinesis, Azure Event Hubs, GCP Pub/Sub)
Spark Streaming ve Structured Streaming Kavramları
DataFrame API
Mikro-batch ve Continuous Processing Farkları
Streaming Verinin Bulutta Yönetimi (Kafka → Spark → Depolama)
Sources & Sinks (Kafka, Dosyalar, Bulut Akışları, Delta Lake)
Checkpoint oluşturma & hata toleransı
Düşük gecikmeli akışa odaklanma
Spark Streaming’den temel kavramsal farklar
Kafka veya bulut akış hizmetini (Kinesis/Event Hubs/PubSub) kurma ve etkileşim oluşturma
Spark Yapılandırılmış Akış görevi oluşturma (okuma, dönüştürme, pencereleme, yazma)
Watermarking & checkpointing uygulama
Dağıtık SQL Motorları (Presto, Trino, AWS Athena, Google BigQuery)
Bulut Veri Depoları (AWS Redshift, Azure Synapse, Google BigQuery)
AWS Redshift / Azure Synapse Dedicated SQL / Google BigQuery
MPP mimarisi, sütun depolama, dağıtım, WLM
Lakehouse’dan yükleme
Veri deposu kullanımı vs. lake sorgulama zamanı
Tableau, Power BI, Looker ve AWS QuickSight Bağlantısı
DirectQuery ve Veri İçe Aktarma Stratejileri
Sorgu motoru uç noktaları (Athena, Synapse, BigQuery, Databricks SQL)
Basit veri sunumu için sunucusuz fonksiyonları (Lambda/Azure Functions) kullanma
Athena/Synapse Serverless/BigQuery kullanarak Lakehouse verisini sorgulama
Bir BI aracını bağlama
Basit bir sunucusuz veri API’si oluşturma
Dağıtık izleme kavramları
Boru hatları için ana metrikler (Spark, Kafka, Depolama, Sorgu Motorları)
Bulut İzleme Araçları (CloudWatch, Azure Monitor, Google Monitoring)
Dağıtık Sistemlerde Loglama ve Uyarılar
Birim testi (Spark)
Entegrasyon test aşamaları
Veri doğrulama testi (Veri kalitesi entegrasyonu)
Test veri stratejileri & canary dağıtımlar
GitHub Actions, GitLab CI, Jenkinsve ve Azure DevOps ile Sürekli Entegrasyon ve Teslimat
Test Stratejileri ve Ortam Yönetimi (Development, Stage, Production)
Bulut Hizmetleri Maliyetlendirme Modelleri
Kaynak Optimizasyonu (Reserved Instance, Spot Instance)
Depolama katmanı optimizasyonu
Maliyet izleme araçları & bütçeleme
Sorgu maliyeti optimizasyonu
İşleri ve metrikler günlüklerle enstrümante etme
Uyarılar oluşturma
Temel bir CI/CD pipeline oluşturma
Örnek bir iş yükü için maliyet optimizasyonlarını analiz etme ve önerme
Veri Mesh Konsepti ve Uygulamaları
MLOps ve Özellik Mağazaları (Feature Store)
Vektör Veritabanları ve Yapay Zeka Bağlantısı
Veri Mühendisliği Kariyer Yolları
Sürekli Öğrenme Stratejileri ve Kaynakları
Gerçek Hayat Senaryosu ile Veri Alımı, Depolama, İşleme, Analitik ve Görselleştirme
IaC, CI/CD, Güvenlik, İzleme, Maliyet Optimizasyonu Entegrasyonu
Proje Dokümantasyonu ve Demo/Sunum