{"course":{"summary":{"tr":null},"bogazici_collab":false,"is_workshop":false,"corporate_cover_image_x":50,"sidebar_copy":{"tr":null},"price_try":null,"has_lessons":false,"corporate_cover_image_y":50,"created_at":"2025-06-03T10:45:47.123407+00:00","description":{"tr":[{"type":"text","title":"Genel Tanım","content":"<p>Apache Spark, büyük veri işleme ve analitiği için tasarlanmış, dağıtık, bellek içi (in-memory) hesaplama gücü sunan ve çok çeşitli modülleri (Spark SQL, Spark Streaming, MLlib, GraphX) içeren, modern veri mühendisliği ve analitik uygulamalarında vazgeçilmez bir platformdur. Bu eğitim, Apache Spark’ın mimarisi, temel API’leri, performans optimizasyonu, dağıtık işleyişi ve ekosisteme entegrasyonu gibi konuları derinlemesine ele alarak, katılımcıların büyük veri uygulamalarında yüksek verimlilikle çözümler geliştirmelerini sağlamayı amaçlar.</p>"},{"type":"text","title":"Nedir?","content":"<p>Apache Spark; verinin hızlı ve ölçeklenebilir biçimde işlenmesi için tasarlanmış, RDD, DataFrame, SQL, streaming, makine öğrenmesi ve graf analizi gibi modülleriyle geniş bir yelpazede veri işleme yetenekleri sunan açık kaynaklı bir çerçevedir. Eğitimde, Spark’ın temel prensipleri, API’leri, optimizasyon teknikleri ve gerçek dünya uygulamalarındaki rolü detaylı olarak incelenecektir.</p>"},{"type":"text","title":"Kimler içindir?","content":"<p>Bu eğitim, aşağıdaki bireyler için uygundur:</p><p>• Veri mühendisleri ve büyük veri analistleri,<br>• Veri bilimcileri ve makine öğrenimi mühendisleri,<br>• Yazılım geliştiriciler ve sistem mimarları,<br>• Hadoop ve diğer büyük veri teknolojilerini kullanan profesyoneller,<br>• Dağıtık hesaplama ve gerçek zamanlı veri işleme konularında uzmanlaşmak isteyenler,<br>• Akademisyenler ve araştırmacılar.</p>"},{"type":"text","title":"Neden Apache Spark Eğitimi?","content":"<p>• <strong>Hız ve Verimlilik:</strong> Bellek içi hesaplama sayesinde büyük veri setlerinin çok daha hızlı işlenmesini sağlar.<br>• <strong>Ölçeklenebilirlik:</strong> Yatayda ölçeklenebilir mimarisi ile verinin artan hacmine uyum sağlar.<br>• <strong>Çeşitli Modüller:</strong> Spark SQL, Spark Streaming, MLlib ve GraphX gibi modüller ile tüm veri işleme ve analiz ihtiyaçlarını karşılar.<br>• <strong>Endüstri Standartı:</strong> Büyük veri ekosisteminde geniş kabul gören ve yaygın olarak kullanılan bir teknolojidir.<br>• <strong>Entegrasyon:</strong> Hadoop, bulut platformları ve diğer modern veri araçlarıyla kolay entegrasyon imkanı sunar.</p>"}]},"discount_try_percentage":null,"show_price":false,"promotional_video_url":null,"sections":{"tr":[{"title":"Giriş ve Temel Kavramlar","summary":"<h2>Eğitimin Tanıtımı ve Hedefler</h2><ul class=\"tight\" data-tight=\"true\"><li><p>Eğitim içeriğinin genel çerçevesi, öğrenme çıktıları ve beklenen kazanımlar</p></li><li><p>Katılımcı beklentileri, uygulama alanları ve sektör örnekleri</p></li></ul><h2>Apache Spark’ın Tarihçesi ve Evrimi</h2><ul class=\"tight\" data-tight=\"true\"><li><p>Spark’ın ortaya çıkışı, gelişim süreci ve büyük veri ekosistemindeki rolü</p></li><li><p>Geleneksel MapReduce ile karşılaştırmalar</p></li></ul><h2>Temel Kavramlar ve Terimler</h2><ul class=\"tight\" data-tight=\"true\"><li><p>Dağıtık hesaplama, RDD, DataFrame, DAG (Directed Acyclic Graph) kavramları</p></li><li><p>Spark mimarisi: Driver, Executor, Cluster Manager</p></li></ul><p></p>"},{"title":"Apache Spark Temelleri ve Kurulum","summary":"<h2>Kurulum ve Ortam Yapılandırması</h2><ul class=\"tight\" data-tight=\"true\"><li><p>Spark’ın yerel (local) ve dağıtık modda kurulumu</p></li><li><p>İlgili araçlar: Spark Shell, PySpark, SparkR ve Not Defteri (Jupyter, Zeppelin)</p></li></ul><h2>Spark Ekosistemi ve Modülleri</h2><ul class=\"tight\" data-tight=\"true\"><li><p>Spark Core, Spark SQL, Spark Streaming, MLlib, GraphX</p></li><li><p>Her modülün temel işlevleri ve kullanım senaryoları</p></li></ul><h2>Cluster Manager’lar ve Dağıtım Seçenekleri</h2><ul class=\"tight\" data-tight=\"true\"><li><p>Spark Standalone, YARN, Mesos, Kubernetes entegrasyonları</p></li><li><p>Bulut tabanlı kurulum örnekleri (AWS, Azure, Google Cloud)</p></li></ul><p></p>"},{"title":"RDD (Resilient Distributed Datasets) ve Temel API’ler","summary":"<h2>RDD Temelleri</h2><ul class=\"tight\" data-tight=\"true\"><li><p>RDD’lerin tanımı, özellikleri ve faydaları</p></li><li><p>RDD oluşturma yöntemleri (parallelize, textFile, transformations)</p></li></ul><h2>RDD Dönüşümleri ve İşlemleri</h2><ul class=\"tight\" data-tight=\"true\"><li><p>Map, filter, flatMap, reduce, union, join gibi temel dönüşümler</p></li><li><p>Lazy evaluation (tembel değerlendirme) prensibi ve aksiyonlar (collect, count, take)</p></li></ul><h2>Hata Toleransı ve Caching</h2><ul class=\"tight\" data-tight=\"true\"><li><p>RDD’lerin hata toleransı mekanizması (lineage)</p></li><li><p>Caching, persistence stratejileri ve bellek yönetimi</p></li></ul><p></p>"},{"title":"DataFrame ve Spark SQL","summary":"<h2>DataFrame Kavramı</h2><ul class=\"tight\" data-tight=\"true\"><li><p>DataFrame’lerin tanımı, avantajları ve API yapısı</p></li><li><p>Schema, sütun işlemleri ve veri tipleri</p></li></ul><h2>Spark SQL ile Sorgulama</h2><ul class=\"tight\" data-tight=\"true\"><li><p>SQL sorguları ve DataFrame API kullanarak veri analizi</p></li><li><p>DataFrame işlemleri: select, filter, groupBy, join, agg</p></li></ul><h2>Catalyst Optimizer ve Tungsten Projesi</h2><ul class=\"tight\" data-tight=\"true\"><li><p>Catalyst sorgu optimizasyonu ve sorgu planı iyileştirmeleri</p></li><li><p>Tungsten ile bellek yönetimi ve performans iyileştirmeleri</p></li></ul><h2>Veri Kaynakları ve Entegrasyon</h2><ul class=\"tight\" data-tight=\"true\"><li><p>Hive, Parquet, JSON, CSV gibi veri formatları ile çalışmak</p></li><li><p>Dış veri kaynakları ile entegrasyon yöntemleri</p></li></ul><p></p>"},{"title":"Apache Spark Streaming ve Structured Streaming","summary":"<h2>Spark Streaming’e Giriş</h2><ul class=\"tight\" data-tight=\"true\"><li><p>Spark Streaming mimarisi, micro-batch işleyişi</p></li><li><p>DStream kavramı ve temel API’ler</p></li></ul><h2>Structured Streaming</h2><ul class=\"tight\" data-tight=\"true\"><li><p>Sürekli veri akışlarını gerçek zamanlı işleme</p></li><li><p>Windowing, event-time processing ve stateful operations</p></li></ul><h2>Streaming Kaynakları ve Entegrasyon</h2><ul class=\"tight\" data-tight=\"true\"><li><p>Kafka, Flume, socket, dosya sistemleri gibi veri kaynakları</p></li><li><p>Uygulamalı örnekler: Gerçek zamanlı veri akışı ve işleme</p></li></ul><h2>Performans ve Hata Yönetimi</h2><ul class=\"tight\" data-tight=\"true\"><li><p>Streaming uygulamalarında hata toleransı, checkpointing</p></li><li><p>Kaynak yönetimi, latency optimizasyonu ve monitoring</p></li></ul><p></p>"},{"title":"Machine Learning ve MLlib ile Uygulamalı Makine Öğrenmesi","summary":"<h2>MLlib’e Giriş</h2><ul class=\"tight\" data-tight=\"true\"><li><p>Spark MLlib kütüphanesinin tanıtımı, temel yapısı ve bileşenleri</p></li><li><p>Veri ön işleme, feature extraction ve veri dönüştürme teknikleri</p></li></ul><h2>Algoritmalar ve Modelleme</h2><ul class=\"tight\" data-tight=\"true\"><li><p>Sınıflandırma, regresyon, kümeleme, öneri algoritmaları</p></li><li><p>Örnek uygulamalar: Lojistik regresyon, karar ağaçları, k-means, ALS</p></li></ul><h2>Pipelines ve Model Değerlendirme</h2><ul class=\"tight\" data-tight=\"true\"><li><p>ML pipeline kavramı, model eğitim, validasyon ve hiperparametre ayarlamaları</p></li><li><p>Model değerlendirme metrikleri ve çapraz doğrulama</p></li></ul><h2>Gerçek Dünya Makine Öğrenmesi Uygulamaları</h2><ul class=\"tight\" data-tight=\"true\"><li><p>End-to-end makine öğrenmesi projeleri ve örnek veri setleri</p></li><li><p>Model dağıtımı ve üretime alınması</p></li></ul><p></p>"},{"title":"GraphX ile Grafik İşleme","summary":"<h2>GraphX’e Giriş</h2><ul class=\"tight\" data-tight=\"true\"><li><p>Grafik veri yapısı, RDD tabanlı graf temsil ve GraphX API’leri</p></li><li><p>GraphFrame kavramı ve kullanım örnekleri</p></li></ul><h2>Grafik Algoritmaları</h2><ul class=\"tight\" data-tight=\"true\"><li><p>PageRank, connected components, triangle counting, shortest path</p></li><li><p>Özel grafik algoritmaları geliştirme ve optimizasyonu</p></li></ul><h2>Uygulamalı Grafik İşleme</h2><ul class=\"tight\" data-tight=\"true\"><li><p>Sosyal ağ analizi, öneri sistemlerinde grafik temelli yaklaşımlar</p></li><li><p>Gerçek dünya senaryoları ve vaka çalışmaları</p></li></ul><p></p>"},{"title":"Performans Tuning ve Optimizasyon","summary":"<h2>Spark Uygulama Performansı</h2><ul class=\"tight\" data-tight=\"true\"><li><p>DAG ve execution plan’ların analizi, Spark UI kullanımı</p></li><li><p>RDD/DataFrame optimizasyon teknikleri ve bellek yönetimi stratejileri</p></li></ul><h2>Partitioning ve Caching Stratejileri</h2><ul class=\"tight\" data-tight=\"true\"><li><p>Veri bölümlendirme, repartition, coalesce yöntemleri</p></li><li><p>Caching politikaları ve optimum veri depolama teknikleri</p></li></ul><h2>Konfigürasyon Ayarları ve İnce Ayar</h2><ul class=\"tight\" data-tight=\"true\"><li><p>Spark konfigürasyon parametreleri, executor, driver ve cluster ayarları</p></li><li><p>Gerçek dünya uygulamalarında performans iyileştirme örnekleri</p></li></ul><p></p>"},{"title":"Cluster Yönetimi ve Dağıtım Stratejileri","summary":"<h2>Cluster Manager’lar ve Orkestrasyon</h2><ul class=\"tight\" data-tight=\"true\"><li><p>Spark Standalone, YARN, Mesos ve Kubernetes karşılaştırması</p></li><li><p>Her bir cluster manager’ın özellikleri ve en iyi uygulama örnekleri</p></li></ul><h2>Dağıtım ve Üretime Alım</h2><ul class=\"tight\" data-tight=\"true\"><li><p>Spark uygulamalarının paketlenmesi, deployment stratejileri</p></li><li><p>CI/CD süreçleri, otomatik dağıtım, versiyon kontrolü ve izleme yöntemleri</p></li></ul><h2>Kritik Uygulamalar ve Gerçek Zamanlı İzleme</h2><ul class=\"tight\" data-tight=\"true\"><li><p>Üretim ortamında Spark uygulamalarının performans izleme araçları</p></li><li><p>Hata yönetimi, otomatik yeniden başlatma ve kaynak yönetimi</p></li></ul><p></p>"},{"title":"Spark Ekosistemi ve İleri Entegrasyonlar","summary":"<h2>Diğer Büyük Veri Araçları ile Entegrasyon</h2><ul class=\"tight\" data-tight=\"true\"><li><p>Hadoop, HDFS, Hive, HBase entegrasyonları</p></li><li><p>Spark’ın diğer veri araçlarıyla uyumlu çalışması</p></li></ul><h2>Bulut Tabanlı Çözümler</h2><ul class=\"tight\" data-tight=\"true\"><li><p>AWS, Azure, Google Cloud üzerinde Spark uygulamalarının çalıştırılması</p></li><li><p>Managed Spark hizmetleri (Databricks, EMR, HDInsight)</p></li></ul><h2>Gelişmiş Araçlar ve İleri Konular</h2><ul class=\"tight\" data-tight=\"true\"><li><p>SparkR, PySpark ve Sparklyr kullanımı</p></li><li><p>Delta Lake, Structured Streaming gelişmeleri, MLflow ile model yönetimi</p></li></ul><p></p>"}]},"available_as_corporate":true,"published_at":"2025-06-17T12:16:39.385086+00:00","order":3,"updated_at":"2026-02-05T14:20:02.183956+00:00","title":{"tr":"Apache Spark"},"duration_hours":30,"hidden":false,"cover_image_url":"https://lively-leaf-6126.fly.storage.tigris.dev/4dd19bea-515d-4a05-964b-dc2e60d98156.png","deleted_at":null,"duration_days":null,"video_conference_link":null,"cover_image_x":50,"category_id":7,"suggested_next_course_id":null,"lesson_count":0,"short_title":{"tr":null},"level":null,"bogazici_link":null,"cover_image_y":50,"id":19,"slug":{"tr":"apache-spark"},"schedule_info":null,"available_as_personal":true,"corporate_cover_image_url":null,"units":[],"course_instructors":[{"course_id":19,"is_active":true,"instructor_id":6,"instructor":{"deleted_at":null,"id":6,"name":"Şükrü Yusuf Kaya","slug":{"tr":"sukru-yusuf-kaya"},"bio":{"en":"<p>Şükrü Yusuf Kaya is an expert with over ten years of hands-on experience in artificial intelligence, machine learning, and advanced data engineering. With a strong academic background in computer engineering, statistics, and cybersecurity, he leads organizations in rapidly generating business value from data by ensuring the seamless transition of research outputs into production environments. He has designed end-to-end artificial intelligence architectures in critical sectors such as finance, telecommunications, defense, and manufacturing, delivering reliable, scalable, and regulation-compliant solutions under demanding operational constraints.</p><p>His projects in both public and private sectors span a wide range, including enterprise-scale RAG-based information access systems, real-time fraud detection platforms, production line video analytics, and performance optimization of distributed big data infrastructures. The MLOps framework he designed for internal teams reduced development costs by shortening the model lifecycle by 40%, while significantly improving transparency in model versioning and monitoring.</p><p>In addition to consulting, Kaya designs and delivers advanced technical training programs. He has mentored and trained hundreds of engineers through comprehensive curricula ranging from fine-tuning large language models to autonomous AI agent architectures, and from cloud-native high-performance computing clusters to production-grade deployment practices. His teaching approach, grounded in problem-driven explanations, live coding sessions, and industry-specific case studies,enables participants to directly apply acquired knowledge to real-world projects.</p><p>His research focuses on high-precision anomaly detection in dynamic systems by combining large language models with multi-source real-time video streams. His long-term objective is to develop explainable and cyber-secure AI systems capable of triggering autonomous interventions within seconds in closed-loop industrial environments.</p><p>📈 Enterprise AI Strategy Design &amp; ROI Optimization<br> 💾 Lakehouse &amp; Streaming Data Architectures<br> 🧠 Large Language Models (LLM) &amp; RAG Solutions<br> 🤖 AI Agents &amp; Autonomous Task Execution<br> 🛰️ Swarm AI for Autonomous Drone &amp; Robotics Systems<br> 📹 Nanosecond Video Analytics &amp; Edge AI<br> 🏭 Industrial IoT &amp; Digital Twin Systems<br> 🔒 Trustworthy &amp; Explainable AI<br> 👥 Privacy-Preserving &amp; Federated Learning<br> 💳 FinTech Fraud Detection &amp; AML Systems<br> 🗺️ Geospatial Big Data &amp; Dynamic Logistics<br>🔬 Multi-Modal Medical Diagnostic Systems<br> 🛡️ Adversarial Resilience &amp; AI Red-Teaming<br> 🗄️ MLOps – CI/CD, Feature Stores &amp; Model Monitoring<br> 📉 Time Series Analysis &amp; Anomaly Detection<br> 🧬 Synthetic Data Generation<br> ♻️ Energy AI &amp; Carbon Optimization<br> ⚛️ Quantum-Assisted Machine Learning<br> 💻 Multi-Node HPC &amp; Distributed GPU Training</p><p>For customized consulting, project development, and advanced training solutions, please contact us.</p>","tr":"Şükrü Yusuf Kaya, yapay zekâ, makine öğrenmesi ve ileri veri mühendisliği alanlarında on yılı aşkın saha deneyimine sahip bir uzmandır. Bilgisayar mühendisliği, istatistik ve siber güvenlik ekseninde şekillenen güçlü akademik arka planı sayesinde, araştırma çıktılarının üretim ortamlarına sorunsuz taşınmasını sağlayarak kurumların veriden hızla katma değer üretmesine öncülük eder. Finans, telekomünikasyon, savunma ve imalat gibi kritik sektörlerde uçtan uca yapay zekâ mimarileri tasarlamış; zorlu operasyonel kısıtları gözeterek güvenilir, ölçeklenebilir ve regülasyon-uyumlu çözümler hayata geçirmiştir.\n\nKamu ve özel sektörde yürüttüğü projeler, Kurumsal RAG tabanlı bilgi erişim sistemlerinden gerçek zamanlı dolandırıcılık tespitine, üretim hattı video analitiğinden dağıtık büyük veri platformlarının performans optimizasyonuna kadar geniş bir yelpazeyi kapsar. İç ekipler için tasarladığı MLOps çerçevesi, model yaşam döngüsünü %40 kısaltarak geliştirme maliyetlerini düşürmüş, aynı zamanda model sürümleme ve izleme süreçlerinin şeffaflığını artırmıştır.\n\nDanışmanlığın yanı sıra Kaya, üst düzey teknik eğitim programları da geliştirmekte ve yürütmektedir. Büyük dil modellerinin ince ayarından otonom AI ajan mimarisine, bulut-yerel yüksek performanslı hesaplama kümelerinden üretim ortamında devreye alıma kadar uzanan kapsamlı içeriklerle yüzlerce mühendise mentorluk ve sınıf içi eğitim vermiştir. Problem odaklı anlatım, canlı kodlama oturumları ve sektör-spesifik vaka analizleri üzerine inşa ettiği pedagojik yaklaşım, katılımcıların edinilen bilgiyi projelerine doğrudan aktarmalarını mümkün kılar.\n\nAraştırmalarını büyük dil modelleri ile çok-kaynaklı gerçek zamanlı video akışlarını birleştirerek, dinamik sistemlerde yüksek hassasiyetli anomali tespiti üzerine yoğunlaştırmaktadır. Nihai hedefi, kapalı çevrim üretim hatlarında saniyeler içinde otomatik müdahaleyi tetikleyebilen, açıklanabilir ve siber güvenli yapay zekâ çözümleri geliştirmektir.\n\n\n📈 Kurumsal AI Strateji Tasarımı &amp; Yatırım Getirisi (ROI) Optimizasyonu\n💾 Lakehouse &amp; Streaming Veri Mimarileri \n🧠 Büyük Dil Modelleri (LLM) ve RAG Çözümleri \n🤖 AI Ajanları &amp; Otonom Görev Yürütme \n🛰️ Swarm AI: Otonom Drone &amp; Robot Filolarında İş Birliği \n📹 Nano-Saniye Video Analitiği &amp; Edge-AI \n🏭 Endüstriyel IoT &amp; Dijital İkiz \n🔒 Güvenilir &amp; Açıklanabilir AI \n👥 Gizliliği Korumalı / Federated Learning \n💳 FinTech Dolandırıcılık &amp; AML Tespiti \n🗺️ Jeo-Uzamsal Büyük Veri &amp; Dinamik Lojistik \n🔬 Çok-Modelli Medikal Teşhis Sistemleri\n🛡️ Adversarial Dayanıklılık &amp; Red-Teaming \n🗄️ MLOps – CI/CD, Feature Store &amp; Model İzleme\n📉 Zaman Serisi &amp; Anomali Tespiti \n🧬 Sentetik Veri Üretimi \n♻️ Enerji AI &amp; Karbon Optimizasyonu \n⚛️ Kuantum Destekli Makine Öğrenmesi \n💻 Çok-Düğümlü HPC &amp; Dağıtık GPU Eğitimleri\n\nÖzel danışmanlık, proje ve eğitim çözümleri için iletişime geçebilirsiniz."},"bogazici":false,"order":2,"created_at":"2025-05-28T06:59:05.900828+00:00","updated_at":"2026-01-21T09:42:39.506050+00:00","title":{"en":"Senior Artificial Intelligence Engineer · Consultant · Trainer","tr":"Kıdemli Yapay Zeka Mühendisi · Danışman · Eğitmen"},"profile_image_url":"https://lively-leaf-6126.fly.storage.tigris.dev/9ca0018b-4a12-4ce8-9002-b0a39a5d9bbf.PNG"}}],"category":{"id":7,"order":1,"created_at":"2025-04-21T18:52:41.237286+00:00","updated_at":"2026-01-21T08:33:28.944427+00:00","deleted_at":null,"name":{"en":"Big Data","tr":"Big Data (Büyük Veri)"},"parent_id":null},"course_group":null,"instances":[],"future_instances":[]},"instance":null,"current_user":null,"corporate":false}