Multimodal RAG ile Elinizdeki Tablolar ve Görseller ile Konuşun
Günümüz yapay zeka uygulama çağında, kurumlar sadece metin tabanlı değil, aynı zamanda görsel ve tablo verileriyle zenginleştirilmiş kapsamlı bilgilere ulaşmakta ve bunlardan anlam çıkarmakta zorlanıyor. Geleneksel RAG mimarileri metin odaklıyken, gerçek dünya belgeleri (kılavuzlar, raporlar, teknik çizimler) karmaşık görsel ve tablo yapıları içerir. Bu yoğun tempolu 3 saatlik “LangChain ile Multimodal Retrieval-Augmented Generation (RAG) Atölyesi”, katılımcılara çok modlu bir RAG mimarisini sıfırdan hayata geçirmenin teori ve pratiğini bir arada sunuyor.
Atölye; Multimodal RAG’in temel kavramlarını, LangChain ile farklı modalitelerin (metin, görsel, tablo) nasıl orkestre edileceğini ve günün sonunda canlı olarak çalışan, karmaşık dokümanları anlayan bir sohbet botu geliştirmeyi hedefliyor. Katılımcılar; çok modlu veri çıkarma, farklı embedding modelleri, birleştirilmiş vektör arama ve prompt mühendisliği zincirini uçtan uca deneyimleyerek, sadece metinle sınırlı kalmayan zenginleştirilmiş bilgiye erişimin gücünü doğrudan gözlemleyecekler.
Kimler Katılmalı
Kimler Katılmalı
Veri bilimciler, MLOps mühendisleri, yazılım geliştiriciler – karmaşık, çok modlu dokümanlardan anlam çıkarabilen LLM tabanlı uygulamalar inşa etmek isteyenler.
Multimodal RAG mimarisinin pratik faydasını kurumuna taşımayı hedefleyen teknik liderler.
Kısa sürede öğren-uygula-göster döngüsüyle somut çıktı elde etmek isteyen profesyoneller.
Bu atölye, sıkı bir zaman diliminde yoğun öğrenme sağlayarak katılımcıları “çok modlu dokümanlardan akıllı bilgiye” giden RAG yolculuğunda hızla ileri taşıyacak; gerçek veriler üzerinde, canlı demosu yapılmış bir proje ile ayrılmanızı sağlayacaktır.
Konular
Multimodal RAG Giriş
Neden Multimodal RAG?
Temel RAG tekrar
Belgelerden (kılavuzlar, raporlar, diyagramlı sayfalar) içgörüleri ortaya çıkarmak
Atölye hedefi: Metin, görsel ve tabloları anlayan bir chatbot oluşturmak
PDF’i Parçalara Ayırmak: Düz Metnin Ötesinde
PDF yapısını anlamak: metin akışları, görsel objeler, vektör grafikler ve gömülü tablo verisi
PDF ayrıştırma araçları
Her modalite için veri çıkarım zorlukları
Multimodal RAG Akışı
Metin, görsel ve tablolar için yapılabilecek farklı işlemler
Farklı modaliteler için farklı embedding modelleri vs hepsi için ortak embedding
Multimodal bilgiyi depolama ve geri getirme
Birleştirilmiş içeriği LLM’e sunma
Görselleri ve Tabloları Çıkarma ve Embedding
Görsel Çıkarma (extraction) ve Embedding
Örnek bir PDF’den görselleri çıkarma
Görsel embedding modellerine giriş (CLIP, OpenAI modelleri vb.)
Uygulama: Çıkarılan görseller için embedding üretimi
Görsel embedding’lerini ve ilgili metadata’yı (kaynak sayfa, görsel ID) saklama
Tablo Çıkarma & RAG İçin Temsili
Tabloları verilerden çıkarma
Tabloları temsil etme stratejileri:
Yapılandırılmış metin (Markdown, CSV string) olarak embedding
Karmaşık/grafiksel tablolar için görsel olarak embedding
Tabloyu kısaca özetlemek için LLM kullanımı üzerine kısa tartışma
Uygulama: Çıkarılan tabloyu Markdown’a dönüştürüp embedding oluşturmak
Metin Çıkarma & Embedding
Metin parçalama ve embedding kısa tekrarı
Modaliteler arasında (sayfa numarası gibi) metadata tutarlılığını sağlama
Multimodal Vector Store & Retrieval Stratejisi
Vector Store Tasarımı
Seçenek 1: Modaliteleri ayırt eden metadata ile tek bir vector store
Seçenek 2: Her modalite için ayrı vector store’lar
Artılar/eksiler (sadelik vs. uzmanlaşmış arama)
Uygulama: Metin, görsel embedding’leri ve tablo temsillerini metadata ile saklayan bir Vector Database kurma
Multimodal Retrieval: Doğru Parçaları Bulmak
Modaliteler arası sorgulama:
Basit yaklaşım: İlgili tüm vector store/index’lerine sorgu gönderip sonuçları birleştirme
LangChain’in MultiVectorRetriever konsepti
İlgili metin parçalarını, görsel referans/açıklamalarını ve tablo snippet’lerini getirme
Sonuçları birleştirme ve sıralama: farklı kaynaklardan gelen skorları ağırlıklandırma veya her modaliteden top-k’yı basitçe birleştirme
Uygulama: Kullanıcı sorgusuna göre top-k metin, top-k görsel referansı ve top-k tablo snippet’ini getiren retrieval fonksiyonu implementasyonu
Multimodal RAG için Prompt
Prompt’larda Multimodal Bağlamı Temsil Etme
Görseller “gösterilmiyorsa” (vision-capable LLM kullanılmıyorsa) LLM’e nasıl “gösterilir”: görsel açıklamaları, başlıklar veya yer tutucular (örn. [Image: chart_on_page_5.png ...])
Tablo verisini (Markdown) doğrudan prompt’a entegre etme
LLM’in tüm bağlam türlerini kullanmasını yönlendiren prompt yapıları
Multimodal Soru-Cevap için Etkili Prompt’lar
“Metin ve sağlanan [Image: diagram_1] temelinde X’in nasıl çalıştığını açıkla.”
“[Table: financial_summary] ve çevresindeki metinden kilit bulguları özetle.”
“7. sayfadaki grafik kullanıcı artışı hakkında ne gösteriyor?” (Sayfa → görsel eşleyerek)
İstenen çıktı için iteratif prompt iyileştirme
Gradio ile Arayüz Oluşturma
Veriyi Sisteme Alma:
Kullanıcı PDF yükler
Veri Çıkarma (metin, görsel, tablo)
Embedding üretimi
Vector store’da tutma
Retrieval & Üretim:
Kullanıcı sorgusunu al
Multimodal retrieval yap
Geri getirilen bağlamla prompt’u oluştur
LLM’i çağır
Yanıtı göster
Canlı Demo & Test
Metin, grafik (görsel) ve tablolar içeren örnek bir PDF ile uygulamayı test etme
Farklı modalitelerden bilgi sentezi gerektiren sorular sorma
Hata ayıklama
Kapanış
Yapılanların özeti
Soru-Cevap (Q&A)
Bizimle iletişime geçin