Llama 4 Scout ve Maverick: Bu Dev Modeller Neden Tek Bir Ekran Kartına Sığmıyor?

Yapay zeka dünyası, Meta’nın yeni “Llama 4 Scout” ve “Llama 4 Maverick” duyurularıyla çalkalanıyor. Peki neden bu iki devasa dil modeli, modern ekran kartlarına (örneğin RTX 4090/5090) bile kolayca sığamıyor? Kafanıza takılan soruları gelin, teknik bir alt yapıya ihtiyaç duymayacağımız bir dille cevaplayalım.

MoE (Mixture of Experts) Nedir, Neden Farklı?

Llama 4 modelleri MoE yapısını kullanıyor. Açılımı "Mixture of Experts"

Peki nedir tam olarak bu yapı?

Bir sürü küçük beyin: MoE modeller, tek bir devasa “beyin” yerine, uzmanlaşmış birden fazla alt ağ (uzman) içeriyor. Her uzman farklı bir göreve veya alana odaklanıyor.
Seçici kapı sistemi (gating): Hangi kelime (token) hangi uzmanın beyninden geçecek, buna karar veren bir “kapı” ağı var. Böylece her veri işlenirken aynı anda tüm uzmanlar aktif olmuyor. Bu, aslında hesaplama açısından çok avantajlı.
Kullanılan ve kullanılmayan: Diyelim ki modelde “400 milyar” parametre var, ama her token için yalnızca “17 milyarlık” bölümü aktif hale geliyor. Yani toplam dev bir boyut var ama kullanırken ufak bir kısmına odaklanıyoruz.

Avantaj: Modelin her kelime için sadece bir kısmı aktif olduğu için hesaplama yükü beklediğiniz kadar büyük olmuyor.

İşin Öbür Tarafı: Kapı mekanizması, her an farklı uzmanları devreye sokabiliyor. Modelin hangi uzmana ihtiyacı olacağını önceden bilemediğimiz için, tüm uzmanların ağırlıklarını (parametrelerini) hazır, yani GPU belleğinde tutmamız gerekiyor. İşte sorun tam da burada başlıyor.

Bellek (VRAM) Neden Bu Kadar Önemli?

En iyi ev tipi ekran kartları bile “Bellek (VRAM)” konusunda sınırlayıcı hale gelebilir. Örnek olarak RTX 4090’da 24 GB, RTX 5090’da 32 GB gibi VRAM değerlerinden bahsediyoruz. MoE modelindeki her bir “uzman” fiziksel olarak bellekte saklanmalı ki, gerektiğinde devreye alınabilsin.

Parametre Sayıları Ev Tipi Kartları Üzecek Boyutlarda

Scout: 109 milyar parametre
Maverick: 400 milyar parametre

Parametreler Nasıl Yer Kaplar?

Özel Bir Sıkıştırma Kullanmazsak (parametre başına 2 bayt):
- Scout: 218 GB VRAM
- Maverick: 800 GB VRAM
Sıkıştırma Yöntemi ile( 4-bit Kuantizasyon) (parametre başına ~0.5 bayt):
- Scout: Yaklaşık 54.5 GB VRAM
- Maverick: Yaklaşık 200 GB VRAM

Görebileceğiniz gibi, en agresif sıkıştırma yöntemlerini uygulasak bile, tek bir RTX 4090 veya RTX 5090 bu modelleri belleğine alamıyor. Üstelik bu rakamlara, hesap sırasında kullanılan aktivasyonlar, önbellek (cache) gibi ekstra bellek ihtiyaçları dâhil değil.

Peki Neden Bazı Büyük Modeller Tek Ekran Kartında Çalışıyor Ama Bunlar Çalışmıyor?

Diğer büyük dil modelleri çoğunlukla “MoE” yapısına sahip değiller. Bu yüzden, “parametrelerin tamamını sürekli kullanmak” gibi bir mantıkla çalışıyorlar. Orada ne kadar parametre varsa hepsi aktif. O modellerde “büyüklük” sınırlı kaldığında (örneğin 7B, 13B, 30B parametre) agresif kuantizasyon sayesinde RTX 4090 gibi kartlarda bile yeri geliyor, çalışabiliyor.

MoE modellerindeyse, her ne kadar tek seferde yalnızca küçük bir kısmı aktif olsa da, hepsi kullanım anında hazır olmak zorunda. Toplam parametre sayısı 100 milyarları aştığı için, 4-bit kuantizasyon bile bellekte çok yer kaplıyor. Bu yüzden tek bir tüketici ekran kartı, bu “kalabalık uzman ekibini” kaldıramıyor.

Peki Bu Büyük Modelleri Nerede Çalıştıracağız?

Veri merkezleri (data center): Yüksek VRAM’li profesyonel GPU'lu makineler ile donatılmış merkezler, bu modelleri çalıştırmada en ideal ortam.
Üst düzey iş istasyonları: Birden çok profesyonel GPU’ya sahip sistemler de benzer şekilde kullanılabilir.
Mac Studio gibi yüksek bellekli Mac’ler: Bazı Mac sistemleri, çok güçlü GPU’lara sahip olmasalar da daha yüksek bellek (RAM) kapasiteleri sunabiliyor. MoE modelleri yüksek hesaplama gerektirmese de büyük bellek istiyor. Böylece Mac bazen avantajlı hâle geliyor.

Sonuç: “MoE” Bize Ne Getiriyor?

Performans ve verimlilik: MoE tasarımı, dev bir yapıyı bölerek her duruma uygun bir “uzman” sunma fikrini getiriyor. Hesaplama yükü bölüm bölüm çalıştığı için enerji ve işlem tasarrufu sağlanıyor.

Büyük VRAM bedeli: Her uzman “uyuyor” gibi görünse de, kapı her an o uzmana iş verebileceğinden bellekte tutulması gerekiyor. Dolayısıyla MoE modeller, göze aldığımız VRAM ihtiyacını katbekat büyütüyor.

Sıradan ekran kartlarına henüz uygun değil: RTX 4090/5090 gibi güçlü GPU’lar bile 100 milyarlarca parametreyle baş etmede yetersiz kalıyor. 4-bit kuantizasyon devrimi bile gigabaytlarca belleği kurtaramıyor.

Kısaca

“Llama 4 Scout” ve “Maverick”, MoE tasarımlarıyla hesaplamayı hafifletirken bellek talebini azaltamıyor.
En agresif sıkıştırma yöntemleri bile 24-32 GB VRAM sınırını aşıyor.
Ev tipi tek kartla bu modelleri çalıştırmak şimdilik bir hayal.
Veri merkezleri veya çok bellekli iş istasyonları bu alanda öne çıkıyor.

MoE modeller, yapay zekânın geleceğinde hem büyük fırsatlar hem de büyük bellek problemleriyle karşımıza çıkacak. Özellikle Meta’nın Llama 4 ailesindeki Scout ve Maverick gibi modeller, verimliliği artırırken “benim ekran kartına ne oldu?” dedirten bir VRAM açlığı yaratıyor. Bu ikilemin çözümü, çoklu GPU veya yüksek bellekli sistemler kullanmak.

Gelecek, MoE ve kuantizasyonun el ele gittiği yepyeni bir döneme işaret ediyor. Ancak “tek GPU’da dev model” devri hâlâ ince bir hayal olarak kalmaya devam ediyor. Bakalım bu zorluğu aşmak için önümüzdeki günlerde ne tür yaratıcı çözümler duyacağız?

Bir sonraki yazıda görüşmek üzere, GPU fanlarınızı serin tutmayı unutmayın!