🧠 Hafif Model (Lite LLM) Uyarlama ve İnce Ayar: Gerçek Dünya Deneyimleri

Community Article Published October 31, 2025

Giriş: Büyük Modellerin Küçük Dünyası

Yapay zekâ modelleri her geçen gün büyüyor, ancak çoğu zaman büyük olmak etkili olmak anlamına gelmiyor. Gerçek dünya uygulamalarında — özellikle düşük donanımlı sunucular, yerel kurum altyapıları veya mobil cihazlar gibi kısıtlı ortamlarda — hafif LLM’ler (Lite Large Language Models) sahneye çıkıyor.

Benim için bu fark, bir kamu kurumunun araç bakım-onarım süreçlerinde çalışan bir yapay zekâ sistemini geliştirirken başladı. Donanım kısıtlıydı, veri kısıtlıydı, ama kullanıcı beklentisi yüksekti. Bu yazıda, “küçük ama etkili” modelleri nasıl seçtiğimi, nasıl uyarladığımı ve nasıl eğittiğimi anlatacağım.


1. Hafif Model Kavramı: Ne Kadar Küçük, Ne Kadar Yeterli?

“Hafif model” terimi, genellikle şu özelliklere sahip LLM’leri ifade eder:

  • 100M – 3B parametre aralığında,
  • Düşük RAM/GPU gereksinimi olan,
  • Cihaz üzerinde (on-device) veya edge deployment’a uygun,
  • Görev odaklı (task-specific) ince ayar yapılabilir modeller.

Hugging Face Üzerinde Örnekler

  • DistilGPT-2 – GPT-2’nin distillation versiyonu (%40 parametre azaltımı).
  • TinyLlama – 1.1B parametreli, mobil cihazlarda bile koşabilen bir Llama türevi.
  • Phi-3-mini – Microsoft’un küçük ama yüksek kaliteye sahip veriyle eğittiği modeli.

Benim deneyimimde Phi-3-mini ve TinyLlama modelleri, Türkçe veriyle yeniden eğitildiğinde dengeli sonuçlar verdi.


2. Gerçek Dünya Senaryosu: Kurumsal Atölye Yönetimi

Bir belediyeye bağlı Makine İkmal ve Bakım Onarım Dairesi için geliştirdiğimiz sistemde, her atölye (örneğin Motor, Şanzıman, Fren, Elektrik) kendi arıza kayıtlarını, yedek parça taleplerini ve bakım notlarını giriyor.

Burada amaç:

“Modelin, arıza kaydı girilirken doğru atölyeyi ve parçayı otomatik önermesi.”

Büyük modelleri denediğimizde:

  • GPU bellek yetersizliği (örneğin RTX 3060’da 12 GB RAM sınırı),
  • Yanıt süresinin 10 saniyeyi geçmesi,
  • Bazı Türkçe teknik terimlerde (örneğin “makas pimi”, “şase düzeltme”) tutarsızlık gibi sorunlar çıktı.

Hafif bir modelle ince ayar yapıldığında:

  • Yanıt süresi %65 azaldı.
  • Bellek kullanımı yarıya indi.
  • Türkçe teknik jargonlar veri artırımıyla anlam kazandı.

3. İnce Ayar (Fine-Tuning) Süreci

Adım 1: Veri Hazırlığı

  • 15.000 satırdan oluşan teknik bakım kayıtları toplandı.
  • Veriler anonimleştirildi, sadeleştirildi.
  • Türkçe tokenizer ile özel kelimeler (örneğin “CNG”, “ön düzen”, “şanzıman yağı”) korunarak sözlük oluşturuldu.

Adım 2: Model Seçimi

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "microsoft/phi-3-mini-4k-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

Adım 3: Fine-tuning

from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir="./results",
    per_device_train_batch_size=2,
    num_train_epochs=3,
    learning_rate=5e-5,
    fp16=True
)

Eğitim süresi, 1×A100 GPU’da yaklaşık 3 saat sürdü.


4. Sonuçlar ve Gözlemler

Model Parametre Türkçe Performans (BLEU) Ortalama Yanıt Süresi GPU Bellek
GPT-2 Medium 355M 0.62 7.8s 10.2GB
Phi-3-mini 1.3B 0.68 2.4s 5.1GB
TinyLlama 1.1B 0.64 3.1s 5.3GB

Ek olarak:

  • Fine-tuning sonrası teknik terim anlama oranı %20 arttı.
  • Yanıt süreleri kullanıcı deneyimini ciddi şekilde iyileştirdi.
  • Cihaz içi çalıştırma (edge deployment) mümkün hale geldi.

5. Hafif Modelin Stratejik Avantajı

Gerçek dünyada “lite” modeller sadece teknik avantaj sağlamıyor; aynı zamanda veri gizliliği, yerel yönetimlerde bağımsızlık ve enerji verimliliği açısından da fark yaratıyor.

Özellikle kamu kurumlarında:

  • Verinin dışa aktarılması riskli,
  • Bulut hizmetleri maliyetli,
  • Offline çalışma gereksinimi kritik.

Bu koşullarda küçük ama özelleştirilmiş modeller, büyük bulut sistemlerine kıyasla çok daha sürdürülebilir bir alternatif oluşturuyor.


6. Öğrendiklerim ve Önerilerim

  1. Küçük model + güçlü domain verisi, dev modelden daha iyi sonuç verebilir.
  2. Fine-tuning yerine bazen adapter-based tuning (örneğin LoRA) tercih edilmeli.
  3. Türkçe modellerde tokenizer optimizasyonu hayati.
  4. Modeli üretime alırken quantization (8-bit veya 4-bit) GPU maliyetini yarıya indiriyor.
  5. Gerçek kullanıcı geri bildirimi, laboratuvar ölçümlerinden daha değerlidir.

Sonuç: Küçük Düşün, Büyük Etki Yarat

Bazen 175 milyar parametreye ihtiyacın yoktur. Bazen 1 milyar parametre, iyi hazırlanmış 10 bin örnek ve dikkatli bir mühendislik, tüm sistemi dönüştürmeye yeter.

Lite LLM’ler, hem mühendislik hem stratejik anlamda “verimli zekâ” dönemini başlatıyor. Benim deneyimim, bunun sadece teknik bir tercih değil, aynı zamanda etik, ekonomik ve yerel bir vizyon olduğunu gösterdi.


📚 Ek Kaynaklar

Community

Sign up or log in to comment