LLM'nize özel ayarlama yapmadan verilerinize erişim sağlayın. RAG, genel amaçlı dil modelleri ile alana özel bilgi arasındaki boşluğu doldurur.

Kuruluşunuzun belgeleri (sözleşmeler, politikalar, bilgi tabanları, ürün dokümantasyonu, tıbbi kayıtlar) hakkında soruları yanıtlayan bir AI asistanı oluşturmak istiyorsunuz. LLM'yi verilerinize göre ince ayarlamak pahalı, yavaş ve eğitim noktasında donmuş bir model yaratır. LLM'nin sorgu anında güncel, alana özel bilgilere erişebileceği, kaynaklarını gösterebileceği ve belgelerinizde olmayan gerçekleri uydurmaktan kaçınabileceği bir mimariye ihtiyacınız var. RAG (Retrieval-Augmented Generation) size bu imkanı sunar.
Explore more design patterns and system architectures
Mimarlarımız, bu deseni kullanarak belirli gereksinimleriniz için sistemler tasarlamanıza ve oluşturmanıza yardımcı olabilir.
İletişime GeçinRAG, LLM üretimini bir bilgi tabanından alınan bağlamla zenginleştirir. Sorgu anında sistem, kullanıcının sorusunu bir embedding'e dönüştürür, anlamsal olarak benzer belge parçacıkları için bir vector database'de arama yapar ve en alakalı parçacıkları LLM prompt'unda bağlam olarak dahil eder. Bu, modelin yanıtını gerçek belgelere dayandırır, kaynak gösterimine olanak tanır ve bilgi tabanını yeniden eğitim yapmadan güncel tutar. Bir üretim RAG pipeline'ı, alım (parsing, chunking, embedding), geri alma (vector search, reranking, hybrid search) ve üretim (prompt oluşturma, streaming, guardrails) işlemlerini yönetir.
Mimari iki pipeline'dan oluşur. Alım pipeline'ı belgeleri parsing (PDF, DOCX, HTML çıkarma), chunking (anlamsal veya örtüşmeli sabit boyutlu), embedding (embedding modeli aracılığıyla) ve depolama (vector database + belge deposu) süreçlerinden geçirir. Sorgu pipeline'ı bir kullanıcı sorusu alır, bir sorgu embedding'i oluşturur, vector database'den aday parçacıkları alır, alaka düzeyine göre yeniden sıralar, en üstteki parçacıkları bağlam olarak içeren bir prompt oluşturur ve kaynak gösterimli LLM yanıtını yayınlar (streams).
text-embedding-3-large, Cohere embed-v4 veya açık kaynak alternatifleri (BGE, E5) gibi modelleri kullanır. Alım için batch işleme, arama için tek sorgulu işleme| Katman | Teknolojiler |
|---|---|
| Belge Ayrıştırma (Document Parsing) | Unstructured, Apache Tika, LlamaParse, Docling, custom OCR (Tesseract, AWS Textract) |
| Embedding | OpenAI text-embedding-3-large, Cohere embed-v4, BGE-M3, E5-large-v2 |
| Vector Database | Milvus, Pinecone, Qdrant, Weaviate, pgvector (küçük ölçek için) |
| Anahtar Kelime Arama (Keyword Search) | Elasticsearch, OpenSearch, PostgreSQL full-text search |
| Yeniden Sıralama (Reranking) | Cohere Rerank, BGE Reranker, ColBERT v2, FlashRank |
| LLM | Claude (AI Gateway aracılığıyla), GPT-4, Gemini — AI SDK aracılığıyla sağlayıcıdan bağımsız |
| Orkestrasyon (Orchestration) | LangChain, LlamaIndex veya özel pipeline (üretim için MW tercihi) |
| Kullanım Durumu | Kaçınma Durumu |
|---|---|
| Kullanıcıların, kuruluşunuzun belirli belgelerine dayanan yanıtlara ihtiyacı olduğunda | Bilgi tabanı < 50 sayfa olduğunda — doğrudan sistem prompt'una koyun |
| Belgeler sık sık güncellendiğinde ve AI'ın güncel bilgilere ihtiyacı olduğunda | Modelin yeni bir beceri/davranış öğrenmesi gerektiğinde, yeni gerçeklere erişmesi değil (bunun yerine fine-tune edin) |
| Kaynak gösterimi ve denetlenebilirlik gereksinim olduğunda (hukuk, uyumluluk, sağlık) | Sorular tamamen sohbet amaçlı olduğunda ve gerçeklere dayanma gerektirmediğinde |
| Birden çok kullanıcı grubunun farklı belge alt kümelerine erişmesi gerektiğinde (izinle filtrelenmiş RAG) | Gerçeklere dayalı doğruluğun amaç olmadığı yaratıcı bir yazma aracı oluşturuyorsanız |
MW, RAG pipeline'larını geri alma kalitesinden başlayarak inşa eder — LLM prompt'una dokunmadan önce geri alma hassasiyetini kıyaslarız. Vasat bir geri alma ve harika bir LLM'e sahip bir RAG sistemi, kendinden emin görünen yanlış yanıtlar üretir. Standart pipeline'ımız bir geri alma değerlendirme düzeneği içerir: bilinen ilgili belgelere sahip bir dizi test sorgusu, MRR@5 ve NDCG@10 ile ölçülür. Üretimi optimize etmeden önce, geri alma metrikleri hedef eşiklere ulaşana kadar chunking, embedding model ve reranking üzerinde yineleme yaparız. Hukuki belge incelemesi, sağlık bilgi tabanları ve çok dilli müşteri desteği alanlarında RAG sistemleri kurduk — ve ortak ders, geri alma kalitesinin yanıt kalitesinin %80'ini oluşturduğudur.
10 bin vektörde gömme araması kolaydır. 100 milyon vektörde, 100 ms'nin altında P99 ile bu bir altyapı sorunudur — ve bu kalıp bunu çözüyor.
MicrocosmWorks, RAG pipeline'larında çatışma çözümünü kaynak yetkisi sıralaması, zaman damgasına dayalı güncellik ağırlıklandırması ve her bir alınan pasajın iddiasını ne kadar güçlü desteklediğini değerlendiren güven puanlaması aracılığıyla uygular. Çelişkili pasajlar alındığında, pipeline'ımız en yüksek yetkiye sahip cevabı sunarken, anlaşmazlığı ve kaynak atıflarını şeffaf bir şekilde ortaya koyar, böylece kullanıcılar bilinçli kararlar verebilir. Ayrıca, alan uzmanlarının yanlış çözümleri işaretleyebileceği geri bildirim döngüleri oluştururuz; bu da zamanla alma sıralamasını iyileştirir.
MicrocosmWorks, belge yapısına göre farklı stratejiler uygulayan içeriğe duyarlı chunking kullanır—düzyazı için anlamsal paragraf ayırma, başlık bağlamı korunmuş tablolar için satır düzeyinde veya bölüm düzeyinde chunking ve import ifadeleri eklenmiş kod için fonksiyon düzeyinde chunking. Her bir chunk'ı belge başlığı, bölüm hiyerarşisi ve içerik türü dahil olmak üzere meta verilerle zenginleştiriyoruz, böylece geri alma aşaması türe özgü puanlama uygulayabilir. Bu yaklaşım, müşteri projelerimizdeki geri alma alaka düzeyi karşılaştırmalarında basit sabit boyutlu chunking'i %25-40 oranında sürekli olarak geride bırakmaktadır.
MicrocosmWorks, RAG pipeline'larını üç boyutta test eden değerlendirme donanımları geliştirir: geri çağırma alaka düzeyi (doğru parçaların bulunup bulunmadığı), cevap doğruluğu (oluşturulan cevabın gerçekten geri çağrılan içeriği yansıtıp yansıtmadığı) ve cevap eksiksizliği (sorunun tamamını ele alıp almadığı). Etki alanı uzmanlarıyla birlikte, bilinen cevaplı sorguları, düşmanca uç durumları ve çoklu belge sentezi gerektiren soruları içeren altın test setleri oluştururuz. Bu değerlendirme CI/CD'de otomatik olarak çalışır, böylece her pipeline değişikliği dağıtımdan önce temel kalite metriklerine göre kıyaslanır.
MicrocosmWorks, ölçeğiniz, sorgu modeliniz ve operasyonel gereksinimlerinize göre vektör veritabanlarını seçer—yönetilen basitlik için Pinecone, hibrit anahtar kelime-vektör araması için Weaviate, halihazırda PostgreSQL'e yatırım yapmış ekipler için pgvector ve yüksek verimli kendi kendine barındırılan dağıtımlar için Qdrant. 10 milyon vektörün altındaki ölçeklerde, çoğu seçenek 100ms altı gecikme süresi sunar, ancak farklılıklar, index type, quantization ve sharding strategy'nin muazzam önem taşıdığı yüz milyonlarca vektörde önemli hale gelir. Mimari tasarım aşamamızda, gerçek embedding boyutlarınızı ve sorgu modellerinizi kısa listeye alınan seçeneklere karşı kıyaslarız.
MicrocosmWorks, kaynak belge depolarındaki değişiklikleri izleyen, yalnızca değiştirilen bölümleri re-chunk ve re-embed eden ve tam bir reindex gerektirmeden vector store'u güncelleyen artımlı ingestion pipeline'ları kurar. Bölüm düzeyinde içerik değişikliklerini algılayan document fingerprinting uyguluyoruz, böylece tek bir paragraf düzenlemesi 200 sayfalık bir belgenin tamamının yeniden işlenmesini tetiklemez. Gerçek zamanlı güncellik gereksinimleri olan müşteriler için, yakın zamanda değiştirilmiş belgeler için doğrudan kaynak sistemi sorgulayan ve bu sonuçları vector search sonuçlarıyla birleştiren canlı bir retrieval layer ekliyoruz.