MicrocosmWorksDijital Kozmosu Yenilikçi ve Mimari Olarak Tasarlamak
Hakkındaİletişim
MicrocosmWorksDijital Kozmosu Yenilikçi ve Mimari Olarak İnşa Etmek

Önemli BT çözümleri sunuyoruz. Teknoloji, güvenlik ve işletmelerin güvenilir, yenilikçi BT altyapısı ile büyümesine yardımcı olmaktan tutkuluyuz.

[email protected]
+91 7011868196
New Delhi, India

AI Büyüme Merkezi

AI MerkeziStartup İnovasyonuKurumsal Hızlandırıcı

Çözümler

Tüm ÇözümlerSağlık ve Fitness UygulamalarıAI Video PlatformuAI Ajan Geliştirme

Kaynaklar

ÖngörülerSektör RehberleriKullanım Durumu ŞablonlarıMimari KalıplarVaka Çalışmaları

Şirket

HakkımızdaİletişimÇalışmalarımız

Hizmetler

Dijital DanışmanlıkBulut AltyapısıSaaS GeliştirmeYapay Zeka GeliştirmeVideo Teknolojisi
ERP GeliştirmeZoho ÖzelleştirmeOdoo GeliştirmeSalesforce EntegrasyonuÖzel CRM Geliştirme
QuickBooks EntegrasyonuIoT ÇözümleriBlokzincir Geliştirme
Siber Güvenlik DanışmanlığıIT Desteği - L3

© 2026 MicrocosmWorks. Tüm hakları saklıdır.

Gizlilik PolitikasıHizmet Şartları
Mimari Desenlere Geri Dön
AI / DataAdvanced

RAG Boru Hattı Mimarisi

LLM'nize özel ayarlama yapmadan verilerinize erişim sağlayın. RAG, genel amaçlı dil modelleri ile alana özel bilgi arasındaki boşluğu doldurur.

June 22, 2026
|
2 topics covered
Bu Mimariyi Tartışın
rag-pipeline-architecture.webp
AI / Data
Category
Advanced
Complexity
Legal, Healthcare
Industries
2+
Technologies

Buna Ne Zaman İhtiyacınız Var?

Kuruluşunuzun belgeleri (sözleşmeler, politikalar, bilgi tabanları, ürün dokümantasyonu, tıbbi kayıtlar) hakkında soruları yanıtlayan bir AI asistanı oluşturmak istiyorsunuz. LLM'yi verilerinize göre ince ayarlamak pahalı, yavaş ve eğitim noktasında donmuş bir model yaratır. LLM'nin sorgu anında güncel, alana özel bilgilere erişebileceği, kaynaklarını gösterebileceği ve belgelerinizde olmayan gerçekleri uydurmaktan kaçınabileceği bir mimariye ihtiyacınız var. RAG (Retrieval-Augmented Generation) size bu imkanı sunar.

Related Architecture Patterns

Explore more design patterns and system architectures

ai-ml-pipeline-architecture.webp
AI / Data

AI/ML İş Akışı Mimarisi

Modeller kendi başlarına çalışmaz. Modellerinizi eğiten, doğrulayan, dağıtan ve izleyen iş akışı asıl üründür; model sadece bir eserdir.

EnterpriseView
scalable-vector-database-architecture.webp

Bu Mimarinin Uygulanmasında Yardıma İhtiyacınız Var mı?

Mimarlarımız, bu deseni kullanarak belirli gereksinimleriniz için sistemler tasarlamanıza ve oluşturmanıza yardımcı olabilir.

İletişime Geçin

Desenlere Genel Bakış

RAG, LLM üretimini bir bilgi tabanından alınan bağlamla zenginleştirir. Sorgu anında sistem, kullanıcının sorusunu bir embedding'e dönüştürür, anlamsal olarak benzer belge parçacıkları için bir vector database'de arama yapar ve en alakalı parçacıkları LLM prompt'unda bağlam olarak dahil eder. Bu, modelin yanıtını gerçek belgelere dayandırır, kaynak gösterimine olanak tanır ve bilgi tabanını yeniden eğitim yapmadan güncel tutar. Bir üretim RAG pipeline'ı, alım (parsing, chunking, embedding), geri alma (vector search, reranking, hybrid search) ve üretim (prompt oluşturma, streaming, guardrails) işlemlerini yönetir.

Referans Mimari

Mimari iki pipeline'dan oluşur. Alım pipeline'ı belgeleri parsing (PDF, DOCX, HTML çıkarma), chunking (anlamsal veya örtüşmeli sabit boyutlu), embedding (embedding modeli aracılığıyla) ve depolama (vector database + belge deposu) süreçlerinden geçirir. Sorgu pipeline'ı bir kullanıcı sorusu alır, bir sorgu embedding'i oluşturur, vector database'den aday parçacıkları alır, alaka düzeyine göre yeniden sıralar, en üstteki parçacıkları bağlam olarak içeren bir prompt oluşturur ve kaynak gösterimli LLM yanıtını yayınlar (streams).

Temel Bileşenler
  • Belge Alım Pipeline'ı: PDF, DOCX, HTML, Markdown ve taranmış görüntülerden (OCR) metin çıkaran çok formatlı parser (Apache Tika, Unstructured veya özel). Chunking stratejisi, belgeleri alınabilir birimlere ayırır — MW, 512-token hedef boyutu ve 50-token örtüşme ile anlamsal chunking'i (paragraf/bölüm sınırlarında bölme) varsayılan olarak kullanır
  • Embedding Servisi: Metin parçacıklarını vector embedding'lere dönüştürür. OpenAI text-embedding-3-large, Cohere embed-v4 veya açık kaynak alternatifleri (BGE, E5) gibi modelleri kullanır. Alım için batch işleme, arama için tek sorgulu işleme
  • Vector Database: Filtrelenmiş arama için metadata ile embedding'leri depolar. Ölçekte approximate nearest neighbor (ANN) aramasını destekler. Üretim ölçeği hususları için Scalable Vector Database Architecture bölümüne bakın
  • Geri Alma ve Yeniden Sıralama (Retrieval & Reranking): İki aşamalı geri alma — hızlı ANN araması ilk 50 adayı döndürür, ardından bir cross-encoder reranker (Cohere Rerank, BGE Reranker veya ColBERT) her adayı sorguya göre puanlayarak hassas alaka düzeyi sıralaması yapar. En üstteki 5 chunk LLM'e gider
  • Hibrit Arama (Hybrid Search): Vector (anlamsal) aramayı keyword (BM25) aramasıyla birleştirir. Bu, keyword aramasının iyi ele aldığı kesin terminolojiyi (ürün kodları, yasal maddeler, tıbbi terimler) vector aramasının kaçırdığı durumları yakalar. Reciprocal rank fusion, iki sonuç kümesini birleştirir

Tasarım Kararları ve Değiş Tokuşlar

Chunking Stratejisi: Sabit Boyutlu (Fixed-Size) vs. Anlamsal (Semantic) vs. Belge Yapısı (Document-Structure)
Sabit boyutlu chunking (her N token'da bölme) basittir ancak cümle ortasında bozulur ve belge yapısını kaybeder. Anlamsal chunking (doğal sınırlarda bölme — paragraflar, bölümler, başlıklar) bağlamı korur ancak değişken boyutlu chunk'lar üretir. Belge yapısı chunking (belgenin hiyerarşisine saygı duyma — bölümler, alt bölümler) yasal sözleşmeler veya teknik kılavuzlar gibi yapılandırılmış belgeler için en iyisidir. MW varsayılan olarak anlamsal chunking'i kullanır ve yüksek formatlı kaynaklar için belge yapısı chunking'e geçer.
Vector Search vs. Hibrit Arama (Hybrid Search)
Saf vector search, sohbet tarzı sorgular ("iade işlemlerini nasıl yaparım?") için iyi çalışır ancak tam eşleşme sorgularında ("madde 7.3.2 nedir?") başarısız olur. Hibrit arama (vector + BM25 keyword) her ikisini de ele alır. MW, belirli terminoloji, kodlar veya tanımlayıcılar içeren herhangi bir alan için hibrit aramayı önerir — ki bu çoğu kurumsal alandır. %10-15'lik ek karmaşıklık, önemli alaka düzeyi iyileşmesine değerdir.
Yeniden Sıralama (Reranking): Cross-Encoder vs. Yok
Cross-encoder reranking 100-300ms gecikme ekler ancak geri alma hassasiyetini önemli ölçüde artırır — hukuk ve sağlık alanlarında ilk 5 alaka düzeyinde %15-25'lik bir iyileşme ölçtük. MW, yanıt kalitesinin saniye altı gecikmeden daha önemli olduğu herhangi bir RAG sistemi için reranking'i varsayılan olarak dahil eder. Hızın kritik olduğu chatbot'lar için reranking'i atlar ve daha iyi chunking ve prompt engineering ile telafi ederiz.
Tek Vektörlü (Single-Vector) vs. Çok Vektörlü (Multi-Vector) (ColBERT tarzı)
Tek vektörlü embedding'ler daha basit ve depolaması/araması daha ucuzdur. Çok vektörlü gösterimler (token başına bir vektör, geç etkileşim puanlaması) daha fazla nüans yakalar ancak özel altyapı gerektirir. MW çoğu dağıtım için tek vektörü kullanır ve geri alma kalitesinin darboğaz olduğu ve belge kümesinin 100K chunk'ı aştığı alanlar için çok vektörü saklı tutar.

Teknoloji Seçimleri

KatmanTeknolojiler
Belge Ayrıştırma (Document Parsing)Unstructured, Apache Tika, LlamaParse, Docling, custom OCR (Tesseract, AWS Textract)
EmbeddingOpenAI text-embedding-3-large, Cohere embed-v4, BGE-M3, E5-large-v2
Vector DatabaseMilvus, Pinecone, Qdrant, Weaviate, pgvector (küçük ölçek için)
Anahtar Kelime Arama (Keyword Search)Elasticsearch, OpenSearch, PostgreSQL full-text search
Yeniden Sıralama (Reranking)Cohere Rerank, BGE Reranker, ColBERT v2, FlashRank
LLMClaude (AI Gateway aracılığıyla), GPT-4, Gemini — AI SDK aracılığıyla sağlayıcıdan bağımsız
Orkestrasyon (Orchestration)LangChain, LlamaIndex veya özel pipeline (üretim için MW tercihi)

Ne Zaman Kullanmalı / Ne Zaman Kaçınmalı

Kullanım DurumuKaçınma Durumu
Kullanıcıların, kuruluşunuzun belirli belgelerine dayanan yanıtlara ihtiyacı olduğundaBilgi tabanı < 50 sayfa olduğunda — doğrudan sistem prompt'una koyun
Belgeler sık sık güncellendiğinde ve AI'ın güncel bilgilere ihtiyacı olduğundaModelin yeni bir beceri/davranış öğrenmesi gerektiğinde, yeni gerçeklere erişmesi değil (bunun yerine fine-tune edin)
Kaynak gösterimi ve denetlenebilirlik gereksinim olduğunda (hukuk, uyumluluk, sağlık)Sorular tamamen sohbet amaçlı olduğunda ve gerçeklere dayanma gerektirmediğinde
Birden çok kullanıcı grubunun farklı belge alt kümelerine erişmesi gerektiğinde (izinle filtrelenmiş RAG)Gerçeklere dayalı doğruluğun amaç olmadığı yaratıcı bir yazma aracı oluşturuyorsanız

Yaklaşımımız

MW, RAG pipeline'larını geri alma kalitesinden başlayarak inşa eder — LLM prompt'una dokunmadan önce geri alma hassasiyetini kıyaslarız. Vasat bir geri alma ve harika bir LLM'e sahip bir RAG sistemi, kendinden emin görünen yanlış yanıtlar üretir. Standart pipeline'ımız bir geri alma değerlendirme düzeneği içerir: bilinen ilgili belgelere sahip bir dizi test sorgusu, MRR@5 ve NDCG@10 ile ölçülür. Üretimi optimize etmeden önce, geri alma metrikleri hedef eşiklere ulaşana kadar chunking, embedding model ve reranking üzerinde yineleme yaparız. Hukuki belge incelemesi, sağlık bilgi tabanları ve çok dilli müşteri desteği alanlarında RAG sistemleri kurduk — ve ortak ders, geri alma kalitesinin yanıt kalitesinin %80'ini oluşturduğudur.

İlgili Şablonlar (Blueprints)

  • AI Customer Support Agent — Bilgi tabanı geri alımı ile RAG destekli destek ajanı
  • AI Document Processing Pipeline — Belge alımı, ayrıştırma ve AI destekli çıkarma

İlgili Sektör Rehberleri

  • Hukuk için AI — Sözleşme incelemesi ve hukuki araştırmalardaki RAG uygulamaları

İlgili Vaka Çalışmaları

  • Belge Zekası (Document Intelligence) — Elektronik tablo ve belge analizi için yerel RAG pipeline'ı
  • AI Chat Platformu — Belge geri alımı ve GDPR uyumlu veri işleme ile çok modelli sohbet
Related Technologies
AI DevelopmentSaaS Development
AI / Data

Ölçeklenebilir Vektör Veritabanı Mimarisi

10 bin vektörde gömme araması kolaydır. 100 milyon vektörde, 100 ms'nin altında P99 ile bu bir altyapı sorunudur — ve bu kalıp bunu çözüyor.

EnterpriseView
multi-tenant-saas-architecture.webp
Application

Çok Kiracılı SaaS Mimarisi

Tek bir kod tabanı, yüzlerce kiracı, sıfır veri sızıntısı — her ölçeklenebilir SaaS işinin temeli.

AdvancedView

Sıkça Sorulan Sorular

MicrocosmWorks, RAG pipeline'larında çatışma çözümünü kaynak yetkisi sıralaması, zaman damgasına dayalı güncellik ağırlıklandırması ve her bir alınan pasajın iddiasını ne kadar güçlü desteklediğini değerlendiren güven puanlaması aracılığıyla uygular. Çelişkili pasajlar alındığında, pipeline'ımız en yüksek yetkiye sahip cevabı sunarken, anlaşmazlığı ve kaynak atıflarını şeffaf bir şekilde ortaya koyar, böylece kullanıcılar bilinçli kararlar verebilir. Ayrıca, alan uzmanlarının yanlış çözümleri işaretleyebileceği geri bildirim döngüleri oluştururuz; bu da zamanla alma sıralamasını iyileştirir.

MicrocosmWorks, belge yapısına göre farklı stratejiler uygulayan içeriğe duyarlı chunking kullanır—düzyazı için anlamsal paragraf ayırma, başlık bağlamı korunmuş tablolar için satır düzeyinde veya bölüm düzeyinde chunking ve import ifadeleri eklenmiş kod için fonksiyon düzeyinde chunking. Her bir chunk'ı belge başlığı, bölüm hiyerarşisi ve içerik türü dahil olmak üzere meta verilerle zenginleştiriyoruz, böylece geri alma aşaması türe özgü puanlama uygulayabilir. Bu yaklaşım, müşteri projelerimizdeki geri alma alaka düzeyi karşılaştırmalarında basit sabit boyutlu chunking'i %25-40 oranında sürekli olarak geride bırakmaktadır.

MicrocosmWorks, RAG pipeline'larını üç boyutta test eden değerlendirme donanımları geliştirir: geri çağırma alaka düzeyi (doğru parçaların bulunup bulunmadığı), cevap doğruluğu (oluşturulan cevabın gerçekten geri çağrılan içeriği yansıtıp yansıtmadığı) ve cevap eksiksizliği (sorunun tamamını ele alıp almadığı). Etki alanı uzmanlarıyla birlikte, bilinen cevaplı sorguları, düşmanca uç durumları ve çoklu belge sentezi gerektiren soruları içeren altın test setleri oluştururuz. Bu değerlendirme CI/CD'de otomatik olarak çalışır, böylece her pipeline değişikliği dağıtımdan önce temel kalite metriklerine göre kıyaslanır.

MicrocosmWorks, ölçeğiniz, sorgu modeliniz ve operasyonel gereksinimlerinize göre vektör veritabanlarını seçer—yönetilen basitlik için Pinecone, hibrit anahtar kelime-vektör araması için Weaviate, halihazırda PostgreSQL'e yatırım yapmış ekipler için pgvector ve yüksek verimli kendi kendine barındırılan dağıtımlar için Qdrant. 10 milyon vektörün altındaki ölçeklerde, çoğu seçenek 100ms altı gecikme süresi sunar, ancak farklılıklar, index type, quantization ve sharding strategy'nin muazzam önem taşıdığı yüz milyonlarca vektörde önemli hale gelir. Mimari tasarım aşamamızda, gerçek embedding boyutlarınızı ve sorgu modellerinizi kısa listeye alınan seçeneklere karşı kıyaslarız.

MicrocosmWorks, kaynak belge depolarındaki değişiklikleri izleyen, yalnızca değiştirilen bölümleri re-chunk ve re-embed eden ve tam bir reindex gerektirmeden vector store'u güncelleyen artımlı ingestion pipeline'ları kurar. Bölüm düzeyinde içerik değişikliklerini algılayan document fingerprinting uyguluyoruz, böylece tek bir paragraf düzenlemesi 200 sayfalık bir belgenin tamamının yeniden işlenmesini tetiklemez. Gerçek zamanlı güncellik gereksinimleri olan müşteriler için, yakın zamanda değiştirilmiş belgeler için doğrudan kaynak sistemi sorgulayan ve bu sonuçları vector search sonuçlarıyla birleştiren canlı bir retrieval layer ekliyoruz.