Ermöglichen Sie Ihrem LLM den Zugriff auf Ihre Daten ohne Fine-Tuning. RAG überbrückt die Lücke zwischen allgemeinen Sprachmodellen und domänenspezifischem Wissen.

Sie möchten einen AI-Assistenten entwickeln, der Fragen zu den Dokumenten Ihrer Organisation beantwortet – Verträge, Richtlinien, Wissensdatenbanken, Produktdokumentationen, Patientenakten. Das Fine-Tuning eines LLM mit Ihren Daten ist teuer, langsam und erzeugt ein Modell, das zum Zeitpunkt des Trainings eingefroren ist. Sie benötigen eine Architektur, bei der das LLM zur Abfragezeit auf aktuelle, domänenspezifische Informationen zugreifen, seine Quellen zitieren und die Halluzination von Fakten vermeiden kann, die nicht in Ihren Dokumenten enthalten sind. RAG (Retrieval-Augmented Generation) ist der Weg dorthin.
Explore more design patterns and system architectures
Unsere Architekten können Ihnen helfen, Systeme mit diesem Muster für Ihre spezifischen Anforderungen zu entwerfen und zu erstellen.
Kontakt aufnehmenRAG erweitert die LLM-Generierung mit abgerufenem Kontext aus einer Wissensdatenbank. Zur Abfragezeit wandelt das System die Frage des Benutzers in ein Embedding um, durchsucht eine Vector Database nach semantisch ähnlichen Dokument-Chunks und fügt die relevantesten Chunks als Kontext in den LLM-Prompt ein. Dies erdet die Antwort des Modells in tatsächlichen Dokumenten, ermöglicht die Quellenangabe und hält die Wissensdatenbank ohne erneutes Training aktualisierbar. Eine Produktions-RAG-Pipeline verwaltet die Ingestion (Parsing, Chunking, Embedding), das Retrieval (Vector Search, Reranking, Hybrid Search) und die Generierung (Prompt Construction, Streaming, Guardrails).
Die Architektur besteht aus zwei Pipelines. Die Ingestion Pipeline verarbeitet Dokumente durch Parsing (PDF-, DOCX-, HTML-Extraktion), Chunking (semantisch oder feste Größe mit Überlappung), Embedding (über Embedding Model) und Speicherung (Vector Database + Document Store). Die Query Pipeline nimmt eine Benutzerfrage entgegen, generiert ein Query Embedding, ruft Kandidaten-Chunks aus der Vector Database ab, ordnet sie nach Relevanz neu, konstruiert einen Prompt mit den obersten Chunks als Kontext und streamt die LLM-Antwort mit Quellenangaben.
text-embedding-3-large, Cohere embed-v4 oder Open-Source-Alternativen (BGE, E5). Batch-Verarbeitung für die Ingestion, Einzelabfrage-Verarbeitung für die Suche.
System Architecture Overview
| Schicht | Technologien |
|---|---|
| Dokumenten-Parsing | Unstructured, Apache Tika, LlamaParse, Docling, custom OCR (Tesseract, AWS Textract) |
| Embedding | OpenAI text-embedding-3-large, Cohere embed-v4, BGE-M3, E5-large-v2 |
| Vector Database | Milvus, Pinecone, Qdrant, Weaviate, pgvector (for small-scale) |
| Keyword Search | Elasticsearch, OpenSearch, PostgreSQL full-text search |
| Reranking | Cohere Rerank, BGE Reranker, ColBERT v2, FlashRank |
| LLM | Claude (via AI Gateway), GPT-4, Gemini — provider-agnostic via AI SDK |
| Orchestrierung | LangChain, LlamaIndex, or custom pipeline (MW preference for production) |
| Verwenden, wenn | Vermeiden, wenn |
|---|---|
| Benutzer Antworten benötigen, die auf den spezifischen Dokumenten Ihrer Organisation basieren | Die Wissensdatenbank < 50 Seiten umfasst – fügen Sie sie einfach dem System-Prompt hinzu |
| Dokumente häufig aktualisiert werden und die AI aktuelle Informationen benötigt | Sie möchten, dass das Modell eine neue Fähigkeit/Verhalten lernt, nicht auf neue Fakten zugreift (stattdessen Fine-Tuning) |
| Quellenangabe und Prüfbarkeit erforderlich sind (Recht, Compliance, Gesundheitswesen) | Die Fragen rein konversationell sind und keine faktische Verankerung erfordern |
| Mehrere Benutzergruppen Zugriff auf verschiedene Dokumenten-Teilmengen benötigen (Berechtigungs-gefiltertes RAG) | Sie ein kreatives Schreibwerkzeug entwickeln, bei dem die faktische Genauigkeit nicht das Ziel ist |
MW entwickelt RAG-Pipelines ausgehend von der Retrieval-Qualität – wir benchmarken die Retrieval-Präzision, bevor wir den LLM-Prompt anpassen. Ein RAG-System mit mittelmäßigem Retrieval und einem großartigen LLM erzeugt selbstbewusst klingende falsche Antworten. Unsere Standard-Pipeline umfasst ein Retrieval-Evaluierungstool: einen Satz von Testabfragen mit bekannten relevanten Dokumenten, gemessen durch MRR@5 und NDCG@10. Wir iterieren Chunking, Embedding Model und Reranking, bis die Retrieval-Metriken die Zielschwellenwerte erreichen, bevor wir die Generierung optimieren. Wir haben RAG-Systeme für die juristische Dokumentenprüfung, Wissensdatenbanken im Gesundheitswesen und mehrsprachigen Kundensupport entwickelt – und die gemeinsame Lektion ist, dass die Retrieval-Qualität 80% der Antwortqualität ausmacht.
Die Embedding-Suche ist bei 10.000 Vektoren einfach. Bei 100 Millionen Vektoren mit einer P99-Latenz von unter 100 ms wird es zu einem Infrastrukturproblem – und genau das löst dieses Muster.
MicrocosmWorks implementiert Konfliktlösung in RAG-Pipelines mittels Quellautoritäts-Ranking, Zeitstempel-basierter Aktualitätsgewichtung und Konfidenzbewertung, die beurteilt, wie stark jede abgerufene Passage ihre Behauptung unterstützt. Wenn widersprüchliche Passagen abgerufen werden, präsentiert unsere Pipeline die Antwort mit der höchsten Autorität, während sie die Uneinigkeit und Quellenzitate transparent aufzeigt, damit Benutzer fundierte Entscheidungen treffen können. Wir implementieren auch Feedback-Schleifen, in denen Fachexperten fehlerhafte Auflösungen markieren können, was das Retrieval-Ranking im Laufe der Zeit verbessert.
MicrocosmWorks verwendet inhaltsbewusstes Chunking, das unterschiedliche Strategien basierend auf der Dokumentstruktur anwendet – semantische Absatztrennung für Prosa, reihen- oder abschnittsweises Chunking für Tabellen, bei dem der Header-Kontext erhalten bleibt, und funktionsweises Chunking für Code, an den Import-Statements angehängt sind. Wir reichern jeden Chunk mit Metadaten an, darunter Dokumenttitel, Abschnittshierarchie und Inhaltstyp, damit die Retrieval-Phase ein typspezifisches Scoring anwenden kann. Dieser Ansatz übertrifft das naive Chunking fester Größe in unseren Kundenprojekten bei Benchmarks zur Retrieval-Relevanz durchweg um 25-40%.
MicrocosmWorks entwickelt Evaluierungs-Harnesses, die RAG-Pipelines über drei Dimensionen hinweg testen: Abruf-Relevanz (werden die richtigen Chunks gefunden), Antworttreue (spiegelt die generierte Antwort tatsächlich den abgerufenen Inhalt wider) und Antwortvollständigkeit (wird die gesamte Frage beantwortet). Wir erstellen goldene Testsets mit Fachexperten, die Abfragen mit bekannten Antworten, adversarielle Grenzfälle und Fragen umfassen, die eine Synthese aus mehreren Dokumenten erfordern. Diese Evaluierung läuft automatisch in CI/CD ab, sodass jede Pipeline-Änderung vor der Bereitstellung anhand von Basisqualitätsmetriken bewertet wird.
MicrocosmWorks wählt Vektordatenbanken basierend auf Ihrer Skalierung, Ihren Abfragemustern und betrieblichen Anforderungen aus – Pinecone für verwaltete Einfachheit, Weaviate für hybride Keyword-Vektor-Suche, pgvector für Teams, die bereits in PostgreSQL investiert haben, und Qdrant für selbst gehostete Bereitstellungen mit hohem Durchsatz. Bei Skalierungen unter 10 Millionen Vektoren liefern die meisten Optionen eine Latenzzeit von unter 100 ms, aber die Unterschiede werden bei Hunderten von Millionen Vektoren signifikant, wo Indextyp, Quantisierung und Sharding-Strategie von enormer Bedeutung sind. Wir bewerten Ihre tatsächlichen Embedding-Dimensionen und Abfragemuster anhand der eng gefassten Optionen während unserer Architekturgestaltungsphase.
MicrocosmWorks baut inkrementelle Ingestions-Pipelines auf, die Quelldokument-Repositories auf Änderungen überwachen, nur die modifizierten Abschnitte neu aufteilen (re-chunk) und neu einbetten (re-embed) und den Vektor-Store aktualisieren, ohne eine vollständige Neuindizierung (reindex) zu erfordern. Wir implementieren Dokumenten-Fingerprinting, das Inhaltsänderungen auf Abschnittsebene erkennt, sodass eine einzelne Absatzbearbeitung nicht die Neuverarbeitung eines gesamten 200-seitigen Dokuments auslöst. Für Kunden mit Echtzeit-Aktualisierungsanforderungen fügen wir eine Live-Abrufschicht hinzu, die das Quellsystem direkt nach kürzlich geänderten Dokumenten abfragt und diese Ergebnisse mit Vektor-Suchtreffern zusammenführt.