Was ist ein lokal-zuerst RAG-System, und warum sollte ich die Dokumentenverarbeitung On-Premises statt in der Cloud wünschen?

MicrocosmWorks hat ein lokal-zuerst RAG-System entwickelt, bei dem die gesamte Dokumenteneinlesung, Embedding-Generierung, Vektorspeicherung und LLM-Inferenz vollständig auf Ihrer Infrastruktur läuft, ohne Daten an externe Cloud-APIs zu senden. Diese Architektur ist unerlässlich für Organisationen, die klassifizierte Dokumente, Anwalt-Mandanten-privilegierte Materialien oder sensitives geistiges Eigentum verwalten, bei denen Datensouveränitätsanforderungen jegliche Cloud-Verarbeitung, selbst mit Verschlüsselung, verbieten.

Wie kombiniert die Hybridsuche Stichwort- und semantische Suche, um bessere Ergebnisse zu erzielen als jeder Ansatz allein?

MicrocosmWorks hat eine hybride Abrufpipeline implementiert, die BM25-Stichwortsuche und dichte Vektor-Semantiksuche parallel ausführt und anschließend Reciprocal Rank Fusion verwendet, um die kombinierten Ergebnisse zusammenzuführen und neu zu bewerten, bevor sie diese als Kontext an das LLM weitergibt. Dieser Ansatz erfasst exakte Übereinstimmungsanfragen wie Produktcodes und juristische Zitate, die die semantische Suche übersieht, während er auch konzeptionell verwandte Inhalte abruft, die die Stichwortsuche nie finden würde.

Welche Dokumentformate unterstützt das lokale RAG-System, und wie geht es mit gescannten PDFs um?

MicrocosmWorks hat formatspezifische Parser für PDF, DOCX, XLSX, PPTX, HTML, Markdown und reinen Text entwickelt, mit einer OCR-Pipeline, die Tesseract für gescannte PDFs und bildbasierte Dokumente verwendet. Das System erkennt automatisch, ob ein PDF wählbaren Text enthält oder OCR erfordert, wendet eine Layout-Analyse an, um Tabellenstrukturen und die Lesereihenfolge zu erhalten, und zerlegt Dokumente anhand semantischer Grenzen statt willkürlicher Zeichenbeschränkungen, um die Abrufqualität zu verbessern.

Wie handhabt das System Dokumentaktualisierungen, ohne den gesamten Korpus neu zu indizieren?

MicrocosmWorks hat eine inkrementelle Indizierung implementiert, die Dokument-Prüfsummen verfolgt und nur Dateien neu verarbeitet, die sich seit dem letzten Einlesevorgang geändert haben. Bei aktualisierten Dokumenten werden alte Chunks entfernt und neue Chunks atomar eingefügt, sodass der Suchindex nie in einem inkonsistenten Zustand ist. Das System unterstützt auch den Abruf versionierter Dokumente, wodurch Benutzer historische Versionen von Dokumenten abfragen können, wenn dies für Audit- oder Compliance-Zwecke erforderlich ist.

Welche Hardware ist erforderlich, um ein lokales RAG-System mit akzeptabler Leistung zu betreiben?

MicrocosmWorks hat die lokale RAG-Pipeline optimiert, um auf bescheidener Hardware zu laufen, wobei die minimal empfohlene Konfiguration eine Maschine mit 32 GB RAM, 8 CPU-Kernen und optional einer Mid-Range-GPU für beschleunigte Embedding-Generierung ist. Für Organisationen ohne GPU-Hardware greift das System auf CPU-basierte Embedding-Modelle mit einer etwas höheren Latenz zurück, und die Vektordatenbank ist für SSD-Speicher optimiert, um Abfrage-Antwortzeiten unter 200 ms für Korpora von bis zu 1 Million Dokument-Chunks zu halten.

Local-First Document RAG System with Hybrid Search & Mult...

Lokal-orientiertes Dokumenten-RAG-System mit hybrider Suche und Unterstützung mehrerer Formate

Ein Team, das Entwicklertools entwickelt, benötigte ein vollständig lokales, datenschutzfreundliches Dokumenten-Intelligenzsystem, das mehrere Dateiformate aufnehmen, durchsuchbare Wissensdatenbanken erstellen und natürliche Sprachabfragen mittels Retrieval-Augmented Generation beantworten konnte — ohne Daten an externe APIs zu senden.

Ihr Projekt besprechen

Bestehende RAG-Lösungen hatten erhebliche Einschränkungen für datenschutzbewusste und entwicklerorientierte Anwendungsfälle:

Externe API-Abhängigkeit — Die meisten RAG-Tools erforderten das Senden von Dokumenteninhalten an cloud-basierte Embedding APIs, was die Datenschutzanforderungen verletzte.
Begrenzte Formatunterstützung — Lösungen verarbeiteten typischerweise nur einfachen Text oder PDF, wobei Tabellenkalkulationen, Word-Dokumente, HTML und Markdown ignoriert wurden.
Schlechte Segmentierung — Naive Textaufteilung ignorierte die Dokumentenstruktur (Seiten, Tabellenblätter, Überschriften), wodurch kontextarme Segmente entstanden.
Keyword-Lücken — Reine Embedding-basierte Suche verpasste exakte Keyword-Übereinstimmungen, die eine lexikalische Suche erfassen würde.
Tabellenkalkulations-Blindheit — RAG-Systeme konnten strukturierte tabellarische Daten nicht verarbeiten oder Filter-/Aggregationsabfragen beantworten.
Kein Reranking — Die erste Abfrage lieferte oft nur teilweise relevante Ergebnisse ohne einen Qualitätsfilter im zweiten Durchgang.

Wir entwickelten ein vollständiges lokal-orientiertes RAG-System mit der Aufnahme von Dokumenten in mehreren Formaten, struktur-bewusster Segmentierung, lokaler Embedding-Generierung, einer hybriden Suchpipeline (semantisch + Volltext + Aktualität), Cross-Encoder Reranking und einer webbasierten Benutzeroberfläche — alles vollständig auf dem Rechner des Benutzers ausgeführt.

Architektur

Dokumenten-Loader: Formatspezifische Parser für PDF, DOCX, XLSX, CSV, HTML, Markdown und einfachen Text.
Segmentierungstool: Struktur-bewusste Aufteilung, die Seiten-, Tabellenblatt- und Überschriftenbegrenzungen beibehält.
Embeddings: Lokales Embedding-Modell über Transformers.js (keine externen API-Aufrufe).
Vektordatenbank: LanceDB (serverless, dateibasiert) zur Embedding-Speicherung und Ähnlichkeitssuche.
Volltextsuche: Trigramm-basierte Indizierung für lexikalisches Matching.
Reranker: Cross-Encoder-Modell für kontext-bewusste Ergebnisbewertung.
Abfrageanalysator: Routing der Intent-Erkennung zwischen semantischen und strukturierten Abfragen.
Webserver: Express.js API mit Projektmanagement- und Such-Endpunkten.
Frontend: Webbasierte UI für Dokumenten-Upload, -Verwaltung und interaktive Suche.

Dokumentenverarbeitungs-Pipeline

Multi-Format-Loader

Ein Registry-Muster erkennt automatisch den Dateityp und leitet ihn an den entsprechenden Parser weiter:

PDF — Text-Extraktion mit seitenbasierter Segmentierung
Word (.docx/.doc) — Überschriften-bewusstes Parsen unter Beibehaltung der Dokumentenhierarchie
Excel/CSV — Blattweise Analyse mit Header-Erkennung und zeilenbasiertem Inhalt
HTML — Tag-bewusste Extraktion unter Beibehaltung der Struktur
Markdown — Überschriften-basierte Sektionenanalyse
Einfacher Text — Zeilenbasierte Segmentierung

Jeder Loader extrahiert Metadaten (Titel, Autor, Erstellungsdatum, Seiten-/Blattanzahl, Wortanzahl) zusammen mit dem Inhalt, wodurch strukturierte Abschnitte mit Quellenverweisen entstehen.

Struktur-bewusste Segmentierung

Im Gegensatz zur naiven Textaufteilung respektiert das Segmentierungstool Dokumentengrenzen:

Behält Seitenumbrüche (PDFs), Blattgrenzen (Tabellenkalkulationen) und Überschriftenhierarchie (Word/Markdown) bei
Token-basierte Größenbestimmung mit konfigurierbarer Segmentgröße und Überlappung
Hierarchischer Fallback: Aufteilung zuerst nach Abschnitten, dann nach Absätzen, dann nach Sätzen
Jedes Segment behält Quellmetadaten (Seitennummer, Blattname, Überschrift) zur Attribution

Embedding & Indexierung

Lokales Embedding-Modell

Läuft vollständig lokal über Transformers.js — keine Daten verlassen den Rechner
Quantisiertes Modell zur Leistungsoptimierung
Batch-Embedding für effiziente Massenverarbeitung
Automatische Abschneidung an Wortgrenzen mit L2-Normalisierung

Vektorspeicher

LanceDB bietet serverlosen Vektorspeicher:

Dateibasiert (kein separater Datenbankserver erforderlich)
Projektweise Isolation mit unabhängigen Indizes
SHA256-basierte Cache-Schlüssel zur Deduplizierung
Metadaten, die zusammen mit Vektoren für gefilterte Abfragen gespeichert werden

Hybride Suchpipeline

Die Retrieval-Pipeline kombiniert drei Ranking-Signale für bessere Ergebnisse als jeder einzelne Ansatz:

Signal 1: Embedding-Suche (Semantisch)

Die Vektorähnlichkeitssuche findet Segmente mit ähnlicher Bedeutung, selbst wenn unterschiedliche Wörter verwendet werden. Behandelt Paraphrasierungen, Synonyme und konzeptionelle Abfragen.

Signal 2: Volltextsuche (Lexikalisch)

Trigramm-basierte Indizierung mit Jaccard-Ähnlichkeit erfasst exakte Keyword-Übereinstimmungen, die die Embedding-Suche möglicherweise verpassen würde — wichtig für Fachbegriffe, Namen und Bezeichner.

Signal 3: Aktualitäts-Boost

Exponentielle Abklinggewichtung bevorzugt kürzlich aufgerufene oder geänderte Dokumente, um sicherzustellen, dass aktuelle Informationen zuerst erscheinen.

Ergebniskombination

Signale werden mit konfigurierbaren Gewichten kombiniert (Standard: 50% semantisch, 25% lexikalisch, 25% Aktualität), normalisiert und durch einen Mindestpunktwert gefiltert.

Cross-Encoder Reranking

Nach der ersten Abfrage bewertet ein Cross-Encoder-Modell die Top-Kandidaten neu:

Kontext-bewusste Bewertung berücksichtigt Abfrage-Dokument-Paare zusammen (nicht unabhängig voneinander)
Keyword-Boost-Berechnung für Begriff-Überlappung
Kombinierte Bewertung (Cross-Encoder + Keyword-Signale)
Erzeugt eine endgültige Rangliste mit höherer Präzision als die erste Abfrage allein

Unterstützung für strukturierte Daten

Für Tabellenkalkulationsinhalte bietet das System zusätzliche Funktionen:

Automatische Erkennung von Spaltentypen (numerisch, Datum, boolesch, Zeichenkette)
Filterung in natürlicher Sprache (z.B. „Mitarbeiter im Engineering mit Gehalt über dem Schwellenwert“)
Aggregationsunterstützung (Anzahl, Summe, Durchschnitt, Minimum, Maximum)
Der Abfrageanalysator leitet strukturierte Abfragen an eine dedizierte Engine statt an die Embedding-Suche

Web-Oberfläche

Projektmanagement — Erstellen, Aktualisieren und Löschen von Wissensdatenbankprojekten
Dokumenten-Upload — Drag-and-drop-Datei-Upload mit Format-Auto-Erkennung
Dokumentenerstellung — Dokumente direkt in der UI aus Text erstellen
Interaktive Suche — Natürliche Sprachabfrageschnittstelle mit bewerteten Ergebnissen
Statistiken — Indexgröße, Dokumentenanzahl und Formatverteilung pro Projekt

Hauptmerkmale

Vollständig lokal — Alle Verarbeitung auf dem Gerät; keine externen API-Aufrufe für Embeddings oder Suche
9 Eingabeformate — PDF, DOCX, DOC, XLSX, XLS, CSV, HTML, Markdown, einfacher Text
Struktur-bewusste Segmentierung — Behält Seiten, Blätter und Überschriften als Segmentgrenzen bei
Hybride Suche — Kombiniert semantische, lexikalische und Aktualitätssignale für besseres Retrieval
Cross-Encoder Reranking — Bewertung im zweiten Durchgang für präzisere Ergebnisse
Strukturierte Abfragen — Filterung und Aggregation in natürlicher Sprache auf Tabellenkalkulationsdaten
Serverlose Vektordatenbank — LanceDB dateibasierter Speicher ohne Infrastruktur-Overhead
Dokumentenerstellung — Exportfunktionen für die Erstellung von PDF, DOCX und XLSX
Projektisolation — Unabhängige Wissensdatenbanken mit separaten Indizes
Web-UI — Vollständige Schnittstelle für Dokumentenmanagement und interaktive Suche

Lokal-orientiertes Dokumenten-RAG-System mit hybrider Suche und Unterstützung mehrerer Formate

Die Herausforderung

Unsere Lösung

Architektur

Dokumentenverarbeitungs-Pipeline

Multi-Format-Loader

Struktur-bewusste Segmentierung

Embedding & Indexierung

Lokales Embedding-Modell

Vektorspeicher

Hybride Suchpipeline

Signal 1: Embedding-Suche (Semantisch)

Signal 2: Volltextsuche (Lexikalisch)

Signal 3: Aktualitäts-Boost

Ergebniskombination

Cross-Encoder Reranking

Unterstützung für strukturierte Daten

Web-Oberfläche

Hauptmerkmale

Ergebnisse

Technologie-Stack

caseStudyDetail.more Fallstudien

KI-gestützte Tabellen- & Dokumentenanalyse mit Multi-Agenten-Orchestrierung und dokumentenübergreifender Referenzierung

KI-gestützte Rechnungsverarbeitung mit OCR und QuickBooks-Integration

Bereit, Ihr Unternehmen zu transformieren?

Clientseitige Anzeigeninsertion (CSAI) mit SCTE-35 Marker-Parsing & Multi-Plattform-Player-Integration

Häufig gestellte Fragen