Lokal-orientiertes Dokumenten-RAG-System mit hybrider Suche und UnterstĂĽtzung mehrerer Formate
Ein Team, das Entwicklertools entwickelt, benötigte ein vollständig lokales, datenschutzfreundliches Dokumenten-Intelligenzsystem, das mehrere Dateiformate aufnehmen, durchsuchbare Wissensdatenbanken erstellen und natürliche Sprachabfragen mittels Retrieval-Augmented Generation beantworten konnte — ohne Daten an externe APIs zu senden.
Ihr Projekt besprechen
Die Herausforderung
Bestehende RAG-Lösungen hatten erhebliche Einschränkungen für datenschutzbewusste und entwicklerorientierte Anwendungsfälle:
- Externe API-Abhängigkeit — Die meisten RAG-Tools erforderten das Senden von Dokumenteninhalten an cloud-basierte Embedding APIs, was die Datenschutzanforderungen verletzte.
- Begrenzte Formatunterstützung — Lösungen verarbeiteten typischerweise nur einfachen Text oder PDF, wobei Tabellenkalkulationen, Word-Dokumente, HTML und Markdown ignoriert wurden.
- Schlechte Segmentierung — Naive Textaufteilung ignorierte die Dokumentenstruktur (Seiten, Tabellenblätter, Überschriften), wodurch kontextarme Segmente entstanden.
- Keyword-Lücken — Reine Embedding-basierte Suche verpasste exakte Keyword-Übereinstimmungen, die eine lexikalische Suche erfassen würde.
- Tabellenkalkulations-Blindheit — RAG-Systeme konnten strukturierte tabellarische Daten nicht verarbeiten oder Filter-/Aggregationsabfragen beantworten.
- Kein Reranking — Die erste Abfrage lieferte oft nur teilweise relevante Ergebnisse ohne einen Qualitätsfilter im zweiten Durchgang.
Unsere Lösung
Wir entwickelten ein vollständiges lokal-orientiertes RAG-System mit der Aufnahme von Dokumenten in mehreren Formaten, struktur-bewusster Segmentierung, lokaler Embedding-Generierung, einer hybriden Suchpipeline (semantisch + Volltext + Aktualität), Cross-Encoder Reranking und einer webbasierten Benutzeroberfläche — alles vollständig auf dem Rechner des Benutzers ausgeführt.
Architektur
- Dokumenten-Loader: Formatspezifische Parser fĂĽr PDF, DOCX, XLSX, CSV, HTML, Markdown und einfachen Text.
- Segmentierungstool: Struktur-bewusste Aufteilung, die Seiten-, Tabellenblatt- und Überschriftenbegrenzungen beibehält.
- Embeddings: Lokales Embedding-Modell ĂĽber Transformers.js (keine externen API-Aufrufe).
- Vektordatenbank: LanceDB (serverless, dateibasiert) zur Embedding-Speicherung und Ähnlichkeitssuche.
- Volltextsuche: Trigramm-basierte Indizierung fĂĽr lexikalisches Matching.
- Reranker: Cross-Encoder-Modell fĂĽr kontext-bewusste Ergebnisbewertung.
- Abfrageanalysator: Routing der Intent-Erkennung zwischen semantischen und strukturierten Abfragen.
- Webserver: Express.js API mit Projektmanagement- und Such-Endpunkten.
- Frontend: Webbasierte UI fĂĽr Dokumenten-Upload, -Verwaltung und interaktive Suche.
Dokumentenverarbeitungs-Pipeline
Multi-Format-Loader
Ein Registry-Muster erkennt automatisch den Dateityp und leitet ihn an den entsprechenden Parser weiter:
- PDF — Text-Extraktion mit seitenbasierter Segmentierung
- Word (.docx/.doc) — Überschriften-bewusstes Parsen unter Beibehaltung der Dokumentenhierarchie
- Excel/CSV — Blattweise Analyse mit Header-Erkennung und zeilenbasiertem Inhalt
- HTML — Tag-bewusste Extraktion unter Beibehaltung der Struktur
- Markdown — Überschriften-basierte Sektionenanalyse
- Einfacher Text — Zeilenbasierte Segmentierung
Jeder Loader extrahiert Metadaten (Titel, Autor, Erstellungsdatum, Seiten-/Blattanzahl, Wortanzahl) zusammen mit dem Inhalt, wodurch strukturierte Abschnitte mit Quellenverweisen entstehen.
Struktur-bewusste Segmentierung
Im Gegensatz zur naiven Textaufteilung respektiert das Segmentierungstool Dokumentengrenzen:
- Behält Seitenumbrüche (PDFs), Blattgrenzen (Tabellenkalkulationen) und Überschriftenhierarchie (Word/Markdown) bei
- Token-basierte Größenbestimmung mit konfigurierbarer Segmentgröße und Überlappung
- Hierarchischer Fallback: Aufteilung zuerst nach Abschnitten, dann nach Absätzen, dann nach Sätzen
- Jedes Segment behält Quellmetadaten (Seitennummer, Blattname, Überschrift) zur Attribution
Embedding & Indexierung
Lokales Embedding-Modell
- Läuft vollständig lokal über Transformers.js — keine Daten verlassen den Rechner
- Quantisiertes Modell zur Leistungsoptimierung
- Batch-Embedding fĂĽr effiziente Massenverarbeitung
- Automatische Abschneidung an Wortgrenzen mit L2-Normalisierung
Vektorspeicher
LanceDB bietet serverlosen Vektorspeicher:
- Dateibasiert (kein separater Datenbankserver erforderlich)
- Projektweise Isolation mit unabhängigen Indizes
- SHA256-basierte Cache-SchlĂĽssel zur Deduplizierung
- Metadaten, die zusammen mit Vektoren fĂĽr gefilterte Abfragen gespeichert werden
Hybride Suchpipeline
Die Retrieval-Pipeline kombiniert drei Ranking-Signale fĂĽr bessere Ergebnisse als jeder einzelne Ansatz:
Signal 1: Embedding-Suche (Semantisch)
Die Vektorähnlichkeitssuche findet Segmente mit ähnlicher Bedeutung, selbst wenn unterschiedliche Wörter verwendet werden. Behandelt Paraphrasierungen, Synonyme und konzeptionelle Abfragen.
Signal 2: Volltextsuche (Lexikalisch)
Trigramm-basierte Indizierung mit Jaccard-Ähnlichkeit erfasst exakte Keyword-Übereinstimmungen, die die Embedding-Suche möglicherweise verpassen würde — wichtig für Fachbegriffe, Namen und Bezeichner.
Signal 3: Aktualitäts-Boost
Exponentielle Abklinggewichtung bevorzugt kürzlich aufgerufene oder geänderte Dokumente, um sicherzustellen, dass aktuelle Informationen zuerst erscheinen.
Ergebniskombination
Signale werden mit konfigurierbaren Gewichten kombiniert (Standard: 50% semantisch, 25% lexikalisch, 25% Aktualität), normalisiert und durch einen Mindestpunktwert gefiltert.
Cross-Encoder Reranking
Nach der ersten Abfrage bewertet ein Cross-Encoder-Modell die Top-Kandidaten neu:
- Kontext-bewusste Bewertung berücksichtigt Abfrage-Dokument-Paare zusammen (nicht unabhängig voneinander)
- Keyword-Boost-Berechnung fĂĽr Begriff-Ăśberlappung
- Kombinierte Bewertung (Cross-Encoder + Keyword-Signale)
- Erzeugt eine endgültige Rangliste mit höherer Präzision als die erste Abfrage allein
UnterstĂĽtzung fĂĽr strukturierte Daten
Für Tabellenkalkulationsinhalte bietet das System zusätzliche Funktionen:
- Automatische Erkennung von Spaltentypen (numerisch, Datum, boolesch, Zeichenkette)
- Filterung in natürlicher Sprache (z.B. „Mitarbeiter im Engineering mit Gehalt über dem Schwellenwert“)
- AggregationsunterstĂĽtzung (Anzahl, Summe, Durchschnitt, Minimum, Maximum)
- Der Abfrageanalysator leitet strukturierte Abfragen an eine dedizierte Engine statt an die Embedding-Suche
Web-Oberfläche
- Projektmanagement — Erstellen, Aktualisieren und Löschen von Wissensdatenbankprojekten
- Dokumenten-Upload — Drag-and-drop-Datei-Upload mit Format-Auto-Erkennung
- Dokumentenerstellung — Dokumente direkt in der UI aus Text erstellen
- Interaktive Suche — Natürliche Sprachabfrageschnittstelle mit bewerteten Ergebnissen
- Statistiken — Indexgröße, Dokumentenanzahl und Formatverteilung pro Projekt
Hauptmerkmale
- Vollständig lokal — Alle Verarbeitung auf dem Gerät; keine externen API-Aufrufe für Embeddings oder Suche
- 9 Eingabeformate — PDF, DOCX, DOC, XLSX, XLS, CSV, HTML, Markdown, einfacher Text
- Struktur-bewusste Segmentierung — Behält Seiten, Blätter und Überschriften als Segmentgrenzen bei
- Hybride Suche — Kombiniert semantische, lexikalische und Aktualitätssignale für besseres Retrieval
- Cross-Encoder Reranking — Bewertung im zweiten Durchgang für präzisere Ergebnisse
- Strukturierte Abfragen — Filterung und Aggregation in natürlicher Sprache auf Tabellenkalkulationsdaten
- Serverlose Vektordatenbank — LanceDB dateibasierter Speicher ohne Infrastruktur-Overhead
- Dokumentenerstellung — Exportfunktionen für die Erstellung von PDF, DOCX und XLSX
- Projektisolation — Unabhängige Wissensdatenbanken mit separaten Indizes
- Web-UI — Vollständige Schnittstelle für Dokumentenmanagement und interaktive Suche
Ergebnisse
Technologie-Stack
caseStudyDetail.more Fallstudien
Entdecken Sie mehr unserer technischen Implementierungen
KI-gestĂĽtzte Tabellen- & Dokumentenanalyse mit Multi-Agenten-Orchestrierung und dokumentenĂĽbergreifender Referenzierung
Ein Unternehmensdatenteam musste große Sammlungen von Tabellen und Dokumenten (Excel, CSV, Google Sheets, PDFs, Word docs) mittels natürlicher Sprache analysieren, abfragen und bearbeiten – mit der Möglichkeit, Daten über mehrere Dateien hinweg zu referenzieren und mehrstufige analytische Workflows ohne manuelle Datenaufbereitung auszuführen.
KI-gestĂĽtzte Rechnungsverarbeitung mit OCR und QuickBooks-Integration
Ein mittelständisches Unternehmen, das monatlich Hunderte von Lieferantenrechnungen verarbeitete, musste die manuelle Dateneingabe eliminieren, indem es Rechnungsdaten automatisch mithilfe von AI/OCR extrahierte und diese direkt mit QuickBooks für die Buchhaltung und Zahlungsverfolgung synchronisierte.
Bereit, Ihr Unternehmen zu transformieren?
Lassen Sie uns besprechen, wie wir ähnliche Lösungen für Ihre Herausforderungen anwenden können.