Lokal-Zuerst Dokument RAG-System mit Hybrid-Suche & Multi-Format-UnterstĂĽtzung
Ein Team, das Entwicklertools entwickelt, benötigte ein vollständig lokales, datenschutzfreundliches Dokumenten-Intelligenzsystem, das mehrere Dateiformate verarbeiten, durchsuchbare Wissensdatenbanken erstellen und natürliche Sprachanfragen mittels Retrieval-Augmented Generation beantworten konnte — ohne Daten an externe APIs zu senden.
Ihr Projekt besprechen
Die Herausforderung
Bestehende RAG-Lösungen wiesen erhebliche Einschränkungen für datenschutzbewusste und entwicklerorientierte Anwendungsfälle auf:
- Abhängigkeit von externen APIs — Die meisten RAG-Tools erforderten das Senden von Dokumenteninhalten an cloud-basierte Embedding APIs, was die Datenschutzanforderungen verletzte
- Begrenzte Formatunterstützung — Lösungen verarbeiteten typischerweise nur einfachen Text oder PDF, ignorierten aber Tabellen, Word-Dokumente, HTML und Markdown
- Mangelhaftes Chunking — Naives Text-Splitting ignorierte die Dokumentenstruktur (Seiten, Blätter, Überschriften), wodurch kontextarme Chunks entstanden
- Keyword-Lücken — Die rein Embedding-basierte Suche verpasste exakte Keyword-Übereinstimmungen, die eine lexikalische Suche erfassen würde
- Tabellenblindheit — RAG-Systeme konnten keine strukturierten Tabellendaten verarbeiten oder Filter-/Aggregationsanfragen beantworten
- Kein Reranking — Die erste Abrufphase lieferte oft nur teilweise relevante Ergebnisse ohne einen zweiten Qualitätsfilter
Unsere Lösung
Wir haben ein vollständiges Lokal-Zuerst RAG-System entwickelt, das Multi-Format-Dokumentenaufnahme, struktur-aware Chunking, lokale Embedding-Generierung, eine Hybrid-Suchpipeline (semantisch + Volltext + Aktualität), Cross-Encoder Reranking und eine webbasierte Benutzeroberfläche umfasst — alles läuft vollständig auf dem Rechner des Benutzers.
Architektur
- Dokumenten-Loader: Formatspezifische Parser fĂĽr PDF, DOCX, XLSX, CSV, HTML, Markdown und einfachen Text
- Chunker: Struktur-aware Aufteilung, die Seiten-, Blatt- und Überschriftengrenzen erhält
- Embeddings: Lokales Embedding-Modell ĂĽber Transformers.js (keine externen API-Aufrufe)
- Vektordatenbank: LanceDB (serverless, dateibasiert) für Embedding-Speicherung und Ähnlichkeitssuche
- Volltextsuche: Trigramm-basierte Indizierung fĂĽr lexikalisches Matching
- Reranker: Cross-Encoder-Modell fĂĽr kontextsensitive Ergebnisbewertung
- Query Analyzer: Intent-Erkennung, die zwischen semantischen und strukturierten Anfragen routet
- Webserver: Express.js API mit Projektmanagement- und Such-Endpoints
- Frontend: Webbasierte Benutzeroberfläche für Dokumenten-Upload, -Verwaltung und interaktive Suche
Dokumentenverarbeitungs-Pipeline
Multi-Format-Loader
Ein Registry-Muster erkennt automatisch den Dateityp und leitet an den entsprechenden Parser weiter:
- PDF — Textextraktion mit Segmentierung auf Seitenebene
- Word (.docx/.doc) — Überschriften-aware Analyse zur Erhaltung der Dokumentenhierarchie
- Excel/CSV — Blatt-für-Blatt-Analyse mit Header-Erkennung und Inhalten auf Zeilenebene
- HTML — Tag-aware Extraktion mit Strukturerhaltung
- Markdown — Überschriftenbasierte Sektionsanalyse
- Einfacher Text — Zeilenbasierte Segmentierung
Jeder Loader extrahiert Metadaten (Titel, Autor, Erstellungsdatum, Seiten-/Blattanzahl, Wortanzahl) zusammen mit dem Inhalt und erzeugt strukturierte Abschnitte mit Quellenverweisen.
Struktur-aware Chunking
Im Gegensatz zu naiver Textaufteilung berĂĽcksichtigt der Chunker Dokumentengrenzen:
- Er hält Seitenumbrüche (PDFs), Blattgrenzen (Tabellenkalkulationen) und die Überschriftenhierarchie (Word/Markdown) ein
- Token-basierte Größenanpassung mit konfigurierbarer Chunk-Größe und Überlappung
- Hierarchischer Fallback: Aufteilung zuerst nach Abschnitten, dann nach Absätzen, dann nach Sätzen
- Jeder Chunk behält Quellmetadaten (Seitenzahl, Blattname, Überschrift) zur Attribution bei
Embedding & Indexierung
Lokales Embedding-Modell
- Läuft vollständig lokal über Transformers.js — keine Daten verlassen den Rechner
- Quantisiertes Modell zur Leistungsoptimierung
- Batch-Embedding fĂĽr effiziente Massenverarbeitung
- Automatische KĂĽrzung an Wortgrenzen mit L2-Normalisierung
Vektorspeicher
LanceDB bietet serverlosen Vektorspeicher:
- Dateibasiert (kein separater Datenbankserver erforderlich)
- Projektbasierte Isolation mit unabhängigen Indizes
- SHA256-basierte Cache-SchlĂĽssel zur Deduplizierung
- Metadaten werden zusammen mit Vektoren fĂĽr gefilterten Abruf gespeichert
Hybrid-Suchpipeline
Die Abrufpipeline kombiniert drei Ranking-Signale fĂĽr bessere Ergebnisse als jeder einzelne Ansatz:
Signal 1: Embedding-Suche (Semantisch)
Die Vektorähnlichkeitssuche findet Chunks mit verwandter Bedeutung, auch wenn unterschiedliche Wörter verwendet werden. Handhabt Paraphrasierungen, Synonyme und konzeptionelle Anfragen.
Signal 2: Volltextsuche (Lexikalisch)
Die Trigramm-basierte Indizierung mit Jaccard-Ähnlichkeit erfasst exakte Keyword-Übereinstimmungen, die die Embedding-Suche möglicherweise verpasst — wichtig für technische Begriffe, Namen und Identifikatoren.
Signal 3: Aktualitäts-Boost
Die exponentielle Abfallgewichtung bevorzugt kürzlich aufgerufene oder geänderte Dokumente und stellt sicher, dass aktuelle Informationen zuerst angezeigt werden.
Score-Kombination
Signale werden mit konfigurierbaren Gewichten (Standard: 50% semantisch, 25% lexikalisch, 25% Aktualität) kombiniert, normalisiert und durch einen Mindest-Score-Schwellenwert gefiltert.
Cross-Encoder Reranking
Nach dem ersten Abruf bewertet ein Cross-Encoder-Modell die Top-Kandidaten neu:
- Kontextsensitive Bewertung berücksichtigt Abfrage-Dokument-Paare zusammen (nicht unabhängig voneinander)
- Keyword-Boost-Berechnung fĂĽr BegriffsĂĽberlappung
- Gemischte Bewertung (Cross-Encoder + Keyword-Signale)
- Erzeugt eine finale, gerankte Liste mit höherer Präzision als der reine First-Pass-Abruf
UnterstĂĽtzung fĂĽr strukturierte Daten
Für Tabellenkalkulationsinhalte bietet das System zusätzliche Funktionen:
- Automatische Erkennung von Spaltentypen (numerisch, Datum, boolesch, Zeichenkette)
- Filterung in natürlicher Sprache (z.B. „Mitarbeiter im Engineering mit Gehalt über dem Schwellenwert“)
- AggregationsunterstĂĽtzung (Anzahl, Summe, Durchschnitt, Minimum, Maximum)
- Query Analyzer leitet strukturierte Abfragen an eine dedizierte Engine anstatt an die Embedding-Suche weiter
Web-Oberfläche
- Projektmanagement — Erstellen, Aktualisieren und Löschen von Wissensdatenbankprojekten
- Dokumenten-Upload — Drag-and-drop-Dateiupload mit automatischer Formaterkennung
- Dokumentenerstellung — Dokumente direkt in der Benutzeroberfläche aus Text erstellen
- Interaktive Suche — Natürliche Sprachabfrageschnittstelle mit gerankten Ergebnissen
- Statistiken — Indexgröße, Dokumentenanzahl und Formatverteilung pro Projekt
Hauptmerkmale
- Vollständig Lokal — Alle Verarbeitung auf dem Gerät; keine externen API-Aufrufe für Embeddings oder Suche
- 9 Eingabeformate — PDF, DOCX, DOC, XLSX, XLS, CSV, HTML, Markdown, einfacher Text
- Struktur-aware Chunking — Erhält Seiten, Blätter und Überschriften als Chunk-Grenzen
- Hybrid-Suche — Kombiniert semantische, lexikalische und Aktualitätssignale für besseren Abruf
- Cross-Encoder Reranking — Zweite Bewertungsphase für präzisere Ergebnisse
- Strukturierte Abfragen — Filterung und Aggregation in natürlicher Sprache für Tabellenkalkulationsdaten
- Serverlose Vektor-DB — LanceDB dateibasierter Speicher ohne Infrastruktur-Overhead
- Dokumentenerstellung — Exportfunktionen für die Erstellung von PDF, DOCX und XLSX
- Projektisolation — Unabhängige Wissensdatenbanken mit separaten Indizes
- Web UI — Komplette Benutzeroberfläche für Dokumentenmanagement und interaktive Suche
Ergebnisse
Technologie-Stack
caseStudyDetail.more Fallstudien
Entdecken Sie mehr unserer technischen Implementierungen
KI-gestĂĽtzte Tabellen- & Dokumentenanalyse mit Multi-Agenten-Orchestrierung und dokumentenĂĽbergreifender Referenzierung
Ein Unternehmensdatenteam musste große Sammlungen von Tabellen und Dokumenten (Excel, CSV, Google Sheets, PDFs, Word docs) mittels natürlicher Sprache analysieren, abfragen und bearbeiten – mit der Möglichkeit, Daten über mehrere Dateien hinweg zu referenzieren und mehrstufige analytische Workflows ohne manuelle Datenaufbereitung auszuführen.
KI-gestĂĽtzte Rechnungsverarbeitung mit OCR und QuickBooks-Integration
Ein mittelständisches Unternehmen, das monatlich Hunderte von Lieferantenrechnungen verarbeitete, musste die manuelle Dateneingabe eliminieren, indem es Rechnungsdaten automatisch mithilfe von AI/OCR extrahierte und diese direkt mit QuickBooks für die Buchhaltung und Zahlungsverfolgung synchronisierte.
Bereit, Ihr Unternehmen zu transformieren?
Lassen Sie uns besprechen, wie wir ähnliche Lösungen für Ihre Herausforderungen anwenden können.