Was ist ein local-first RAG-System, und warum sollte ich wollen, dass die Dokumentenverarbeitung On-Premises statt in der Cloud stattfindet?

MicrocosmWorks hat ein local-first RAG-System entwickelt, bei dem die gesamte Dokumentenerfassung, Embedding-Generierung, Vektorspeicherung und LLM-Inferenz vollständig auf Ihrer Infrastruktur läuft, ohne Daten an externe Cloud APIs zu senden. Diese Architektur ist unerlässlich für Organisationen, die klassifizierte Dokumente, Anwalt-Mandanten-privilegierte Materialien oder sensibles geistiges Eigentum verwalten, bei denen Anforderungen an die Datensouveränität jegliche Cloud-Verarbeitung, selbst mit Verschlüsselung, verbieten.

Wie kombiniert die Hybridsuche die Stichwortsuche und die semantische Suche, um bessere Ergebnisse zu erzielen als jeder Ansatz allein?

MicrocosmWorks hat eine hybride Retrieval-Pipeline implementiert, die die BM25-Stichwortsuche und die semantische Suche mit dichten Vektoren parallel ausführt und dann Reciprocal Rank Fusion verwendet, um die kombinierten Ergebnisse zusammenzuführen und neu zu ordnen, bevor sie diese als Kontext an das LLM weitergibt. Dieser Ansatz fängt exakte Übereinstimmungen wie Produktcodes und Rechtszitate ab, die die semantische Suche übersehen würde, während er gleichzeitig konzeptionell verwandte Inhalte abruft, die die Stichwortsuche niemals finden würde.

Welche Dokumentformate unterstützt das lokale RAG-System und wie verarbeitet es gescannte PDFs?

MicrocosmWorks hat formatspezifische Parser für PDF, DOCX, XLSX, PPTX, HTML, Markdown und reinen Text entwickelt, mit einer OCR-Pipeline, die Tesseract für gescannte PDFs und bildbasierte Dokumente verwendet. Das System erkennt automatisch, ob ein PDF wählbaren Text enthält oder OCR erfordert, wendet Layout-Analyse an, um Tabellenstrukturen und die Lesereihenfolge zu erhalten, und segmentiert Dokumente mithilfe semantischer Grenzen statt willkürlicher Zeichenbeschränkungen, um die Abrufqualität zu verbessern.

Wie handhabt das System Dokumentenaktualisierungen, ohne den gesamten Korpus neu zu indizieren?

MicrocosmWorks hat eine inkrementelle Indizierung implementiert, die Dokumenten-checksums verfolgt und nur Dateien neu verarbeitet, die sich seit dem letzten Erfassungslauf geändert haben. Bei aktualisierten Dokumenten werden ihre alten chunks entfernt und neue chunks atomar eingefügt, sodass der search index nie in einem inkonsistenten Zustand ist. Das System unterstützt auch den Abruf versionierter Dokumente, wodurch Benutzer historische Versionen von Dokumenten abfragen können, wenn dies für audit- oder compliance-Zwecke erforderlich ist.

Welche Hardware ist erforderlich, um ein lokales RAG-System mit akzeptabler Leistung zu betreiben?

MicrocosmWorks optimierte die lokale RAG-Pipeline für den Betrieb auf moderater Hardware, wobei die minimal empfohlene Konfiguration ein Computer mit 32GB RAM, 8 CPU-Kernen und optional einer Mid-Range GPU für die beschleunigte Einbettungsgenerierung ist. Für Organisationen ohne GPU-Hardware greift das System auf CPU-basierte Einbettungsmodelle mit leicht höherer Latenz zurück, und die Vektordatenbank ist für SSD-Speicher optimiert, um Abfrageantwortzeiten unter 200ms für Korpora von bis zu 1 Million Dokumenten-Chunks zu halten.

Local-First Document RAG System with Hybrid Search & Mult...

Lokal-Zuerst Dokument RAG-System mit Hybrid-Suche & Multi-Format-Unterstützung

Ein Team, das Entwicklertools entwickelt, benötigte ein vollständig lokales, datenschutzfreundliches Dokumenten-Intelligenzsystem, das mehrere Dateiformate verarbeiten, durchsuchbare Wissensdatenbanken erstellen und natürliche Sprachanfragen mittels Retrieval-Augmented Generation beantworten konnte — ohne Daten an externe APIs zu senden.

Ihr Projekt besprechen

Bestehende RAG-Lösungen wiesen erhebliche Einschränkungen für datenschutzbewusste und entwicklerorientierte Anwendungsfälle auf:

Abhängigkeit von externen APIs — Die meisten RAG-Tools erforderten das Senden von Dokumenteninhalten an cloud-basierte Embedding APIs, was die Datenschutzanforderungen verletzte
Begrenzte Formatunterstützung — Lösungen verarbeiteten typischerweise nur einfachen Text oder PDF, ignorierten aber Tabellen, Word-Dokumente, HTML und Markdown
Mangelhaftes Chunking — Naives Text-Splitting ignorierte die Dokumentenstruktur (Seiten, Blätter, Überschriften), wodurch kontextarme Chunks entstanden
Keyword-Lücken — Die rein Embedding-basierte Suche verpasste exakte Keyword-Übereinstimmungen, die eine lexikalische Suche erfassen würde
Tabellenblindheit — RAG-Systeme konnten keine strukturierten Tabellendaten verarbeiten oder Filter-/Aggregationsanfragen beantworten
Kein Reranking — Die erste Abrufphase lieferte oft nur teilweise relevante Ergebnisse ohne einen zweiten Qualitätsfilter

Wir haben ein vollständiges Lokal-Zuerst RAG-System entwickelt, das Multi-Format-Dokumentenaufnahme, struktur-aware Chunking, lokale Embedding-Generierung, eine Hybrid-Suchpipeline (semantisch + Volltext + Aktualität), Cross-Encoder Reranking und eine webbasierte Benutzeroberfläche umfasst — alles läuft vollständig auf dem Rechner des Benutzers.

Architektur

Dokumenten-Loader: Formatspezifische Parser für PDF, DOCX, XLSX, CSV, HTML, Markdown und einfachen Text
Chunker: Struktur-aware Aufteilung, die Seiten-, Blatt- und Überschriftengrenzen erhält
Embeddings: Lokales Embedding-Modell über Transformers.js (keine externen API-Aufrufe)
Vektordatenbank: LanceDB (serverless, dateibasiert) für Embedding-Speicherung und Ähnlichkeitssuche
Volltextsuche: Trigramm-basierte Indizierung für lexikalisches Matching
Reranker: Cross-Encoder-Modell für kontextsensitive Ergebnisbewertung
Query Analyzer: Intent-Erkennung, die zwischen semantischen und strukturierten Anfragen routet
Webserver: Express.js API mit Projektmanagement- und Such-Endpoints
Frontend: Webbasierte Benutzeroberfläche für Dokumenten-Upload, -Verwaltung und interaktive Suche

Dokumentenverarbeitungs-Pipeline

Multi-Format-Loader

Ein Registry-Muster erkennt automatisch den Dateityp und leitet an den entsprechenden Parser weiter:

PDF — Textextraktion mit Segmentierung auf Seitenebene
Word (.docx/.doc) — Überschriften-aware Analyse zur Erhaltung der Dokumentenhierarchie
Excel/CSV — Blatt-für-Blatt-Analyse mit Header-Erkennung und Inhalten auf Zeilenebene
HTML — Tag-aware Extraktion mit Strukturerhaltung
Markdown — Überschriftenbasierte Sektionsanalyse
Einfacher Text — Zeilenbasierte Segmentierung

Jeder Loader extrahiert Metadaten (Titel, Autor, Erstellungsdatum, Seiten-/Blattanzahl, Wortanzahl) zusammen mit dem Inhalt und erzeugt strukturierte Abschnitte mit Quellenverweisen.

Struktur-aware Chunking

Im Gegensatz zu naiver Textaufteilung berücksichtigt der Chunker Dokumentengrenzen:

Er hält Seitenumbrüche (PDFs), Blattgrenzen (Tabellenkalkulationen) und die Überschriftenhierarchie (Word/Markdown) ein
Token-basierte Größenanpassung mit konfigurierbarer Chunk-Größe und Überlappung
Hierarchischer Fallback: Aufteilung zuerst nach Abschnitten, dann nach Absätzen, dann nach Sätzen
Jeder Chunk behält Quellmetadaten (Seitenzahl, Blattname, Überschrift) zur Attribution bei

Embedding & Indexierung

Lokales Embedding-Modell

Läuft vollständig lokal über Transformers.js — keine Daten verlassen den Rechner
Quantisiertes Modell zur Leistungsoptimierung
Batch-Embedding für effiziente Massenverarbeitung
Automatische Kürzung an Wortgrenzen mit L2-Normalisierung

Vektorspeicher

LanceDB bietet serverlosen Vektorspeicher:

Dateibasiert (kein separater Datenbankserver erforderlich)
Projektbasierte Isolation mit unabhängigen Indizes
SHA256-basierte Cache-Schlüssel zur Deduplizierung
Metadaten werden zusammen mit Vektoren für gefilterten Abruf gespeichert

Hybrid-Suchpipeline

Die Abrufpipeline kombiniert drei Ranking-Signale für bessere Ergebnisse als jeder einzelne Ansatz:

Signal 1: Embedding-Suche (Semantisch)

Die Vektorähnlichkeitssuche findet Chunks mit verwandter Bedeutung, auch wenn unterschiedliche Wörter verwendet werden. Handhabt Paraphrasierungen, Synonyme und konzeptionelle Anfragen.

Signal 2: Volltextsuche (Lexikalisch)

Die Trigramm-basierte Indizierung mit Jaccard-Ähnlichkeit erfasst exakte Keyword-Übereinstimmungen, die die Embedding-Suche möglicherweise verpasst — wichtig für technische Begriffe, Namen und Identifikatoren.

Signal 3: Aktualitäts-Boost

Die exponentielle Abfallgewichtung bevorzugt kürzlich aufgerufene oder geänderte Dokumente und stellt sicher, dass aktuelle Informationen zuerst angezeigt werden.

Score-Kombination

Signale werden mit konfigurierbaren Gewichten (Standard: 50% semantisch, 25% lexikalisch, 25% Aktualität) kombiniert, normalisiert und durch einen Mindest-Score-Schwellenwert gefiltert.

Cross-Encoder Reranking

Nach dem ersten Abruf bewertet ein Cross-Encoder-Modell die Top-Kandidaten neu:

Kontextsensitive Bewertung berücksichtigt Abfrage-Dokument-Paare zusammen (nicht unabhängig voneinander)
Keyword-Boost-Berechnung für Begriffsüberlappung
Gemischte Bewertung (Cross-Encoder + Keyword-Signale)
Erzeugt eine finale, gerankte Liste mit höherer Präzision als der reine First-Pass-Abruf

Unterstützung für strukturierte Daten

Für Tabellenkalkulationsinhalte bietet das System zusätzliche Funktionen:

Automatische Erkennung von Spaltentypen (numerisch, Datum, boolesch, Zeichenkette)
Filterung in natürlicher Sprache (z.B. „Mitarbeiter im Engineering mit Gehalt über dem Schwellenwert“)
Aggregationsunterstützung (Anzahl, Summe, Durchschnitt, Minimum, Maximum)
Query Analyzer leitet strukturierte Abfragen an eine dedizierte Engine anstatt an die Embedding-Suche weiter

Web-Oberfläche

Projektmanagement — Erstellen, Aktualisieren und Löschen von Wissensdatenbankprojekten
Dokumenten-Upload — Drag-and-drop-Dateiupload mit automatischer Formaterkennung
Dokumentenerstellung — Dokumente direkt in der Benutzeroberfläche aus Text erstellen
Interaktive Suche — Natürliche Sprachabfrageschnittstelle mit gerankten Ergebnissen
Statistiken — Indexgröße, Dokumentenanzahl und Formatverteilung pro Projekt

Hauptmerkmale

Vollständig Lokal — Alle Verarbeitung auf dem Gerät; keine externen API-Aufrufe für Embeddings oder Suche
9 Eingabeformate — PDF, DOCX, DOC, XLSX, XLS, CSV, HTML, Markdown, einfacher Text
Struktur-aware Chunking — Erhält Seiten, Blätter und Überschriften als Chunk-Grenzen
Hybrid-Suche — Kombiniert semantische, lexikalische und Aktualitätssignale für besseren Abruf
Cross-Encoder Reranking — Zweite Bewertungsphase für präzisere Ergebnisse
Strukturierte Abfragen — Filterung und Aggregation in natürlicher Sprache für Tabellenkalkulationsdaten
Serverlose Vektor-DB — LanceDB dateibasierter Speicher ohne Infrastruktur-Overhead
Dokumentenerstellung — Exportfunktionen für die Erstellung von PDF, DOCX und XLSX
Projektisolation — Unabhängige Wissensdatenbanken mit separaten Indizes
Web UI — Komplette Benutzeroberfläche für Dokumentenmanagement und interaktive Suche

Lokal-Zuerst Dokument RAG-System mit Hybrid-Suche & Multi-Format-Unterstützung

Die Herausforderung

Unsere Lösung

Architektur

Dokumentenverarbeitungs-Pipeline

Multi-Format-Loader

Struktur-aware Chunking

Embedding & Indexierung

Lokales Embedding-Modell

Vektorspeicher

Hybrid-Suchpipeline

Signal 1: Embedding-Suche (Semantisch)

Signal 2: Volltextsuche (Lexikalisch)

Signal 3: Aktualitäts-Boost

Score-Kombination

Cross-Encoder Reranking

Unterstützung für strukturierte Daten

Web-Oberfläche

Hauptmerkmale

Ergebnisse

Technologie-Stack

caseStudyDetail.more Fallstudien

KI-gestützte Tabellen- & Dokumentenanalyse mit Multi-Agenten-Orchestrierung und dokumentenübergreifender Referenzierung

Kickly: KI-gestützte Projektplattform für Startups

Bereit, Ihr Unternehmen zu transformieren?

KI-gestützte Rechnungsverarbeitung mit OCR und QuickBooks-Integration

Häufig gestellte Fragen