MicrocosmWorksInnovation und Architektur digitaler Kosmen
Ăśber unsKontakt
MicrocosmWorksInnovieren und Gestalten digitaler Kosmen

Bereitstellung von IT-Lösungen, die zählen. Wir sind leidenschaftlich für Technologie, Sicherheit und helfen Unternehmen, durch zuverlässige, innovative IT-Infrastruktur zu wachsen.

[email protected]
+91 7011868196
New Delhi, India

AI Wachstumszentrum

AI HubStartup-InnovationUnternehmensbeschleuniger

Lösungen

Alle LösungenWellness- & Fitness-AppsAI Video PlattformAI Agent Entwicklung

Ressourcen

EinblickeBranchenleitfädenAnwendungsfall-BlaupausenArchitektur-MusterFallstudien

Unternehmen

Ăśber unsKontaktUnsere Arbeit

Dienstleistungen

Digitale BeratungCloud-InfrastrukturSaaS-EntwicklungKI-EntwicklungVideotechnologie
ERP-EntwicklungZoho-AnpassungOdoo-EntwicklungSalesforce-IntegrationBenutzerdefinierte CRM-Entwicklung
QuickBooks-IntegrationIoT-LösungenBlockchain-Entwicklung
Cybersecurity-BeratungIT-Support - L3

© 2026 MicrocosmWorks. Alle Rechte vorbehalten.

DatenschutzrichtlinieNutzungsbedingungen
ZurĂĽck zu Fallstudien
Document IntelligenceVeröffentlicht June 18, 2026 · Aktualisiert May 25, 2026

Lokal-orientiertes Dokumenten-RAG-System mit hybrider Suche und UnterstĂĽtzung mehrerer Formate

Ein Team, das Entwicklertools entwickelt, benötigte ein vollständig lokales, datenschutzfreundliches Dokumenten-Intelligenzsystem, das mehrere Dateiformate aufnehmen, durchsuchbare Wissensdatenbanken erstellen und natürliche Sprachabfragen mittels Retrieval-Augmented Generation beantworten konnte — ohne Daten an externe APIs zu senden.

Ihr Projekt besprechen
local-rag-hybrid-search-pipeline.webp
Document Intelligence
Domain
8
Technologies
5
Key Results
Delivered
Status

Die Herausforderung

Bestehende RAG-Lösungen hatten erhebliche Einschränkungen für datenschutzbewusste und entwicklerorientierte Anwendungsfälle:

  • Externe API-Abhängigkeit — Die meisten RAG-Tools erforderten das Senden von Dokumenteninhalten an cloud-basierte Embedding APIs, was die Datenschutzanforderungen verletzte.
  • Begrenzte FormatunterstĂĽtzung — Lösungen verarbeiteten typischerweise nur einfachen Text oder PDF, wobei Tabellenkalkulationen, Word-Dokumente, HTML und Markdown ignoriert wurden.
  • Schlechte Segmentierung — Naive Textaufteilung ignorierte die Dokumentenstruktur (Seiten, Tabellenblätter, Ăśberschriften), wodurch kontextarme Segmente entstanden.
  • Keyword-LĂĽcken — Reine Embedding-basierte Suche verpasste exakte Keyword-Ăśbereinstimmungen, die eine lexikalische Suche erfassen wĂĽrde.
  • Tabellenkalkulations-Blindheit — RAG-Systeme konnten strukturierte tabellarische Daten nicht verarbeiten oder Filter-/Aggregationsabfragen beantworten.
  • Kein Reranking — Die erste Abfrage lieferte oft nur teilweise relevante Ergebnisse ohne einen Qualitätsfilter im zweiten Durchgang.

Unsere Lösung

Wir entwickelten ein vollständiges lokal-orientiertes RAG-System mit der Aufnahme von Dokumenten in mehreren Formaten, struktur-bewusster Segmentierung, lokaler Embedding-Generierung, einer hybriden Suchpipeline (semantisch + Volltext + Aktualität), Cross-Encoder Reranking und einer webbasierten Benutzeroberfläche — alles vollständig auf dem Rechner des Benutzers ausgeführt.

Architektur

  • Dokumenten-Loader: Formatspezifische Parser fĂĽr PDF, DOCX, XLSX, CSV, HTML, Markdown und einfachen Text.
  • Segmentierungstool: Struktur-bewusste Aufteilung, die Seiten-, Tabellenblatt- und Ăśberschriftenbegrenzungen beibehält.
  • Embeddings: Lokales Embedding-Modell ĂĽber Transformers.js (keine externen API-Aufrufe).
  • Vektordatenbank: LanceDB (serverless, dateibasiert) zur Embedding-Speicherung und Ă„hnlichkeitssuche.
  • Volltextsuche: Trigramm-basierte Indizierung fĂĽr lexikalisches Matching.
  • Reranker: Cross-Encoder-Modell fĂĽr kontext-bewusste Ergebnisbewertung.
  • Abfrageanalysator: Routing der Intent-Erkennung zwischen semantischen und strukturierten Abfragen.
  • Webserver: Express.js API mit Projektmanagement- und Such-Endpunkten.
  • Frontend: Webbasierte UI fĂĽr Dokumenten-Upload, -Verwaltung und interaktive Suche.

Dokumentenverarbeitungs-Pipeline

Multi-Format-Loader

Ein Registry-Muster erkennt automatisch den Dateityp und leitet ihn an den entsprechenden Parser weiter:

  • PDF — Text-Extraktion mit seitenbasierter Segmentierung
  • Word (.docx/.doc) — Ăśberschriften-bewusstes Parsen unter Beibehaltung der Dokumentenhierarchie
  • Excel/CSV — Blattweise Analyse mit Header-Erkennung und zeilenbasiertem Inhalt
  • HTML — Tag-bewusste Extraktion unter Beibehaltung der Struktur
  • Markdown — Ăśberschriften-basierte Sektionenanalyse
  • Einfacher Text — Zeilenbasierte Segmentierung

Jeder Loader extrahiert Metadaten (Titel, Autor, Erstellungsdatum, Seiten-/Blattanzahl, Wortanzahl) zusammen mit dem Inhalt, wodurch strukturierte Abschnitte mit Quellenverweisen entstehen.

Struktur-bewusste Segmentierung

Im Gegensatz zur naiven Textaufteilung respektiert das Segmentierungstool Dokumentengrenzen:

  • Behält SeitenumbrĂĽche (PDFs), Blattgrenzen (Tabellenkalkulationen) und Ăśberschriftenhierarchie (Word/Markdown) bei
  • Token-basierte Größenbestimmung mit konfigurierbarer Segmentgröße und Ăśberlappung
  • Hierarchischer Fallback: Aufteilung zuerst nach Abschnitten, dann nach Absätzen, dann nach Sätzen
  • Jedes Segment behält Quellmetadaten (Seitennummer, Blattname, Ăśberschrift) zur Attribution

Embedding & Indexierung

Lokales Embedding-Modell

  • Läuft vollständig lokal ĂĽber Transformers.js — keine Daten verlassen den Rechner
  • Quantisiertes Modell zur Leistungsoptimierung
  • Batch-Embedding fĂĽr effiziente Massenverarbeitung
  • Automatische Abschneidung an Wortgrenzen mit L2-Normalisierung

Vektorspeicher

LanceDB bietet serverlosen Vektorspeicher:

  • Dateibasiert (kein separater Datenbankserver erforderlich)
  • Projektweise Isolation mit unabhängigen Indizes
  • SHA256-basierte Cache-SchlĂĽssel zur Deduplizierung
  • Metadaten, die zusammen mit Vektoren fĂĽr gefilterte Abfragen gespeichert werden

Hybride Suchpipeline

Die Retrieval-Pipeline kombiniert drei Ranking-Signale fĂĽr bessere Ergebnisse als jeder einzelne Ansatz:

Signal 1: Embedding-Suche (Semantisch)

Die Vektorähnlichkeitssuche findet Segmente mit ähnlicher Bedeutung, selbst wenn unterschiedliche Wörter verwendet werden. Behandelt Paraphrasierungen, Synonyme und konzeptionelle Abfragen.

Signal 2: Volltextsuche (Lexikalisch)

Trigramm-basierte Indizierung mit Jaccard-Ähnlichkeit erfasst exakte Keyword-Übereinstimmungen, die die Embedding-Suche möglicherweise verpassen würde — wichtig für Fachbegriffe, Namen und Bezeichner.

Signal 3: Aktualitäts-Boost

Exponentielle Abklinggewichtung bevorzugt kürzlich aufgerufene oder geänderte Dokumente, um sicherzustellen, dass aktuelle Informationen zuerst erscheinen.

Ergebniskombination

Signale werden mit konfigurierbaren Gewichten kombiniert (Standard: 50% semantisch, 25% lexikalisch, 25% Aktualität), normalisiert und durch einen Mindestpunktwert gefiltert.

Cross-Encoder Reranking

Nach der ersten Abfrage bewertet ein Cross-Encoder-Modell die Top-Kandidaten neu:

  • Kontext-bewusste Bewertung berĂĽcksichtigt Abfrage-Dokument-Paare zusammen (nicht unabhängig voneinander)
  • Keyword-Boost-Berechnung fĂĽr Begriff-Ăśberlappung
  • Kombinierte Bewertung (Cross-Encoder + Keyword-Signale)
  • Erzeugt eine endgĂĽltige Rangliste mit höherer Präzision als die erste Abfrage allein

UnterstĂĽtzung fĂĽr strukturierte Daten

Für Tabellenkalkulationsinhalte bietet das System zusätzliche Funktionen:

  • Automatische Erkennung von Spaltentypen (numerisch, Datum, boolesch, Zeichenkette)
  • Filterung in natĂĽrlicher Sprache (z.B. „Mitarbeiter im Engineering mit Gehalt ĂĽber dem Schwellenwert“)
  • AggregationsunterstĂĽtzung (Anzahl, Summe, Durchschnitt, Minimum, Maximum)
  • Der Abfrageanalysator leitet strukturierte Abfragen an eine dedizierte Engine statt an die Embedding-Suche

Web-Oberfläche

  • Projektmanagement — Erstellen, Aktualisieren und Löschen von Wissensdatenbankprojekten
  • Dokumenten-Upload — Drag-and-drop-Datei-Upload mit Format-Auto-Erkennung
  • Dokumentenerstellung — Dokumente direkt in der UI aus Text erstellen
  • Interaktive Suche — NatĂĽrliche Sprachabfrageschnittstelle mit bewerteten Ergebnissen
  • Statistiken — Indexgröße, Dokumentenanzahl und Formatverteilung pro Projekt

Hauptmerkmale

  1. Vollständig lokal — Alle Verarbeitung auf dem Gerät; keine externen API-Aufrufe für Embeddings oder Suche
  2. 9 Eingabeformate — PDF, DOCX, DOC, XLSX, XLS, CSV, HTML, Markdown, einfacher Text
  3. Struktur-bewusste Segmentierung — Behält Seiten, Blätter und Überschriften als Segmentgrenzen bei
  4. Hybride Suche — Kombiniert semantische, lexikalische und Aktualitätssignale für besseres Retrieval
  5. Cross-Encoder Reranking — Bewertung im zweiten Durchgang für präzisere Ergebnisse
  6. Strukturierte Abfragen — Filterung und Aggregation in natürlicher Sprache auf Tabellenkalkulationsdaten
  7. Serverlose Vektordatenbank — LanceDB dateibasierter Speicher ohne Infrastruktur-Overhead
  8. Dokumentenerstellung — Exportfunktionen für die Erstellung von PDF, DOCX und XLSX
  9. Projektisolation — Unabhängige Wissensdatenbanken mit separaten Indizes
  10. Web-UI — Vollständige Schnittstelle für Dokumentenmanagement und interaktive Suche

Ergebnisse

Suchlatenz: ~60ms für die vollständige hybride Suchpipeline (semantisch + FTS + Reranking)
Embedding-Geschwindigkeit: ~50ms pro Segment (Batch: ~2s fĂĽr 100 Segmente)
Formatabdeckung: 9 Eingabeformate nativ ohne externe Konverter verarbeitet

Technologie-Stack

TypeScriptNode.jsExpress.jsTransformers.jsLanceDBVitestpnpmHTML/CSS/JS Frontend

caseStudyDetail.more Fallstudien

Entdecken Sie mehr unserer technischen Implementierungen

Document Intelligence

KI-gestĂĽtzte Tabellen- & Dokumentenanalyse mit Multi-Agenten-Orchestrierung und dokumentenĂĽbergreifender Referenzierung

Ein Unternehmensdatenteam musste große Sammlungen von Tabellen und Dokumenten (Excel, CSV, Google Sheets, PDFs, Word docs) mittels natürlicher Sprache analysieren, abfragen und bearbeiten – mit der Möglichkeit, Daten über mehrere Dateien hinweg zu referenzieren und mehrstufige analytische Workflows ohne manuelle Datenaufbereitung auszuführen.

Fallstudie lesen
AI Accounting

KI-gestĂĽtzte Rechnungsverarbeitung mit OCR und QuickBooks-Integration

Ein mittelständisches Unternehmen, das monatlich Hunderte von Lieferantenrechnungen verarbeitete, musste die manuelle Dateneingabe eliminieren, indem es Rechnungsdaten automatisch mithilfe von AI/OCR extrahierte und diese direkt mit QuickBooks für die Buchhaltung und Zahlungsverfolgung synchronisierte.

Bereit, Ihr Unternehmen zu transformieren?

Lassen Sie uns besprechen, wie wir ähnliche Lösungen für Ihre Herausforderungen anwenden können.

Kontakt aufnehmencaseStudyDetail.viewAllCaseStudies
Datenschutz: Keine Daten extern übertragen — vollständige lokale Verarbeitung
Speicherbedarf: ~100MB fĂĽr das Embedding-Modell, ~1MB pro 1.000 indizierten Segmenten
Fallstudie lesen
Video Encoding

Clientseitige Anzeigeninsertion (CSAI) mit SCTE-35 Marker-Parsing & Multi-Plattform-Player-Integration

Eine Video-Streaming-Plattform musste die Clientseitige Anzeigeninsertion (CSAI) über Web-, Mobil- und Connected TV-Apps hinweg implementieren – was personalisierte, gerätespezifische Anzeigenerlebnisse mit vollständiger Unterstützung der Anzeigeninteraktion (anklickbare Overlays, Companion-Banner, Skip-Buttons) ermöglicht, die serverseitige Insertion nicht bieten kann.

Fallstudie lesen

Häufig gestellte Fragen

MicrocosmWorks hat ein lokal-zuerst RAG-System entwickelt, bei dem die gesamte Dokumenteneinlesung, Embedding-Generierung, Vektorspeicherung und LLM-Inferenz vollständig auf Ihrer Infrastruktur läuft, ohne Daten an externe Cloud-APIs zu senden. Diese Architektur ist unerlässlich für Organisationen, die klassifizierte Dokumente, Anwalt-Mandanten-privilegierte Materialien oder sensitives geistiges Eigentum verwalten, bei denen Datensouveränitätsanforderungen jegliche Cloud-Verarbeitung, selbst mit Verschlüsselung, verbieten.

MicrocosmWorks hat eine hybride Abrufpipeline implementiert, die BM25-Stichwortsuche und dichte Vektor-Semantiksuche parallel ausführt und anschließend Reciprocal Rank Fusion verwendet, um die kombinierten Ergebnisse zusammenzuführen und neu zu bewerten, bevor sie diese als Kontext an das LLM weitergibt. Dieser Ansatz erfasst exakte Übereinstimmungsanfragen wie Produktcodes und juristische Zitate, die die semantische Suche übersieht, während er auch konzeptionell verwandte Inhalte abruft, die die Stichwortsuche nie finden würde.

MicrocosmWorks hat formatspezifische Parser für PDF, DOCX, XLSX, PPTX, HTML, Markdown und reinen Text entwickelt, mit einer OCR-Pipeline, die Tesseract für gescannte PDFs und bildbasierte Dokumente verwendet. Das System erkennt automatisch, ob ein PDF wählbaren Text enthält oder OCR erfordert, wendet eine Layout-Analyse an, um Tabellenstrukturen und die Lesereihenfolge zu erhalten, und zerlegt Dokumente anhand semantischer Grenzen statt willkürlicher Zeichenbeschränkungen, um die Abrufqualität zu verbessern.

MicrocosmWorks hat eine inkrementelle Indizierung implementiert, die Dokument-Prüfsummen verfolgt und nur Dateien neu verarbeitet, die sich seit dem letzten Einlesevorgang geändert haben. Bei aktualisierten Dokumenten werden alte Chunks entfernt und neue Chunks atomar eingefügt, sodass der Suchindex nie in einem inkonsistenten Zustand ist. Das System unterstützt auch den Abruf versionierter Dokumente, wodurch Benutzer historische Versionen von Dokumenten abfragen können, wenn dies für Audit- oder Compliance-Zwecke erforderlich ist.

MicrocosmWorks hat die lokale RAG-Pipeline optimiert, um auf bescheidener Hardware zu laufen, wobei die minimal empfohlene Konfiguration eine Maschine mit 32 GB RAM, 8 CPU-Kernen und optional einer Mid-Range-GPU für beschleunigte Embedding-Generierung ist. Für Organisationen ohne GPU-Hardware greift das System auf CPU-basierte Embedding-Modelle mit einer etwas höheren Latenz zurück, und die Vektordatenbank ist für SSD-Speicher optimiert, um Abfrage-Antwortzeiten unter 200 ms für Korpora von bis zu 1 Million Dokument-Chunks zu halten.