MicrocosmWorksInnovation und Architektur digitaler Kosmen
Ăśber unsKontakt
MicrocosmWorksInnovieren und Gestalten digitaler Kosmen

Bereitstellung von IT-Lösungen, die zählen. Wir sind leidenschaftlich für Technologie, Sicherheit und helfen Unternehmen, durch zuverlässige, innovative IT-Infrastruktur zu wachsen.

[email protected]
+91 7011868196
New Delhi, India

AI Wachstumszentrum

AI HubStartup-InnovationUnternehmensbeschleuniger

Lösungen

Alle LösungenWellness- & Fitness-AppsAI Video PlattformAI Agent Entwicklung

Ressourcen

EinblickeBranchenleitfädenAnwendungsfall-BlaupausenArchitektur-MusterFallstudien

Unternehmen

Ăśber unsKontaktUnsere Arbeit

Dienstleistungen

Digitale BeratungCloud-InfrastrukturSaaS-EntwicklungKI-EntwicklungVideotechnologie
ERP-EntwicklungZoho-AnpassungOdoo-EntwicklungSalesforce-IntegrationBenutzerdefinierte CRM-Entwicklung
QuickBooks-IntegrationIoT-LösungenBlockchain-Entwicklung
Cybersecurity-BeratungIT-Support - L3

© 2026 MicrocosmWorks. Alle Rechte vorbehalten.

DatenschutzrichtlinieNutzungsbedingungen
ZurĂĽck zu Fallstudien
Document IntelligenceVeröffentlicht June 22, 2026 · Aktualisiert June 22, 2026

Lokal-Zuerst Dokument RAG-System mit Hybrid-Suche & Multi-Format-UnterstĂĽtzung

Ein Team, das Entwicklertools entwickelt, benötigte ein vollständig lokales, datenschutzfreundliches Dokumenten-Intelligenzsystem, das mehrere Dateiformate verarbeiten, durchsuchbare Wissensdatenbanken erstellen und natürliche Sprachanfragen mittels Retrieval-Augmented Generation beantworten konnte — ohne Daten an externe APIs zu senden.

Ihr Projekt besprechen
local-rag-hybrid-search-pipeline.webp
Document Intelligence
Domain
8
Technologies
5
Key Results
Delivered
Status

Die Herausforderung

Bestehende RAG-Lösungen wiesen erhebliche Einschränkungen für datenschutzbewusste und entwicklerorientierte Anwendungsfälle auf:

  • Abhängigkeit von externen APIs — Die meisten RAG-Tools erforderten das Senden von Dokumenteninhalten an cloud-basierte Embedding APIs, was die Datenschutzanforderungen verletzte
  • Begrenzte FormatunterstĂĽtzung — Lösungen verarbeiteten typischerweise nur einfachen Text oder PDF, ignorierten aber Tabellen, Word-Dokumente, HTML und Markdown
  • Mangelhaftes Chunking — Naives Text-Splitting ignorierte die Dokumentenstruktur (Seiten, Blätter, Ăśberschriften), wodurch kontextarme Chunks entstanden
  • Keyword-LĂĽcken — Die rein Embedding-basierte Suche verpasste exakte Keyword-Ăśbereinstimmungen, die eine lexikalische Suche erfassen wĂĽrde
  • Tabellenblindheit — RAG-Systeme konnten keine strukturierten Tabellendaten verarbeiten oder Filter-/Aggregationsanfragen beantworten
  • Kein Reranking — Die erste Abrufphase lieferte oft nur teilweise relevante Ergebnisse ohne einen zweiten Qualitätsfilter

Unsere Lösung

Wir haben ein vollständiges Lokal-Zuerst RAG-System entwickelt, das Multi-Format-Dokumentenaufnahme, struktur-aware Chunking, lokale Embedding-Generierung, eine Hybrid-Suchpipeline (semantisch + Volltext + Aktualität), Cross-Encoder Reranking und eine webbasierte Benutzeroberfläche umfasst — alles läuft vollständig auf dem Rechner des Benutzers.

Architektur

  • Dokumenten-Loader: Formatspezifische Parser fĂĽr PDF, DOCX, XLSX, CSV, HTML, Markdown und einfachen Text
  • Chunker: Struktur-aware Aufteilung, die Seiten-, Blatt- und Ăśberschriftengrenzen erhält
  • Embeddings: Lokales Embedding-Modell ĂĽber Transformers.js (keine externen API-Aufrufe)
  • Vektordatenbank: LanceDB (serverless, dateibasiert) fĂĽr Embedding-Speicherung und Ă„hnlichkeitssuche
  • Volltextsuche: Trigramm-basierte Indizierung fĂĽr lexikalisches Matching
  • Reranker: Cross-Encoder-Modell fĂĽr kontextsensitive Ergebnisbewertung
  • Query Analyzer: Intent-Erkennung, die zwischen semantischen und strukturierten Anfragen routet
  • Webserver: Express.js API mit Projektmanagement- und Such-Endpoints
  • Frontend: Webbasierte Benutzeroberfläche fĂĽr Dokumenten-Upload, -Verwaltung und interaktive Suche

Dokumentenverarbeitungs-Pipeline

Multi-Format-Loader

Ein Registry-Muster erkennt automatisch den Dateityp und leitet an den entsprechenden Parser weiter:

  • PDF — Textextraktion mit Segmentierung auf Seitenebene
  • Word (.docx/.doc) — Ăśberschriften-aware Analyse zur Erhaltung der Dokumentenhierarchie
  • Excel/CSV — Blatt-fĂĽr-Blatt-Analyse mit Header-Erkennung und Inhalten auf Zeilenebene
  • HTML — Tag-aware Extraktion mit Strukturerhaltung
  • Markdown — Ăśberschriftenbasierte Sektionsanalyse
  • Einfacher Text — Zeilenbasierte Segmentierung

Jeder Loader extrahiert Metadaten (Titel, Autor, Erstellungsdatum, Seiten-/Blattanzahl, Wortanzahl) zusammen mit dem Inhalt und erzeugt strukturierte Abschnitte mit Quellenverweisen.

Struktur-aware Chunking

Im Gegensatz zu naiver Textaufteilung berĂĽcksichtigt der Chunker Dokumentengrenzen:

  • Er hält SeitenumbrĂĽche (PDFs), Blattgrenzen (Tabellenkalkulationen) und die Ăśberschriftenhierarchie (Word/Markdown) ein
  • Token-basierte Größenanpassung mit konfigurierbarer Chunk-Größe und Ăśberlappung
  • Hierarchischer Fallback: Aufteilung zuerst nach Abschnitten, dann nach Absätzen, dann nach Sätzen
  • Jeder Chunk behält Quellmetadaten (Seitenzahl, Blattname, Ăśberschrift) zur Attribution bei

Embedding & Indexierung

Lokales Embedding-Modell

  • Läuft vollständig lokal ĂĽber Transformers.js — keine Daten verlassen den Rechner
  • Quantisiertes Modell zur Leistungsoptimierung
  • Batch-Embedding fĂĽr effiziente Massenverarbeitung
  • Automatische KĂĽrzung an Wortgrenzen mit L2-Normalisierung

Vektorspeicher

LanceDB bietet serverlosen Vektorspeicher:

  • Dateibasiert (kein separater Datenbankserver erforderlich)
  • Projektbasierte Isolation mit unabhängigen Indizes
  • SHA256-basierte Cache-SchlĂĽssel zur Deduplizierung
  • Metadaten werden zusammen mit Vektoren fĂĽr gefilterten Abruf gespeichert

Hybrid-Suchpipeline

Die Abrufpipeline kombiniert drei Ranking-Signale fĂĽr bessere Ergebnisse als jeder einzelne Ansatz:

Signal 1: Embedding-Suche (Semantisch)

Die Vektorähnlichkeitssuche findet Chunks mit verwandter Bedeutung, auch wenn unterschiedliche Wörter verwendet werden. Handhabt Paraphrasierungen, Synonyme und konzeptionelle Anfragen.

Signal 2: Volltextsuche (Lexikalisch)

Die Trigramm-basierte Indizierung mit Jaccard-Ähnlichkeit erfasst exakte Keyword-Übereinstimmungen, die die Embedding-Suche möglicherweise verpasst — wichtig für technische Begriffe, Namen und Identifikatoren.

Signal 3: Aktualitäts-Boost

Die exponentielle Abfallgewichtung bevorzugt kürzlich aufgerufene oder geänderte Dokumente und stellt sicher, dass aktuelle Informationen zuerst angezeigt werden.

Score-Kombination

Signale werden mit konfigurierbaren Gewichten (Standard: 50% semantisch, 25% lexikalisch, 25% Aktualität) kombiniert, normalisiert und durch einen Mindest-Score-Schwellenwert gefiltert.

Cross-Encoder Reranking

Nach dem ersten Abruf bewertet ein Cross-Encoder-Modell die Top-Kandidaten neu:

  • Kontextsensitive Bewertung berĂĽcksichtigt Abfrage-Dokument-Paare zusammen (nicht unabhängig voneinander)
  • Keyword-Boost-Berechnung fĂĽr BegriffsĂĽberlappung
  • Gemischte Bewertung (Cross-Encoder + Keyword-Signale)
  • Erzeugt eine finale, gerankte Liste mit höherer Präzision als der reine First-Pass-Abruf

UnterstĂĽtzung fĂĽr strukturierte Daten

Für Tabellenkalkulationsinhalte bietet das System zusätzliche Funktionen:

  • Automatische Erkennung von Spaltentypen (numerisch, Datum, boolesch, Zeichenkette)
  • Filterung in natĂĽrlicher Sprache (z.B. „Mitarbeiter im Engineering mit Gehalt ĂĽber dem Schwellenwert“)
  • AggregationsunterstĂĽtzung (Anzahl, Summe, Durchschnitt, Minimum, Maximum)
  • Query Analyzer leitet strukturierte Abfragen an eine dedizierte Engine anstatt an die Embedding-Suche weiter

Web-Oberfläche

  • Projektmanagement — Erstellen, Aktualisieren und Löschen von Wissensdatenbankprojekten
  • Dokumenten-Upload — Drag-and-drop-Dateiupload mit automatischer Formaterkennung
  • Dokumentenerstellung — Dokumente direkt in der Benutzeroberfläche aus Text erstellen
  • Interaktive Suche — NatĂĽrliche Sprachabfrageschnittstelle mit gerankten Ergebnissen
  • Statistiken — Indexgröße, Dokumentenanzahl und Formatverteilung pro Projekt

Hauptmerkmale

  1. Vollständig Lokal — Alle Verarbeitung auf dem Gerät; keine externen API-Aufrufe für Embeddings oder Suche
  2. 9 Eingabeformate — PDF, DOCX, DOC, XLSX, XLS, CSV, HTML, Markdown, einfacher Text
  3. Struktur-aware Chunking — Erhält Seiten, Blätter und Überschriften als Chunk-Grenzen
  4. Hybrid-Suche — Kombiniert semantische, lexikalische und Aktualitätssignale für besseren Abruf
  5. Cross-Encoder Reranking — Zweite Bewertungsphase für präzisere Ergebnisse
  6. Strukturierte Abfragen — Filterung und Aggregation in natürlicher Sprache für Tabellenkalkulationsdaten
  7. Serverlose Vektor-DB — LanceDB dateibasierter Speicher ohne Infrastruktur-Overhead
  8. Dokumentenerstellung — Exportfunktionen für die Erstellung von PDF, DOCX und XLSX
  9. Projektisolation — Unabhängige Wissensdatenbanken mit separaten Indizes
  10. Web UI — Komplette Benutzeroberfläche für Dokumentenmanagement und interaktive Suche

Ergebnisse

Suchlatenz: ~60ms für die vollständige Hybrid-Suchpipeline (semantisch + FTS + Reranking)
Embedding-Geschwindigkeit: ~50ms pro Chunk (Batch: ~2s fĂĽr 100 Chunks)
Formatabdeckung: 9 Eingabeformate werden nativ ohne externe Konverter verarbeitet

Technologie-Stack

TypeScriptNode.jsExpress.jsTransformers.jsLanceDBVitestpnpmHTML/CSS/JS Frontend

caseStudyDetail.more Fallstudien

Entdecken Sie mehr unserer technischen Implementierungen

Document Intelligence

KI-gestĂĽtzte Tabellen- & Dokumentenanalyse mit Multi-Agenten-Orchestrierung und dokumentenĂĽbergreifender Referenzierung

Ein Unternehmensdatenteam musste große Sammlungen von Tabellen und Dokumenten (Excel, CSV, Google Sheets, PDFs, Word docs) mittels natürlicher Sprache analysieren, abfragen und bearbeiten – mit der Möglichkeit, Daten über mehrere Dateien hinweg zu referenzieren und mehrstufige analytische Workflows ohne manuelle Datenaufbereitung auszuführen.

Fallstudie lesen
AI Accounting

KI-gestĂĽtzte Rechnungsverarbeitung mit OCR und QuickBooks-Integration

Ein mittelständisches Unternehmen, das monatlich Hunderte von Lieferantenrechnungen verarbeitete, musste die manuelle Dateneingabe eliminieren, indem es Rechnungsdaten automatisch mithilfe von AI/OCR extrahierte und diese direkt mit QuickBooks für die Buchhaltung und Zahlungsverfolgung synchronisierte.

Bereit, Ihr Unternehmen zu transformieren?

Lassen Sie uns besprechen, wie wir ähnliche Lösungen für Ihre Herausforderungen anwenden können.

Kontakt aufnehmencaseStudyDetail.viewAllCaseStudies
Datenschutz: Keine Daten extern übertragen — vollständige lokale Verarbeitung
Speicherbedarf: ~100MB fĂĽr das Embedding-Modell, ~1MB pro 1.000 indizierten Chunks
Fallstudie lesen
Video Encoding

Clientseitige Anzeigeninsertion (CSAI) mit SCTE-35 Marker-Parsing & Multi-Plattform-Player-Integration

Eine Video-Streaming-Plattform musste die Clientseitige Anzeigeninsertion (CSAI) über Web-, Mobil- und Connected TV-Apps hinweg implementieren – was personalisierte, gerätespezifische Anzeigenerlebnisse mit vollständiger Unterstützung der Anzeigeninteraktion (anklickbare Overlays, Companion-Banner, Skip-Buttons) ermöglicht, die serverseitige Insertion nicht bieten kann.

Fallstudie lesen

Häufig gestellte Fragen

MicrocosmWorks hat ein local-first RAG-System entwickelt, bei dem die gesamte Dokumentenerfassung, Embedding-Generierung, Vektorspeicherung und LLM-Inferenz vollständig auf Ihrer Infrastruktur läuft, ohne Daten an externe Cloud APIs zu senden. Diese Architektur ist unerlässlich für Organisationen, die klassifizierte Dokumente, Anwalt-Mandanten-privilegierte Materialien oder sensibles geistiges Eigentum verwalten, bei denen Anforderungen an die Datensouveränität jegliche Cloud-Verarbeitung, selbst mit Verschlüsselung, verbieten.

MicrocosmWorks hat eine hybride Retrieval-Pipeline implementiert, die die BM25-Stichwortsuche und die semantische Suche mit dichten Vektoren parallel ausführt und dann Reciprocal Rank Fusion verwendet, um die kombinierten Ergebnisse zusammenzuführen und neu zu ordnen, bevor sie diese als Kontext an das LLM weitergibt. Dieser Ansatz fängt exakte Übereinstimmungen wie Produktcodes und Rechtszitate ab, die die semantische Suche übersehen würde, während er gleichzeitig konzeptionell verwandte Inhalte abruft, die die Stichwortsuche niemals finden würde.

MicrocosmWorks hat formatspezifische Parser für PDF, DOCX, XLSX, PPTX, HTML, Markdown und reinen Text entwickelt, mit einer OCR-Pipeline, die Tesseract für gescannte PDFs und bildbasierte Dokumente verwendet. Das System erkennt automatisch, ob ein PDF wählbaren Text enthält oder OCR erfordert, wendet Layout-Analyse an, um Tabellenstrukturen und die Lesereihenfolge zu erhalten, und segmentiert Dokumente mithilfe semantischer Grenzen statt willkürlicher Zeichenbeschränkungen, um die Abrufqualität zu verbessern.

MicrocosmWorks hat eine inkrementelle Indizierung implementiert, die Dokumenten-checksums verfolgt und nur Dateien neu verarbeitet, die sich seit dem letzten Erfassungslauf geändert haben. Bei aktualisierten Dokumenten werden ihre alten chunks entfernt und neue chunks atomar eingefügt, sodass der search index nie in einem inkonsistenten Zustand ist. Das System unterstützt auch den Abruf versionierter Dokumente, wodurch Benutzer historische Versionen von Dokumenten abfragen können, wenn dies für audit- oder compliance-Zwecke erforderlich ist.

MicrocosmWorks optimierte die lokale RAG-Pipeline für den Betrieb auf moderater Hardware, wobei die minimal empfohlene Konfiguration ein Computer mit 32GB RAM, 8 CPU-Kernen und optional einer Mid-Range GPU für die beschleunigte Einbettungsgenerierung ist. Für Organisationen ohne GPU-Hardware greift das System auf CPU-basierte Einbettungsmodelle mit leicht höherer Latenz zurück, und die Vektordatenbank ist für SSD-Speicher optimiert, um Abfrageantwortzeiten unter 200ms für Korpora von bis zu 1 Million Dokumenten-Chunks zu halten.