MicrocosmWorksInnovere og Arkitektere Digitale Kosmos
OmKontakt
MicrocosmWorksInnoverer og arkitekterer digitale kosmos

Leverer IT-løsninger, der betyder noget. Vi brænder for teknologi, sikkerhed og at hjælpe virksomheder med at vokse gennem pålidelig, innovativ IT-infrastruktur.

[email protected]
+91 7011868196
New Delhi, India

AI Væksthub

AI HubStartup-innovationVirksomhedsaccelerator

Løsninger

Alle løsningerSundhed & Fitness AppsAI VideoplatformAI Agentudvikling

Ressourcer

IndsigterIndustri GuiderBrugssag BlueprintsArkitektur MønstreCase Studier

Virksomhed

Om OsKontaktVores Arbejde

Tjenester

Digital RådgivningCloud InfrastrukturSaaS UdviklingAI UdviklingVideo Teknologi
ERP UdviklingZoho TilpasningOdoo UdviklingSalesforce IntegrationTilpasset CRM Udvikling
QuickBooks IntegrationIoT LøsningerBlockchain Udvikling
Cybersikkerhed RådgivningIT-support - L3

© 2026 MicrocosmWorks. Alle rettigheder forbeholdes.

PrivatlivspolitikServicevilkår
Tilbage til Casestudier
Document IntelligenceOffentliggjort June 22, 2026 · Opdateret June 22, 2026

Lokal-First Dokument RAG System med Hybrid Søgning & Multi-Format Support

Et team, der bygger udviklerværktøjer, havde brug for et fuldt lokalt, privatlivsbevarende dokumentintelligenssystem, der kunne indlæse flere filformater, opbygge søgbare vidensbaser og besvare naturlige sprogforespørgsler ved hjælp af Retrieval-Augmented Generation — uden at sende nogen data til eksterne API'er.

Diskuter Dit Projekt
local-rag-hybrid-search-pipeline.webp
Document Intelligence
Domain
8
Technologies
5
Key Results
Delivered
Status

Udfordringen

Eksisterende RAG-løsninger havde betydelige begrænsninger for privatlivsbevidste og udviklerfokuserede brugssager:

  • Afhængighed af eksterne API'er — De fleste RAG-værktøjer krævede at sende dokumentindhold til cloud-baserede embedding-API'er, hvilket krænker privatlivskrav
  • Begrænset Formatunderstøttelse — Løsninger håndterede typisk kun almindelig tekst eller PDF, og ignorerede regneark, Word-dokumenter, HTML og Markdown
  • Dårlig Chunking — Naiv tekstopdeling ignorerede dokumentstruktur (sider, ark, overskrifter), hvilket skabte kontekstfattige chunks
  • Keyword Huller — Ren embedding-baseret søgning missede præcise keyword-matches, som leksikal søgning ville fange
  • Regneark Blindhed — RAG-systemer kunne ikke håndtere strukturerede tabeldata eller besvare filtrerings-/aggregeringsforespørgsler
  • Ingen Reranking — Første-pass retrieval bragte ofte kun delvist relevante resultater frem uden et andet-pass kvalitetsfilter

Vores Løsning

Vi byggede et komplet lokal-first RAG-system med multi-format dokumentindlæsning, strukturbevidst chunking, lokal embedding-generering, en hybrid søgepipeline (semantisk + fuldtekst + aktualitet), cross-encoder reranking og en web-baseret UI — alt kørende fuldstændigt på brugerens maskine.

Arkitektur

  • Dokumentindlæsere: Format-specifikke parsere for PDF, DOCX, XLSX, CSV, HTML, Markdown og almindelig tekst
  • Chunker: Strukturbevidst opdeling, der bevarer side-, ark- og overskriftsgrænser
  • Embeddings: Lokal embedding-model via Transformers.js (ingen eksterne API-kald)
  • Vector Database: LanceDB (serverless, filbaseret) til embedding-lagring og lighedssøgning
  • Fuldtekst Søgning: Trigram-baseret indeksering til leksikal matchning
  • Reranker: Cross-encoder model til kontekstbevidst resultatvurdering
  • Query Analyzer: Intentiondetektion, der ruter mellem semantiske og strukturerede forespørgsler
  • Webserver: Express.js API med projektstyring og søgeendepunkter
  • Frontend: Web-baseret UI til dokumentupload, styring og interaktiv søgning

Dokumentbehandlingspipeline

Multi-Format Indlæsere

Et registreringsmønster auto-detekterer filtype og ruter til den passende parser:

  • PDF — Tekstudtrækning med side-niveau segmentering
  • Word (.docx/.doc) — Overskriftsbevidst parsing, der bevarer dokumenthierarki
  • Excel/CSV — Ark-for-ark parsing med header-detektion og række-niveau indhold
  • HTML — Tag-bevidst udtrækning med strukturbevarelse
  • Markdown — Overskriftsbaseret sektion parsing
  • Almindelig Tekst — Linje-baseret segmentering

Hver indlæser udtrækker metadata (titel, forfatter, oprettelsesdato, side-/arkantal, ordantal) sammen med indholdet, hvilket producerer strukturerede sektioner med kildereferencer.

Strukturbevidst Chunking

I modsætning til naiv tekstopdeling respekterer chunkeren dokumentgrænser:

  • Bevarer sidebrud (PDF'er), arkgrænser (regneark) og overskriftshierarki (Word/Markdown)
  • Token-baseret størrelsesbestemmelse med konfigurerbar chunk-størrelse og overlap
  • Hierarkisk fallback: opdeler først efter sektioner, derefter afsnit, derefter sætninger
  • Hver chunk bevarer kildemetadata (sidenummer, arknavn, overskrift) til attribution

Embedding & Indeksering

Lokal Embedding Model

  • Kører fuldstændigt lokalt via Transformers.js — ingen data forlader maskinen
  • Kvantiseret model til performanceoptimering
  • Batch embedding til effektiv bulkbehandling
  • Automatisk afkortning ved ordgrænser med L2-normalisering

Vector Lagring

LanceDB tilbyder serverless vector lagring:

  • Filbaseret (ingen separat databaseserver nødvendig)
  • Per-projekt isolation med uafhængige indekser
  • SHA256-baserede cache-nøgler til deduplikering
  • Metadata lagret sammen med vektorer til filtreret retrieval

Hybrid Søgepipeline

Retrieval-pipelinen kombinerer tre rangeringssignaler for bedre resultater end nogen enkelt tilgang:

Signal 1: Embedding Søgning (Semantisk)

Vector lighedssøgning finder chunks med relateret betydning, selv når forskellige ord bruges. Håndterer omskrivning, synonymer og konceptuelle forespørgsler.

Signal 2: Fuldtekst Søgning (Leksikal)

Trigram-baseret indeksering med Jaccard-lighed fanger præcise keyword-matches, som embedding-søgning måske overser — vigtigt for tekniske termer, navne og identifikatorer.

Signal 3: Aktualitetsforøgelse

Eksponentiel henfaldsvægtning favoriserer nyligt tilgåede eller ændrede dokumenter, hvilket sikrer, at opdateret information vises først.

Scorekombination

Signaler kombineres med konfigurerbare vægte (standard: 50% semantisk, 25% leksikal, 25% aktualitet), normaliseret og filtreret ved en minimum score-tærskel.

Cross-Encoder Reranking

Efter initial retrieval genvurderer en cross-encoder model de bedste kandidater:

  • Kontekstbevidst scoring overvejer forespørgsel-dokument par sammen (ikke uafhængigt)
  • Keyword boost beregning for term overlap
  • Blandet scoring (cross-encoder + keyword signaler)
  • Producerer en endelig rangeret liste med højere præcision end første-pass retrieval alene

Struktureret Dataunderstøttelse

For regnearksindhold tilbyder systemet yderligere kapaciteter:

  • Automatisk detektion af kolonne typer (numerisk, dato, boolean, streng)
  • Naturligt sprogfiltrering (f.eks. "medarbejdere i ingeniør med løn over tærskel")
  • Aggreringsunderstøttelse (antal, sum, gennemsnit, min, max)
  • Query analyzer ruter strukturerede forespørgsler til en dedikeret motor i stedet for embedding-søgning

Web Interface

  • Projektstyring — Opret, opdater og slet vidensbaseprojekter
  • Dokumentupload — Træk-og-slip filupload med format auto-detektion
  • Dokumentoprettelse — Opret dokumenter fra tekst direkte i UI'en
  • Interaktiv Søgning — Naturligt sprog forespørgselsinterface med rangerede resultater
  • Statistik — Indeksstørrelse, dokumentantal og formatfordeling per projekt

Nøglefunktioner

  1. Fuldstændigt Lokal — Al behandling på enheden; ingen eksterne API-kald for embeddings eller søgning
  2. 9 Input Formater — PDF, DOCX, DOC, XLSX, XLS, CSV, HTML, Markdown, almindelig tekst
  3. Strukturbevidst Chunking — Bevarer sider, ark og overskrifter som chunk-grænser
  4. Hybrid Søgning — Kombinerer semantiske, leksikale og aktualitetssignaler for bedre retrieval
  5. Cross-Encoder Reranking — Anden-pass scoring for højere præcisionsresultater
  6. Strukturerede Forespørgsler — Naturligt sprogfiltrering og aggregering på regnearksdata
  7. Serverless Vector DB — LanceDB filbaseret lagring uden infrastruktur overhead
  8. Dokumentskrivning — Eksportmuligheder for PDF, DOCX og XLSX oprettelse
  9. Projektisolation — Uafhængige vidensbaser med separate indekser
  10. Web UI — Komplet interface til dokumentstyring og interaktiv søgning

Resultater

Søgelatens: ~60ms for fuld hybrid søgepipeline (semantisk + FTS + reranking)
Embedding Hastighed: ~50ms per chunk (batch: ~2s for 100 chunks)
Formatdækning: 9 input formater håndteres indbygget uden eksterne konvertere

Teknologistak

TypeScriptNode.jsExpress.jsTransformers.jsLanceDBVitestpnpmHTML/CSS/JS Frontend

caseStudyDetail.more Casestudier

Udforsk flere af vores tekniske implementeringer

Document Intelligence

AI-drevet Regneark & Dokumentanalyse med Multi-Agent Orkestrering og Krydsdokument Reference

Et virksomhedsdatasæt havde brug for at analysere, forespørge og redigere store samlinger af regneark og dokumenter (Excel, CSV, Google Sheets, PDF'er, Word-dokumenter) ved hjælp af naturligt sprog — med evnen til at krydsreferere data på tværs af flere filer og udføre flertrins analytiske arbejdsgange uden manuel datahåndtering.

Læs Casestudie
AI Accounting

AI-drevet fakturabehandling med OCR og QuickBooks-integration

En mellemstor virksomhed, der månedligt behandler hundredvis af leverandørfakturaer, havde brug for at eliminere manuel dataindtastning ved automatisk at udtrække fakturadata ved hjælp af AI/OCR og synkronisere dem direkte til QuickBooks for bogføring og sporing af betalinger.

Læs Casestudie

Klar til at Transformere Din Virksomhed?

Lad os drøfte, hvordan vi kan anvende lignende løsninger til dine udfordringer.

Kontakt OscaseStudyDetail.viewAllCaseStudies
Privatliv: Ingen data transmitteret eksternt — fuldstændig lokal behandling
Hukommelsesforbrug: ~100MB for embedding-model, ~1MB per 1.000 indekserede chunks
Video Encoding

Klient-side annonceindsættelse (CSAI) med SCTE-35-markørparsing og integration af afspillere på flere platforme

En videostreamingplatform skulle implementere klient-side annonceindsættelse (CSAI) på tværs af web-, mobil- og connected TV-apps – hvilket muliggjorde personaliserede annonceringer på enhedsniveau med fuld support for annonceinteraktion (klikbare overlays, følgebannere, skip-knapper), som server-side indsættelse ikke kan tilbyde.

Læs Casestudie

Ofte stillede spørgsmål

MicrocosmWorks har bygget et local-first RAG-system, hvor al dokumentindtagelse, embedding-generering, vektorlagring og LLM-inferens kører udelukkende på din infrastruktur uden at sende data til eksterne cloud APIs. Denne arkitektur er afgørende for organisationer, der håndterer klassificerede dokumenter, fortrolige advokat-klient-materialer eller følsom intellektuel ejendom, hvor datasuverænitetskrav forbyder enhver cloud-behandling, selv med kryptering.

MicrocosmWorks implementerede en hybrid retrieval pipeline, der kører BM25 søgeordssøgning og dense vector semantisk søgning parallelt, og derefter bruger reciprocal rank fusion til at flette og omrangere de kombinerede resultater, før de sendes til LLM'en som kontekst. Denne tilgang fanger exact-match forespørgsler som produktkoder og juridiske henvisninger, som semantisk søgning overser, samtidig med at den også henter konceptuelt relateret indhold, som søgeordssøgning aldrig ville finde.

MicrocosmWorks har udviklet formatspecifikke parsere til PDF, DOCX, XLSX, PPTX, HTML, Markdown og almindelig tekst, med en OCR-pipeline, der bruger Tesseract til scannede PDF'er og billedbaserede dokumenter. Systemet registrerer automatisk, om en PDF indeholder valgbar tekst eller kræver OCR, anvender layoutanalyse for at bevare tabelstrukturer og læserækkefølge, og opdeler dokumenter ved hjælp af semantiske grænser frem for vilkårlige tegngrænser for at forbedre genfindingskvaliteten.

MicrocosmWorks implementerede inkrementel indeksering, der sporer dokument-checksums og kun genbehandler filer, der er ændret siden sidste indtagelseskørsel. Opdaterede dokumenter får deres gamle chunks fjernet og nye chunks indsat atomarisk, så søgeindekset aldrig er i en inkonsistent tilstand. Systemet understøtter også versioneret dokumenthentning, hvilket gør det muligt for brugere at forespørge mod historiske versioner af dokumenter, når det er nødvendigt til audit- eller compliance-formål.

MicrocosmWorks optimerede den lokale RAG-pipeline til at køre på beskeden hardware, med den minimum anbefalede konfiguration som en maskine med 32GB RAM, 8 CPU-kerner og valgfrit en mellemrække GPU til accelereret embedding-generering. For organisationer uden GPU-hardware falder systemet tilbage til CPU-baserede embedding-modeller med en lidt højere latenstid, og vektordatabasen er tunet til SSD-lagring for at holde forespørgselsresponstider under 200ms for korpora op til 1 million dokumentblokke.