Mikä on local-first RAG -järjestelmä ja miksi asiakirjojen käsittely kannattaa suorittaa paikan päällä pilvipalvelun sijaan?

MicrocosmWorks rakensi local-first RAG -järjestelmän, jossa kaikki asiakirjojen sisäänotto, upotusten luonti, vektoritallennus ja LLM-inferenssi ajetaan kokonaan omassa infrastruktuurissasi ilman tietojen lähettämistä ulkoisille pilvipalvelujen API-rajapinnoille. Tämä arkkitehtuuri on olennainen organisaatioille, jotka käsittelevät salaisia asiakirjoja, asianajaja-asiakas-suhteeseen liittyviä luottamuksellisia materiaaleja tai arkaluonteista immateriaalioikeutta, joissa tietosuvereniteettivaatimukset kieltävät kaiken pilvipalvelukäsittelyn, jopa salauksen kanssa.

How does hybrid search combine keyword and semantic search to produce better results than either approach alone?

MicrocosmWorks implemented a hybrid retrieval pipeline that runs BM25 keyword search and dense vector semantic search in parallel, then uses reciprocal rank fusion to merge and re-rank the combined results before passing them to the LLM as context. This approach catches exact-match queries like product codes and legal citations that semantic search misses, while also retrieving conceptually related content that keyword search would never find.

What document formats does the local RAG system support, and how does it handle scanned PDFs?

MicrocosmWorks built format-specific parsers for PDF, DOCX, XLSX, PPTX, HTML, Markdown, and plain text, with an OCR pipeline using Tesseract for scanned PDFs and image-based documents. The system automatically detects whether a PDF contains selectable text or requires OCR, applies layout analysis to preserve table structures and reading order, and chunks documents using semantic boundaries rather than arbitrary character limits to improve retrieval quality.

How does the system handle document updates without re-indexing the entire corpus?

MicrocosmWorks implemented incremental indexing that tracks document checksums and only re-processes files that have changed since the last ingestion run. Updated documents have their old chunks removed and new chunks inserted atomically, so the search index is never in an inconsistent state. The system also supports versioned document retrieval, allowing users to query against historical versions of documents when needed for audit or compliance purposes.

What hardware is required to run a local RAG system with acceptable performance?

MicrocosmWorks optimized the local RAG pipeline to run on modest hardware, with the minimum recommended configuration being a machine with 32GB RAM, 8 CPU cores, and optionally a mid-range GPU for accelerated embedding generation. For organizations without GPU hardware, the system falls back to CPU-based embedding models with slightly higher latency, and the vector database is tuned for SSD storage to keep query response times under 200ms for corpora up to 1 million document chunks.

Local-First Document RAG System with Hybrid Search & Mult...

Paikallisesti ensisijainen dokumenttien RAG-järjestelmä hybridihauilla ja monimuototuella

Kehittäjätyökaluja rakentava tiimi tarvitsi täysin paikallisen, yksityisyyttä suojaavan dokumenttitiedon järjestelmän, joka kykeni käsittelemään useita tiedostomuotoja, rakentamaan haettavissa olevia tietokantoja ja vastaamaan luonnollisen kielen kyselyihin käyttäen Retrieval-Augmented Generation -tekniikkaa — lähettämättä mitään tietoja ulkoisille API-rajapinnoille.

Keskustele Projektistasi

Nykyisillä RAG-ratkaisuilla oli merkittäviä rajoituksia yksityisyydestä huolehtivien ja kehittäjäkeskeisten käyttötapausten osalta:

Ulkoinen API-riippuvuus — Useimmat RAG-työkalut vaativat dokumenttien sisällön lähettämistä pilvipohjaisiin embedding-API-rajapintoihin, mikä rikkoi yksityisyysvaatimuksia
Rajoitettu tiedostomuototuki — Ratkaisut käsittelivät tyypillisesti vain pelkkää tekstiä tai PDF:ää, jättäen huomioimatta taulukkolaskentatiedostot, Word-dokumentit, HTML:n ja Markdownin
Heikko paloittelu (Chunking) — Naiivi tekstin jakaminen jätti huomiotta dokumentin rakenteen (sivut, taulukot, otsikot), luoden heikon kontekstin sisältäviä paloja
Avainsana-aukot — Pelkkään embeddingiin perustuva haku jätti huomiotta täsmälliset avainsanaosumat, jotka leksikaalinen haku havaitsisi
Taulukkolaskenta-sokeus — RAG-järjestelmät eivät kyenneet käsittelemään jäsenneltyä taulukkomuotoista dataa tai vastaamaan suodatus-/aggregaatiokyselyihin
Ei uudelleenjärjestelyä (Reranking) — Ensimmäisen vaiheen haku tuotti usein vain osittain relevantteja tuloksia ilman toisen vaiheen laatusuodatinta

Rakensimme täydellisen paikallisesti ensisijaisen RAG-järjestelmän, jossa on monimuotoinen dokumenttien sisäänluku, rakennetietoinen paloittelu (chunking), paikallinen embeddingien generointi, hybridihakuputki (semanttinen + kokoteksti + ajankohtaisuus), cross-encoder-uudelleenjärjestely (reranking) ja verkkopohjainen käyttöliittymä — kaikki käynnissä kokonaan käyttäjän omalla koneella.

Arkkitehtuuri

Dokumenttien lataajat: Muotokohtaiset jäsentäjät PDF:lle, DOCX:lle, XLSX:lle, CSV:lle, HTML:lle, Markdownille ja pelkälle tekstille
Chunker: Rakennetietoinen jako, joka säilyttää sivujen, taulukoiden ja otsikoiden rajat
Embeddings: Paikallinen embedding-malli Transformers.js:n kautta (ei ulkoisia API-kutsuja)
Vektoritietokanta: LanceDB (palvelimeton, tiedostopohjainen) embeddingien tallennukseen ja samankaltaisuushakuun
Kokotekstihaku: Trigram-pohjainen indeksointi leksikaaliseen vastaavuuteen
Reranker: Cross-encoder-malli kontekstitietoiseen tulosten pisteytykseen
Kyselyanalysaattori: Tarkoituksen tunnistus reitittää semanttisten ja jäsenneltyjen kyselyjen välillä
Web-palvelin: Express.js API projektinhallinta- ja hakupäätepisteillä
Frontend: Verkkopohjainen käyttöliittymä dokumenttien lataukseen, hallintaan ja interaktiiviseen hakuun

Dokumenttien Käsittelyputki

Monimuotoiset lataajat

Rekisteröintimalli tunnistaa tiedostotyypin automaattisesti ja ohjaa sen asianmukaiseen jäsentäjään:

PDF — Tekstin poiminta sivutason segmentoinnilla
Word (.docx/.doc) — Otsikkotietoinen jäsentäminen säilyttäen dokumentin hierarkian
Excel/CSV — Taulukko-kohtainen jäsentäminen otsikoiden tunnistuksella ja rivitason sisällöllä
HTML — Tunnistetietoinen poiminta rakenteen säilyttäen
Markdown — Otsikkopohjainen osioiden jäsentäminen
Pelkkä teksti — Rivipohjainen segmentointi

Jokainen lataaja poimii metatiedot (otsikko, tekijä, luontipäivämäärä, sivu-/taulukkomäärä, sanamäärä) sisällön rinnalla, tuottaen jäsenneltyjä osioita lähdeviittauksineen.

Rakennetietoinen paloittelu (Chunking)

Toisin kuin naiivi tekstin jakaminen, chunker kunnioittaa dokumentin rajoja:

Säilyttää sivunvaihdot (PDF), taulukoiden rajat (taulukkolaskentatiedostot) ja otsikkohierarkian (Word/Markdown)
Token-pohjainen kokoaminen säädettävällä palakoolla ja päällekkäisyydellä
Hierarkkinen varajärjestelmä: jakaa ensin osioiden, sitten kappaleiden ja sitten lauseiden mukaan
Jokainen pala säilyttää lähdemetatiedot (sivunumero, taulukon nimi, otsikko) attribuutiota varten

Embedding ja indeksointi

Paikallinen Embedding-malli

Käynnissä kokonaan paikallisesti Transformers.js:n kautta — tietoja ei poistu koneelta
Kvantisoitu malli suorituskyvyn optimointia varten
Erä-embedding tehokkaaseen massakäsittelyyn
Automaattinen katkaisu sanarajojen kohdalta L2-normalisoinnilla

Vektorivarasto

LanceDB tarjoaa palvelimettoman vektorivaraston:

Tiedostopohjainen (ei erillistä tietokantapalvelinta tarvita)
Projektikohtainen eristys itsenäisillä indekseillä
SHA256-pohjaiset välimuistiavaimet duplikaattien poistamiseen
Metatiedot tallennetaan vektoreiden rinnalle suodatettua hakua varten

Hybridihakuputki

Hakukonputki yhdistää kolme ranking-signaalia parempien tulosten saavuttamiseksi kuin millään yksittäisellä lähestymistavalla:

Signaali 1: Embedding-haku (semanttinen)

Vektorisamankaltaisuushaku löytää palasia, joilla on toisiinsa liittyvä merkitys, vaikka käytettäisiin eri sanoja. Käsittelee parafraseerausta, synonyymejä ja käsitteellisiä kyselyjä.

Signaali 2: Kokotekstihaku (leksikaalinen)

Trigram-pohjainen indeksointi Jaccard-samankaltaisuudella havaitsee tarkat avainsanaosumat, jotka embedding-haku saattaisi jättää huomiotta — tärkeää teknisille termeille, nimille ja tunnisteille.

Signaali 3: Ajankohtaisuuskorostus

Eksponentiaalinen vaimennuspainotus suosii äskettäin käytettyjä tai muokattuja dokumentteja, varmistaen että ajantasainen tieto nousee esiin ensin.

Pistemäärän yhdistäminen

Signaalit yhdistetään määritettävissä olevilla painotuksilla (oletus: 50 % semanttinen, 25 % leksikaalinen, 25 % ajankohtaisuus), normalisoidaan ja suodatetaan minimipistemääräkynnyksen perusteella.

Cross-Encoder-uudelleenjärjestely (Reranking)

Alkuperäisen haun jälkeen cross-encoder-malli pisteyttää parhaat ehdokkaat uudelleen:

Kontekstitietoinen pisteytys ottaa huomioon kysely-dokumentti-parit yhdessä (ei itsenäisesti)
Avainsanatehostuksen laskenta termien päällekkäisyyden perusteella
Yhdistetty pisteytys (cross-encoder + avainsanasignaalit)
Tuottaa lopullisen järjestetyn luettelon, jonka tarkkuus on parempi kuin pelkän ensimmäisen vaiheen haun

Jäsennellyn datan tuki

Taulukkolaskentatiedostojen sisällön osalta järjestelmä tarjoaa lisäominaisuuksia:

Saraketyyppien automaattinen tunnistus (numeerinen, päivämäärä, boolen, merkkijono)
Luonnollisen kielen suodatus (esim. "insinööriosaston työntekijät, joiden palkka ylittää kynnyksen")
Aggregaatiotuki (laskenta, summa, keskiarvo, minimi, maksimi)
Kyselyanalyysaattori ohjaa jäsennellyt kyselyt erilliseen moottoriin embedding-haun sijaan

Verkkokäyttöliittymä

Projektinhallinta — Tietokantaprojektien luominen, päivittäminen ja poistaminen
Dokumentin lataaminen — Vedä ja pudota tiedostojen lataus automaattisella muodontunnistuksella
Dokumentin luonti — Luo dokumentteja tekstistä suoraan käyttöliittymässä
Interaktiivinen haku — Luonnollisen kielen kyselyrajapinta järjestettyjen tulosten kanssa
Tilastot — Indeksin koko, dokumenttimäärä ja tiedostomuotojen jakautuminen projektia kohden

Avainominaisuudet

Täysin paikallinen — Kaikki käsittely laitteella; ei ulkoisia API-kutsuja embeddingeille tai haulle
9 syöttömuotoa — PDF, DOCX, DOC, XLSX, XLS, CSV, HTML, Markdown, pelkkä teksti
Rakennetietoinen paloittelu (Chunking) — Säilyttää sivut, taulukot ja otsikot paloitteluina (chunk boundaries)
Hybridihaku — Yhdistää semanttiset, leksikaaliset ja ajankohtaisuussignaalit paremman haun saavuttamiseksi
Cross-Encoder-uudelleenjärjestely (Reranking) — Toisen vaiheen pisteytys tarkempien tulosten saavuttamiseksi
Jäsennellyt kyselyt — Luonnollisen kielen suodatus ja aggregaatio taulukkolaskentatiedostoihin
Palvelimeton Vektoritiertokanta — LanceDB tiedostopohjainen tallennus ilman infrastruktuurikustannuksia
Dokumenttien kirjoittaminen — Vientitoiminnot PDF-, DOCX- ja XLSX-tiedostojen luomiseen
Projektieristys — Itsenäiset tietokannat erillisillä indekseillä
Web UI — Täydellinen käyttöliittymä dokumentinhallintaan ja interaktiiviseen hakuun

Paikallisesti ensisijainen dokumenttien RAG-järjestelmä hybridihauilla ja monimuototuella

Haaste

Meidän Ratkaisumme

Arkkitehtuuri

Dokumenttien Käsittelyputki

Monimuotoiset lataajat

Rakennetietoinen paloittelu (Chunking)

Embedding ja indeksointi

Paikallinen Embedding-malli

Vektorivarasto

Hybridihakuputki

Signaali 1: Embedding-haku (semanttinen)

Signaali 2: Kokotekstihaku (leksikaalinen)

Signaali 3: Ajankohtaisuuskorostus

Pistemäärän yhdistäminen

Cross-Encoder-uudelleenjärjestely (Reranking)

Jäsennellyn datan tuki

Verkkokäyttöliittymä

Avainominaisuudet

Tulokset

Teknologiapino

caseStudyDetail.more Tapaustutkimukset

AI-pohjainen taulukko- ja dokumenttianalyysi moniagenttiorkestroinnilla ja dokumenttienvälisellä viittauksella

AI-pohjainen laskujen käsittely OCR:n ja QuickBooks-integraation avulla

Valmis Muuttamaan Liiketoimintaasi?

Asiakaspuolen mainosten upotus (CSAI) SCTE-35-merkkien jäsennyksellä ja monialustaisen soittimen integroinnilla

Usein kysytyt kysymykset