Mikä on local-first RAG-järjestelmä, ja miksi haluaisin asiakirjojen käsittelyn tapahtuvan paikallisesti pilven sijaan?

MicrocosmWorks rakensi local-first RAG-järjestelmän, jossa kaikki asiakirjojen sisäänluku, upotusten generointi, vektoritallennus ja LLM-päättely toimivat kokonaan omassa infrastruktuurissasi lähettämättä mitään tietoja ulkoisille pilvi-API:ille. Tämä arkkitehtuuri on olennainen organisaatioille, jotka käsittelevät luokiteltuja asiakirjoja, asianajaja-asiakas-etuoikeuden alaisia materiaaleja tai arkaluonteista immateriaalioikeutta, joissa tietosuvereniteettivaatimukset kieltävät kaiken pilvipohjaisen käsittelyn, jopa salauksen kanssa.

Miten hybridihaku yhdistää avainsanahakua ja semanttista hakua tuottaakseen parempia tuloksia kuin kumpikaan lähestymistapa yksinään?

MicrocosmWorks toteutti hybridin hakuputken, joka ajaa BM25 avainsanahakua ja tiheän vektorin semanttista hakua rinnakkain. Se käyttää sitten reciprocal rank fusionia yhdistääkseen ja järjestelläkseen uudelleen yhdistetyt tulokset ennen niiden välittämistä LLM:lle kontekstina. Tämä lähestymistapa tavoittaa täsmälliset haut, kuten tuotekoodit ja lakiviittaukset, jotka semanttinen haku missaa, samalla kun se hakee käsitteellisesti liittyvää sisältöä, jota avainsanahaku ei koskaan löytäisi.

Mitä dokumenttimuotoja paikallinen RAG-järjestelmä tukee, ja miten se käsittelee skannattuja PDF-tiedostoja?

MicrocosmWorks rakensi muotokohtaisia jäsentimiä PDF, DOCX, XLSX, PPTX, HTML, Markdown ja pelkälle tekstille, käyttäen OCR-putkilinjaa, jossa hyödynnetään Tesseractia, skannatuille PDF-tiedostoille ja kuvapohjaisille dokumenteille. Järjestelmä tunnistaa automaattisesti, sisältääkö PDF valittavissa olevaa tekstiä vai vaatiiko se OCR:ää, soveltaa taittoanalyysiä säilyttääkseen taulukkorakenteet ja lukujärjestyksen, ja pilkkoo dokumentit semanttisten rajojen mukaisesti mielivaltaisten merkkirajojen sijaan parantaakseen haun laatua.

Miten järjestelmä käsittelee asiakirjojen päivityksiä indeksoimatta koko aineistoa uudelleen?

MicrocosmWorks toteutti inkrementaalisen indeksoinnin, joka seuraa asiakirjojen checksumeja ja käsittelee uudelleen vain tiedostoja, jotka ovat muuttuneet edellisen sisäänluvun jälkeen. Päivitetyiltä asiakirjoilta poistetaan vanhat lohkot ja uudet lohkot lisätään atomisesti, jotta hakuindeksi ei ole koskaan epäjohdonmukaisessa tilassa. Järjestelmä tukee myös versioitua asiakirjan hakua, sallien käyttäjien kysellä asiakirjojen historiallisia versioita, kun sitä tarvitaan auditointi- tai vaatimustenmukaisuustarkoituksiin.

Mitä laitteistoa tarvitaan paikallisen RAG-järjestelmän ajamiseen hyväksyttävällä suorituskyvyllä?

MicrocosmWorks optimoi paikallisen RAG-putkilinjan toimimaan vaatimattomalla laitteistolla, vähimmäissuosituksen ollessa kone, jossa on 32 Gt RAM-muistia, 8 CPU-ydintä, ja valinnaisesti keskiluokan GPU nopeutettuun upotusten generointiin. Organisaatioille, joilla ei ole GPU-laitteistoa, järjestelmä palaa CPU-pohjaisiin upotusmalleihin, joissa on hieman korkeampi viive, ja vektoritietokanta on viritetty SSD-tallennukselle pitämään kyselyn vastausajat alle 200 ms korkeintaan miljoonan dokumenttiytimen aineistoille.

Local-First Document RAG System with Hybrid Search & Mult...

Paikallinen RAG-dokumenttijärjestelmä hybridihauilla ja monimuototuella

Kehittäjätyökaluja rakentava tiimi tarvitsi täysin paikallisen, yksityisyyden säilyttävän dokumenttitiedustelujärjestelmän, joka kykenisi vastaanottamaan useita tiedostomuotoja, rakentamaan haettavissa olevia tietopohjia ja vastaamaan luonnollisen kielen kyselyihin hyödyntäen Retrieval-Augmented Generation (RAG) -menetelmää — lähettämättä mitään tietoja ulkoisille API:ille.

Keskustele Projektistasi

Nykyisillä RAG-ratkaisuilla oli merkittäviä rajoituksia yksityisyyden huomioivissa ja kehittäjille suunnatuissa käyttötapauksissa:

Ulkopuolisten API-riippuvuus — Useimmat RAG-työkalut vaativat dokumenttisisällön lähettämistä pilvipohjaisiin embedding-API-rajapintoihin, mikä rikkoi yksityisyysvaatimuksia
Rajoitettu tiedostomuototuki — Ratkaisut käsittelivät tyypillisesti vain pelkkää tekstiä tai PDF-tiedostoja, jättäen huomiotta taulukkolaskentaohjelmat, Word-dokumentit, HTML:n ja Markdownin
Heikko pilkkominen (Chunking) — Naiivi tekstin pilkkominen jätti huomiotta dokumentin rakenteen (sivut, taulukot, otsikot) luoden kontekstiltaan heikkoja osia (chunks)
Avainsanojen puutteet — Pelkkään embedding-menetelmään perustuva haku jätti huomiotta täsmälliset avainsanaosumat, jotka leksikaalinen haku löytäisi
Taulukkolaskentaohjelmien sokeus — RAG-järjestelmät eivät kyenneet käsittelemään strukturoitua taulukkomuotoista dataa tai vastaamaan suodatus-/aggregointikyselyihin
Ei uudelleenjärjestelyä (Reranking) — Ensimmäisen vaiheen haku tuotti usein vain osittain relevantteja tuloksia ilman toisen vaiheen laatusuodatinta

Rakensimme täydellisen paikallisen RAG-järjestelmän monimuotoisella dokumenttien syötöllä, rakenteen huomioivalla chunkingilla, paikallisella embedding-generoinnilla, hybridihakupipeline (semanttinen + kokoteksti + ajankohtaisuus), cross-encoder rerankingilla ja web-pohjaisella käyttöliittymällä (UI) — kaikki toimii kokonaan käyttäjän omalla koneella.

Arkkitehtuuri

Dokumenttien lataajat (Document Loaders): Muotokohtaiset jäsentimet PDF:lle, DOCX:lle, XLSX:lle, CSV:lle, HTML:lle, Markdownille ja pelkälle tekstille
Chunker: Rakenteen huomioiva pilkkominen, joka säilyttää sivujen, taulukoiden ja otsikoiden rajat
Embeddingit: Paikallinen embedding-malli Transformers.js:n kautta (ei ulkoisia API-kutsuja)
Vektoridatatietokanta: LanceDB (palvelimeton, tiedostopohjainen) embedding-tallennukseen ja samankaltaisuushakuun
Kokotekstihaku: Trigram-pohjainen indeksointi leksikaaliseen vastaavuuteen
Reranker: Cross-encoder-malli kontekstitietoiseen tulosten pisteytykseen
Kyselyanalysaattori: Tarkoituksen tunnistuksen reititys semanttisten ja strukturoitujen kyselyjen välillä
Web-palvelin: Express.js API projektinhallinta- ja hakupäätepisteineen
Frontend: Web-pohjainen käyttöliittymä (UI) dokumenttien lataamiseen, hallintaan ja interaktiiviseen hakuun

Dokumenttien käsittelypipeline

Monimuotoiset lataajat

Rekisteröintimalli tunnistaa tiedostotyypin automaattisesti ja ohjaa sen oikeaan jäsentimeen:

PDF — Tekstin poiminta sivutasoisella segmentoinnilla
Word (.docx/.doc) — Otsikot huomioiva jäsennys dokumentin hierarkian säilyttäen
Excel/CSV — Taulukko kerrallaan tapahtuva jäsennys otsikon tunnistuksella ja rivitason sisällöllä
HTML — Tagit huomioiva poiminta rakenteen säilyttäen
Markdown — Otsikkopohjainen osiojäsennys
Pelkkä teksti — Rivipohjainen segmentointi

Jokainen lataaja poimii metadataa (otsikko, tekijä, luontipäivämäärä, sivu-/taulukkomäärä, sanamäärä) sisällön rinnalla tuottaen strukturoituja osioita lähdeviittauksilla.

Rakenteen huomioiva chunking

Toisin kuin naiivi tekstin pilkkominen, chunker kunnioittaa dokumentin rajoja:

Säilyttää sivunvaihdot (PDF-tiedostot), taulukoiden rajat (taulukkolaskentaohjelmat) ja otsikkohierarkian (Word/Markdown)
Token-pohjainen mitoitus konfiguroitavalla chunkin koolla ja päällekkäisyydellä
Hierarkkinen vararatkaisu: jakaa ensin osioiden, sitten kappaleiden ja lopuksi lauseiden mukaan
Jokainen chunk säilyttää lähdemetadatan (sivunumero, taulukon nimi, otsikko) lähteistystä varten

Embedding ja indeksointi

Paikallinen Embedding-malli

Toimii kokonaan paikallisesti Transformers.js:n kautta — tietoja ei poistu koneelta
Kvantisoitu malli suorituskyvyn optimointiin
Erä-embedding tehokkaaseen massakäsittelyyn
Automaattinen katkaisu sanarajojen kohdalta L2-normalisoinnilla

Vektoritallennus

LanceDB tarjoaa palvelimettoman vektoritallennuksen:

Tiedostopohjainen (ei tarvita erillistä tietokantapalvelinta)
Projektikohtainen eristys itsenäisillä indekseillä
SHA256-pohjaiset välimuistiavainten duplikaattien poistoon
Metadata tallennettu vektoreiden rinnalle suodatettua hakua varten

Hybridihakupipeline

Hakupipeline yhdistää kolme ranking-signaalia parempien tulosten saavuttamiseksi kuin millään yksittäisellä lähestymistavalla:

Signaali 1: Embedding-haku (semanttinen)

Vektorisamankaltaisuushaku löytää chunkeja, joilla on toisiinsa liittyvä merkitys, vaikka käytettäisiin eri sanoja. Käsittelee parafraseja, synonyymejä ja käsitteellisiä kyselyjä.

Signaali 2: Kokotekstihaku (leksikaalinen)

Trigram-pohjainen indeksointi Jaccard-samankaltaisuudella löytää täsmälliset avainsanaosumat, jotka embedding-haku saattaisi jättää huomiotta — tärkeää teknisten termien, nimien ja tunnisteiden kannalta.

Signaali 3: Ajankohtaisuuden korostus

Eksponentiaalinen vaimennuspainotus suosii äskettäin käytettyjä tai muokattuja dokumentteja, varmistaen, että ajantasainen tieto nousee esiin ensin.

Pisteiden yhdistely

Signaalit yhdistetään konfiguroitavilla painotuksilla (oletus: 50% semanttinen, 25% leksikaalinen, 25% ajankohtaisuus), normalisoidaan ja suodatetaan vähimmäispisterajan mukaan.

Cross-Encoder Reranking

Alkuperäisen haun jälkeen cross-encoder-malli pisteyttää parhaat ehdokkaat uudelleen:

Kontekstitietoinen pisteytys ottaa kysely-dokumentti-parit huomioon yhdessä (ei itsenäisesti)
Avainsanojen korostuksen laskenta termipäällekkäisyyttä varten
Yhdistetty pisteytys (cross-encoder + avainsignaalit)
Tuottaa lopullisen järjestetyn listan tarkemmin kuin pelkkä ensimmäisen vaiheen haku

Strukturoidun datan tuki

Taulukkolaskentaohjelmien sisällölle järjestelmä tarjoaa lisäominaisuuksia:

Saraketyyppien automaattinen tunnistus (numeerinen, päivämäärä, totuusarvo, merkkijono)
Luonnollisen kielen suodatus (esim. "insinööriosaston työntekijät, joiden palkka ylittää kynnyksen")
Aggregointituki (määrä, summa, keskiarvo, minimi, maksimi)
Kyselyanalysaattori ohjaa strukturoidut kyselyt erityiseen moottoriin embedding-haun sijaan

Web-käyttöliittymä

Projektinhallinta — Tietopohjaprojektien luominen, päivittäminen ja poistaminen
Dokumenttien lataus — Vedä ja pudota -tiedostolataus muodon automaattisella tunnistuksella
Dokumenttien luominen — Luo dokumentteja tekstistä suoraan käyttöliittymässä (UI)
Interaktiivinen haku — Luonnollisen kielen kyselyrajapinta järjestettyine tuloksineen
Tilastot — Indeksin koko, dokumenttien lukumäärä ja muotojakauma projektia kohden

Tärkeimmät ominaisuudet

Täysin paikallinen — Kaikki käsittely laitteella; ei ulkoisia API-kutsuja embeddingeille tai hakuun
9 syötemuotoa — PDF, DOCX, DOC, XLSX, XLS, CSV, HTML, Markdown, pelkkä teksti
Rakenteen huomioiva chunking — Säilyttää sivut, taulukot ja otsikot chunk-rajoina
Hybridihaku — Yhdistää semanttiset, leksikaaliset ja ajankohtaisuussignaalit paremman haun saavuttamiseksi
Cross-Encoder Reranking — Toisen vaiheen pisteytys tarkempien tulosten saamiseksi
Strukturoidut kyselyt — Luonnollisen kielen suodatus ja aggregointi taulukkolaskentaohjelmien datalle
Palvelimeton vektoritietokanta (Vector DB) — LanceDB:n tiedostopohjainen tallennus ilman infrastruktuurin yleiskustannuksia
Dokumenttien kirjoitus — Vientimahdollisuudet PDF-, DOCX- ja XLSX-tiedostojen luomiseen
Projektien eristys — Itsenäiset tietopohjat erillisillä indekseillä
Web UI — Täydellinen käyttöliittymä dokumenttien hallintaan ja interaktiiviseen hakuun

Paikallinen RAG-dokumenttijärjestelmä hybridihauilla ja monimuototuella

Haaste

Meidän Ratkaisumme

Arkkitehtuuri

Dokumenttien käsittelypipeline

Monimuotoiset lataajat

Rakenteen huomioiva chunking

Embedding ja indeksointi

Paikallinen Embedding-malli

Vektoritallennus

Hybridihakupipeline

Signaali 1: Embedding-haku (semanttinen)

Signaali 2: Kokotekstihaku (leksikaalinen)

Signaali 3: Ajankohtaisuuden korostus

Pisteiden yhdistely

Cross-Encoder Reranking

Strukturoidun datan tuki

Web-käyttöliittymä

Tärkeimmät ominaisuudet

Tulokset

Teknologiapino

caseStudyDetail.more Tapaustutkimukset

AI-pohjainen taulukko- ja dokumenttianalyysi moniagenttiorkestroinnilla ja dokumenttienvälisellä viittauksella

AI-pohjainen laskujen käsittely OCR:n ja QuickBooks-integraation avulla

Valmis Muuttamaan Liiketoimintaasi?

Asiakaspuolen mainosten upotus (CSAI) SCTE-35-merkkien jäsennyksellä ja monialustaisen soittimen integroinnilla

Usein kysytyt kysymykset