Ano ang isang local-first RAG system, at bakit ko nanaisin na mangyari ang pagproseso ng dokumento on-premises sa halip na sa cloud?

Ang MicrocosmWorks ay bumuo ng isang local-first RAG system kung saan ang lahat ng pag-ingest ng dokumento, pagbuo ng embedding, pag-imbak ng vector, at LLM inference ay tumatakbo nang buo sa iyong imprastraktura nang hindi nagpapadala ng anumang data sa panlabas na cloud APIs. Ang arkitekturang ito ay mahalaga para sa mga organisasyong humahawak ng classified na dokumento, mga materyal na may pribilehiyo ng abogado-kliyente, o sensitibong intellectual property kung saan ipinagbabawal ng mga kinakailangan sa data sovereignty ang anumang pagproseso sa cloud, kahit na may encryption.

Paano pinagsasama ng hybrid search ang keyword at semantic search upang makagawa ng mas mahusay na resulta kaysa sa alinmang diskarte na mag-isa?

Ang MicrocosmWorks ay nagpatupad ng isang hybrid retrieval pipeline na nagpapatakbo ng BM25 keyword search at dense vector semantic search nang magkasabay, pagkatapos ay gumagamit ng reciprocal rank fusion upang pagsamahin at muling i-rank ang pinagsamang resulta bago ipasa ang mga ito sa LLM bilang konteksto. Ang diskarteng ito ay nakakakuha ng mga query na eksaktong tumutugma tulad ng mga product code at legal citation na hindi nakukuha ng semantic search, habang nakakakuha din ng nilalamang may kaugnayan sa konsepto na hindi kailanman mahahanap ng keyword search.

Anong mga format ng dokumento ang sinusuportahan ng lokal na sistema ng RAG, at paano nito pinangangasiwaan ang mga na-scan na PDF?

Binuo ng MicrocosmWorks ang mga parser na partikular sa format para sa PDF, DOCX, XLSX, PPTX, HTML, Markdown, at plain text, na may OCR pipeline gamit ang Tesseract para sa mga na-scan na PDF at mga dokumentong batay sa imahe. Awtomatikong nade-detect ng sistema kung ang isang PDF ay naglalaman ng napipiling text o nangangailangan ng OCR, naglalapat ng layout analysis upang mapanatili ang mga istruktura ng talahanayan at pagkakasunud-sunod ng pagbasa, at hinahati ang mga dokumento gamit ang mga semantic boundary sa halip na arbitraryong limitasyon sa karakter upang mapabuti ang kalidad ng pagkuha.

Paano pinangangasiwaan ng sistema ang mga update sa dokumento nang hindi muling ini-index ang buong corpus?

Ipinatupad ng MicrocosmWorks ang incremental indexing na sumusubaybay sa document checksums at muling pinoproseso lamang ang mga file na nagbago mula noong huling ingestion run. Ang mga na-update na dokumento ay tinatanggal ang kanilang lumang chunks at inilalagay ang mga bagong chunks nang atomically, kaya ang search index ay hindi kailanman nasa hindi pare-parehong estado. Sinusuportahan din ng sistema ang versioned document retrieval, na nagpapahintulot sa mga user na mag-query laban sa mga historical na bersyon ng mga dokumento kung kinakailangan para sa audit o compliance purposes.

Anong hardware ang kinakailangan upang patakbuhin ang isang lokal na RAG system na may katanggap-tanggap na pagganap?

Ini-optimize ng MicrocosmWorks ang lokal na pipeline ng RAG upang tumakbo sa katamtamang hardware, na may pinakamababang inirerekomendang configuration na isang makina na may 32GB RAM, 8 CPU cores, at opsyonal na isang mid-range GPU para sa pinabilis na pagbuo ng embedding. Para sa mga organisasyon na walang GPU hardware, ang sistema ay bumabalik sa CPU-based embedding models na may bahagyang mas mataas na latency, at ang vector database ay naka-tune para sa SSD storage upang panatilihin ang mga oras ng pagtugon sa query sa ilalim ng 200ms para sa mga corpora na hanggang 1 milyong document chunks.

Local-First Document RAG System with Hybrid Search & Mult...

Lokal-Una na Sistema ng RAG ng Dokumento na may Hybrid Search at Suporta sa Maraming Format

Isang pangkat na bumubuo ng mga tool para sa developer ang nangailangan ng isang ganap na lokal, pang-seguridad sa privacy na sistema ng document intelligence na kayang kumain ng maraming format ng file, bumuo ng mga mahahanap na knowledge base, at sumagot sa mga natural na wika na query gamit ang Retrieval-Augmented Generation (RAG) — nang hindi nagpapadala ng anumang data sa mga external na API.

Pag-usapan ang Iyong Proyekto

Ang mga umiiral na solusyon ng RAG ay may malalaking limitasyon para sa mga kaso ng paggamit na may kamalayan sa privacy at nakatuon sa developer:

Pagdepende sa External API — Karamihan sa mga tool ng RAG ay nangangailangan ng pagpapadala ng nilalaman ng dokumento sa cloud-based embedding APIs, na lumalabag sa mga kinakailangan sa privacy
Limitadong Suporta sa Format — Karaniwang pinangangasiwaan lamang ng mga solusyon ang plain text o PDF, na hindi pinapansin ang mga spreadsheet, Word docs, HTML, at Markdown
Mababang Uri ng Pag-chunk — Ang simpleng paghahati ng teksto ay hindi pinansin ang istraktura ng dokumento (mga pahina, sheet, heading), na lumilikha ng mga chunk na mahirap sa konteksto
Kakulangan sa Keyword — Ang purong paghahanap na batay sa embedding ay hindi nakahanap ng eksaktong mga katugma ng keyword na mahahanap ng lexical search
Kahirapan sa Spreadsheet — Hindi kayang pangasiwaan ng mga sistema ng RAG ang structured tabular data o sagutin ang mga query sa pag-filter/aggregation
Walang Reranking — Ang unang pagkuha ay madalas na naglalabas lamang ng bahagyang kaugnay na resulta nang walang pangalawang pass na filter ng kalidad

Binuo namin ang isang kumpletong lokal-una na sistema ng RAG na may multi-format na pagkuha ng dokumento, structure-aware na pag-chunk, lokal na pagbuo ng embedding, isang hybrid search pipeline (semantic + full-text + recency), cross-encoder reranking, at isang web-based na UI — lahat ay tumatakbo nang buo sa makina ng user.

Arkitektura

Mga Document Loader: Mga parser na partikular sa format para sa PDF, DOCX, XLSX, CSV, HTML, Markdown, at plain text
Chunker: Paghahati na may kamalayan sa istraktura na nagpapanatili ng mga hangganan ng pahina, sheet, at heading
Embeddings: Lokal na embedding model sa pamamagitan ng Transformers.js (walang external na tawag sa API)
Vector Database: LanceDB (serverless, file-based) para sa embedding storage at similarity search
Full-Text Search: Trigram-based indexing para sa lexical matching
Reranker: Cross-encoder model para sa context-aware na pagmamarka ng resulta
Query Analyzer: Pagruruta ng pagtukoy ng intensyon sa pagitan ng semantic at structured na mga query
Web Server: Express.js API na may project management at search endpoints
Frontend: Web-based na UI para sa pag-upload, pamamahala, at interactive na paghahanap ng dokumento

Pipeline ng Pagpoproseso ng Dokumento

Mga Multi-Format Loader

Isang registry pattern ang awtomatikong nakikita ang uri ng file at iniruruta sa tamang parser:

PDF — Pagkuha ng teksto na may page-level na segmentasyon
Word (.docx/.doc) — Heading-aware na pag-parse na nagpapanatili ng hierarchy ng dokumento
Excel/CSV — Sheet-by-sheet na pag-parse na may pagtukoy ng header at row-level na nilalaman
HTML — Tag-aware na pagkuha na may pagpapanatili ng istraktura
Markdown — Heading-based na pag-parse ng seksyon
Plain Text — Line-based na segmentasyon

Bawat loader ay kumukuha ng metadata (pamagat, may-akda, petsa ng paglikha, bilang ng pahina/sheet, bilang ng salita) kasama ng nilalaman, na gumagawa ng structured na mga seksyon na may source references.

Structure-Aware na Pag-chunk

Hindi tulad ng simpleng paghahati ng teksto, iginagalang ng chunker ang mga hangganan ng dokumento:

Nagpapanatili ng mga page break (mga PDF), mga hangganan ng sheet (mga spreadsheet), at hierarchy ng heading (Word/Markdown)
Token-based na pagpapalaki na may configurable na chunk size at overlap
Hierarchical na fallback: hinahati muna ayon sa mga seksyon, pagkatapos ay mga talata, pagkatapos ay mga pangungusap
Ang bawat chunk ay nagpapanatili ng source metadata (numero ng pahina, pangalan ng sheet, heading) para sa attribution

Embedding at Pag-index

Lokal na Embedding Model

Tumatakbo nang buo nang lokal sa pamamagitan ng Transformers.js — walang data ang umaalis sa makina
Quantized model para sa performance optimization
Batch embedding para sa mahusay na bulk processing
Awtomatikong pagputol sa mga hangganan ng salita na may L2 normalization

Vector Storage

Nagbibigay ang LanceDB ng serverless vector storage:

Batay sa file (walang hiwalay na database server ang kailangan)
Paghihiwalay bawat proyekto na may independent na mga index
SHA256-based na mga cache key para sa deduplication
Metadata na nakaimbak kasama ng mga vector para sa filtered retrieval

Hybrid Search Pipeline

Pinagsasama ng retrieval pipeline ang tatlong ranking signal para sa mas mahusay na resulta kaysa sa anumang solong diskarte:

Signal 1: Embedding Search (Semantic)

Ang Vector similarity search ay nakakahanap ng mga chunk na may kaugnay na kahulugan kahit na magkakaiba ang mga salitang ginagamit. Kinakaya ang paraphrasing, synonyms, at conceptual queries.

Signal 2: Full-Text Search (Lexical)

Ang Trigram-based indexing na may Jaccard similarity ay nakakahanap ng eksaktong mga katugma ng keyword na maaaring hindi mahuli ng embedding search — mahalaga para sa mga technical terms, pangalan, at identifiers.

Signal 3: Recency Boost

Ang Exponential decay weighting ay pumapabor sa mga kamakailang na-access o nabagong dokumento, na tinitiyak na ang up-to-date na impormasyon ang unang lumalabas.

Kumbinasyon ng Marka

Ang mga signal ay pinagsasama sa configurable na mga timbang (default: 50% semantic, 25% lexical, 25% recency), binibigyan ng normalization, at sinasala ng minimum score threshold.

Cross-Encoder Reranking

Matapos ang paunang pagkuha, isang cross-encoder model ang muling nagmamarka sa mga nangungunang kandidato:

Context-aware na pagmamarka ay isinasaalang-alang ang mga pares ng query-dokumento nang magkasama (hindi nang hiwalay)
Pagkalkula ng keyword boost para sa term overlap
Pinaghalong pagmamarka (cross-encoder + keyword signals)
Gumagawa ng isang pinal na ranked list na may mas mataas na precision kaysa sa unang-pass na pagkuha lamang

Suporta sa Structured Data

Para sa nilalaman ng spreadsheet, nagbibigay ang system ng karagdagang kakayahan:

Awtomatikong pagtukoy ng mga uri ng column (numeric, date, boolean, string)
Natural na pag-filter ng wika (hal., "mga empleyado sa engineering na may sahod na lampas sa threshold")
Suporta sa aggregation (count, sum, average, min, max)
Ang query analyzer ay nagruruta ng structured queries sa isang dedicated na engine sa halip na embedding search

Web Interface

Pamamahala ng Proyekto — Gumawa, mag-update, at magtanggal ng mga proyekto ng knowledge base
Pag-upload ng Dokumento — Pag-upload ng file gamit ang drag-and-drop na may awtomatikong pagtukoy ng format
Paglikha ng Dokumento — Gumawa ng mga dokumento mula sa teksto nang direkta sa UI
Interactive na Paghahanap — Natural language query interface na may ranked na resulta
Mga Istatistika — Laki ng index, bilang ng dokumento, at distribusyon ng format bawat proyekto

Mga Pangunahing Tampok

Ganap na Lokal — Lahat ng pagproseso ay nasa device; walang external na tawag sa API para sa embeddings o paghahanap
9 na Input Format — PDF, DOCX, DOC, XLSX, XLS, CSV, HTML, Markdown, plain text
Structure-Aware na Pag-chunk — Nagpapanatili ng mga pahina, sheet, at heading bilang chunk boundaries
Hybrid Search — Pinagsasama ang semantic, lexical, at recency signals para sa mas mahusay na retrieval
Cross-Encoder Reranking — Second-pass na pagmamarka para sa mas mataas na precision na resulta
Structured Queries — Natural na pag-filter ng wika at aggregation sa data ng spreadsheet
Serverless Vector DB — LanceDB file-based na storage na walang infrastructure overhead
Pagsusulat ng Dokumento — Mga kakayahan sa pag-export para sa paglikha ng PDF, DOCX, at XLSX
Paghihiwalay ng Proyekto — Independent na knowledge bases na may hiwalay na mga index
Web UI — Kumpletong interface para sa pamamahala ng dokumento at interactive na paghahanap

Lokal-Una na Sistema ng RAG ng Dokumento na may Hybrid Search at Suporta sa Maraming Format

Ang Hamon

Ang Aming Solusyon

Arkitektura

Pipeline ng Pagpoproseso ng Dokumento

Mga Multi-Format Loader

Structure-Aware na Pag-chunk

Embedding at Pag-index

Lokal na Embedding Model

Vector Storage

Hybrid Search Pipeline

Signal 1: Embedding Search (Semantic)

Signal 2: Full-Text Search (Lexical)

Signal 3: Recency Boost

Kumbinasyon ng Marka

Cross-Encoder Reranking

Suporta sa Structured Data

Web Interface

Mga Pangunahing Tampok

Mga Resulta

Technology Stack

caseStudyDetail.more Mga Case Study

Pagsusuri ng Spreadsheet at Dokumento na Pinapagana ng AI na may Multi-Agent Orchestration at Cross-Document Reference

Pagpoproseso ng Invoice na Pinapagana ng AI gamit ang OCR at Integrasyon ng QuickBooks

Handa nang Baguhin ang Iyong Negosyo?

Client-Side Ad Insertion (CSAI) na may pag-parse ng SCTE-35 Marker at Integrasyon ng Multi-Platform Player

Mga Madalas Itanong