Apakah itu sistem RAG local-first, dan mengapa saya ingin pemprosesan dokumen berlaku on-premises dan bukannya di cloud?

MicrocosmWorks membina sistem RAG local-first di mana semua document ingestion, embedding generation, vector storage, dan LLM inference berjalan sepenuhnya pada infrastruktur anda tanpa menghantar sebarang data ke external cloud APIs. Seni bina ini penting untuk organisasi yang mengendalikan dokumen sulit, bahan istimewa peguam-pelanggan, atau harta intelek sensitif di mana keperluan data sovereignty melarang sebarang cloud processing, walaupun dengan encryption.

Bagaimana carian hibrid menggabungkan carian kata kunci dan semantik untuk menghasilkan hasil yang lebih baik daripada mana-mana pendekatan secara berasingan?

MicrocosmWorks melaksanakan pipeline perolehan hibrid yang menjalankan carian kata kunci BM25 dan carian semantik vektor padat secara selari, kemudian menggunakan reciprocal rank fusion untuk menggabungkan dan menyusun semula hasil gabungan sebelum menyerahkannya kepada LLM sebagai konteks. Pendekatan ini mengesan pertanyaan padanan tepat seperti kod produk dan rujukan undang-undang yang terlepas oleh carian semantik, sambil juga mendapatkan kandungan yang berkaitan secara konseptual yang tidak akan ditemui oleh carian kata kunci.

Apakah format dokumen yang disokong oleh sistem RAG tempatan, dan bagaimana ia mengendalikan PDF yang diimbas?

MicrocosmWorks membangunkan penghurai khusus format untuk PDF, DOCX, XLSX, PPTX, HTML, Markdown, dan teks biasa, dengan OCR pipeline menggunakan Tesseract untuk scanned PDFs dan dokumen berasaskan imej. Sistem ini mengesan secara automatik sama ada PDF mengandungi selectable text atau memerlukan OCR, menggunakan layout analysis untuk mengekalkan struktur jadual dan susunan bacaan, dan memecah dokumen menggunakan semantic boundaries dan bukannya had aksara sewenang-wenangnya untuk meningkatkan retrieval quality.

Bagaimana sistem mengendalikan kemas kini dokumen tanpa mengindeks semula keseluruhan korpus?

MicrocosmWorks melaksanakan incremental indexing yang menjejaki document checksums dan hanya memproses semula fail yang telah berubah sejak ingestion run terakhir. Dokumen yang dikemas kini memiliki chunk lama mereka dialih keluar dan chunk baharu dimasukkan secara atomically, supaya search index tidak pernah berada dalam keadaan tidak konsisten. Sistem ini juga menyokong versioned document retrieval, membenarkan pengguna untuk membuat pertanyaan terhadap versi dokumen yang lalu apabila diperlukan untuk tujuan audit atau compliance.

Perkakasan apakah yang diperlukan untuk menjalankan sistem RAG tempatan dengan prestasi yang boleh diterima?

MicrocosmWorks mengoptimumkan saluran paip RAG tempatan untuk berjalan pada perkakasan sederhana, dengan konfigurasi minimum yang disyorkan ialah mesin dengan 32GB RAM, 8 CPU cores, dan secara pilihan GPU julat pertengahan untuk penjanaan embedding yang dipercepat. Bagi organisasi tanpa perkakasan GPU, sistem kembali kepada model embedding berasaskan CPU dengan latency yang sedikit lebih tinggi, dan pangkalan data vektor ditala untuk storan SSD untuk mengekalkan masa respons pertanyaan di bawah 200ms untuk korpus sehingga 1 juta segmen dokumen.

Local-First Document RAG System with Hybrid Search & Mult...

Sistem RAG Dokumen Lokal-Pertama dengan Carian Hibrid & Sokongan Pelbagai Format

Sebuah pasukan yang membangunkan alatan pembangun memerlukan sistem kecerdasan dokumen yang beroperasi sepenuhnya secara lokal, memelihara privasi, yang boleh menyerap pelbagai format fail, membina pangkalan pengetahuan yang boleh dicari, dan menjawab pertanyaan bahasa semula jadi menggunakan Retrieval-Augmented Generation — tanpa menghantar sebarang data kepada API luaran.

Bincangkan Projek Anda

Penyelesaian RAG sedia ada mempunyai batasan yang ketara untuk kes penggunaan yang mementingkan privasi dan berfokuskan pembangun:

Kebergantungan API Luaran — Kebanyakan alatan RAG memerlukan penghantaran kandungan dokumen ke API embedding berasaskan awan, melanggar keperluan privasi
Sokongan Format Terhad — Penyelesaian biasanya hanya mengendalikan teks biasa atau PDF, mengabaikan hamparan, dokumen Word, HTML, dan Markdown
Pengecilan Chunks Yang Lemah — Pemisahan teks yang naif mengabaikan struktur dokumen (halaman, helaian, tajuk), menghasilkan chunks yang kurang konteks
Jurang Kata Kunci — Carian berasaskan embedding tulen terlepas padanan kata kunci tepat yang akan ditangkap oleh carian leksikal
Ketidakupayaan Hamparan — Sistem RAG tidak dapat mengendalikan data berjadual berstruktur atau menjawab pertanyaan penapisan/pengagregatan
Tiada Penyusunan Semula — Pengambilan awal sering memunculkan hasil yang hanya relevan sebahagiannya tanpa penapis kualiti langkah kedua

Kami membina sistem RAG lokal-pertama yang lengkap dengan penyerapan dokumen pelbagai format, pengecilan chunks yang peka struktur, penjanaan embedding lokal, saluran carian hibrid (semantik + teks penuh + kebaharuan), penyusunan semula cross-encoder, dan UI berasaskan web — semuanya berjalan sepenuhnya pada mesin pengguna.

Seni Bina

Pemuat Dokumen: Penghurai khusus format untuk PDF, DOCX, XLSX, CSV, HTML, Markdown, dan teks biasa
Pengecil Chunks: Pemisahan peka struktur yang memelihara sempadan halaman, helaian, dan tajuk
Embedding: Model embedding lokal melalui Transformers.js (tiada panggilan API luaran)
Pangkalan Data Vektor: LanceDB (tanpa pelayan, berasaskan fail) untuk penyimpanan embedding dan carian kesamaan
Carian Teks Penuh: Pengindeksan berasaskan trigram untuk padanan leksikal
Penyusun Semula: Model cross-encoder untuk pemarkahan hasil yang peka konteks
Penganalisis Pertanyaan: Penghalaan pengesanan niat antara pertanyaan semantik dan berstruktur
Pelayan Web: API Express.js dengan pengurusan projek dan titik akhir carian
Bahagian Hadapan: UI berasaskan web untuk muat naik, pengurusan, dan carian interaktif dokumen

Saluran Pemprosesan Dokumen

Pemuat Pelbagai Format

Corak pendaftaran mengesan jenis fail secara automatik dan menghalakan ke penghurai yang sesuai:

PDF — Pengekstrakan teks dengan segmentasi peringkat halaman
Word (.docx/.doc) — Penghuraian peka tajuk memelihara hierarki dokumen
Excel/CSV — Penghuraian helaian demi helaian dengan pengesanan pengepala dan kandungan peringkat baris
HTML — Pengekstrakan peka tag dengan pemeliharaan struktur
Markdown — Penghuraian bahagian berasaskan tajuk
Teks Biasa — Segmentasi berasaskan baris

Setiap pemuat mengekstrak metadata (tajuk, pengarang, tarikh penciptaan, kiraan halaman/helaian, kiraan perkataan) bersama kandungan, menghasilkan bahagian berstruktur dengan rujukan sumber.

Pengecilan Chunks Peka Struktur

Tidak seperti pemisahan teks naif, pengecil chunks menghormati sempadan dokumen:

Memelihara pemisahan halaman (PDF), sempadan helaian (hamparan), dan hierarki tajuk (Word/Markdown)
Saiz berasaskan token dengan saiz chunk dan pertindihan yang boleh dikonfigurasi
Sandaran hierarki: memisahkan mengikut bahagian dahulu, kemudian perenggan, kemudian ayat
Setiap chunk mengekalkan metadata sumber (nombor halaman, nama helaian, tajuk) untuk atribusi

Embedding & Pengindeksan

Model Embedding Lokal

Berjalan sepenuhnya secara lokal melalui Transformers.js — tiada data meninggalkan mesin
Model terkuantisasi untuk pengoptimuman prestasi
Embedding kelompok untuk pemprosesan pukal yang cekap
Pemotongan automatik pada sempadan perkataan dengan normalisasi L2

Penyimpanan Vektor

LanceDB menyediakan penyimpanan vektor tanpa pelayan:

Berasaskan fail (tiada pelayan pangkalan data berasingan diperlukan)
Pengasingan setiap projek dengan indeks bebas
Kunci cache berasaskan SHA256 untuk penyahduplikasi
Metadata disimpan bersama vektor untuk pengambilan yang ditapis

Saluran Carian Hibrid

Saluran pengambilan menggabungkan tiga isyarat ranking untuk hasil yang lebih baik daripada mana-mana pendekatan tunggal:

Isyarat 1: Carian Embedding (Semantik)

Carian kesamaan vektor menemui chunks dengan makna yang berkaitan walaupun perkataan yang berbeza digunakan. Mengendalikan parafrasa, sinonim, dan pertanyaan konseptual.

Isyarat 2: Carian Teks Penuh (Leksikal)

Pengindeksan berasaskan trigram dengan kesamaan Jaccard menangkap padanan kata kunci tepat yang mungkin terlepas oleh carian embedding — penting untuk istilah teknikal, nama, dan pengecam.

Isyarat 3: Peningkatan Kebaharuan

Pemberatan pereputan eksponen mengutamakan dokumen yang baru diakses atau diubah suai, memastikan maklumat terkini muncul dahulu.

Gabungan Skor

Isyarat digabungkan dengan pemberat yang boleh dikonfigurasi (lalai: 50% semantik, 25% leksikal, 25% kebaharuan), dinormalisasi, dan ditapis oleh ambang skor minimum.

Penyusunan Semula Cross-Encoder

Selepas pengambilan awal, model cross-encoder menilai semula calon teratas:

Pemarkahan peka konteks mempertimbangkan pasangan pertanyaan-dokumen bersama (bukan secara bebas)
Pengiraan peningkatan kata kunci untuk pertindihan istilah
Pemarkahan campuran (cross-encoder + isyarat kata kunci)
Menghasilkan senarai kedudukan akhir dengan ketepatan yang lebih tinggi daripada pengambilan awal sahaja

Sokongan Data Berstruktur

Untuk kandungan hamparan, sistem menyediakan keupayaan tambahan:

Pengesanan automatik jenis lajur (numerik, tarikh, boolean, rentetan)
Penapisan bahasa semula jadi (cth., "pekerja dalam kejuruteraan dengan gaji melebihi ambang")
Sokongan pengagregatan (kiraan, jumlah, purata, min, maks)
Penganalisis pertanyaan menghalakan pertanyaan berstruktur kepada enjin khusus berbanding carian embedding

Antara Muka Web

Pengurusan Projek — Cipta, kemas kini, dan padam projek pangkalan pengetahuan
Muat Naik Dokumen — Muat naik fail seret-dan-lepas dengan pengesanan format automatik
Penciptaan Dokumen — Cipta dokumen daripada teks secara langsung dalam UI
Carian Interaktif — Antara muka pertanyaan bahasa semula jadi dengan hasil yang berkedudukan
Statistik — Saiz indeks, kiraan dokumen, dan agihan format setiap projek

Ciri-ciri Utama

Sepenuhnya Lokal — Semua pemprosesan pada peranti; tiada panggilan API luaran untuk embedding atau carian
9 Format Input — PDF, DOCX, DOC, XLSX, XLS, CSV, HTML, Markdown, teks biasa
Pengecilan Chunks Peka Struktur — Memelihara halaman, helaian, dan tajuk sebagai sempadan chunk
Carian Hibrid — Menggabungkan isyarat semantik, leksikal, dan kebaharuan untuk pengambilan yang lebih baik
Penyusunan Semula Cross-Encoder — Pemarkahan langkah kedua untuk hasil ketepatan yang lebih tinggi
Pertanyaan Berstruktur — Penapisan dan pengagregatan bahasa semula jadi pada data hamparan
Pangkalan Data Vektor Tanpa Pelayan — Penyimpanan berasaskan fail LanceDB tanpa kos overhead infrastruktur
Penulisan Dokumen — Keupayaan eksport untuk penciptaan PDF, DOCX, dan XLSX
Pengasingan Projek — Pangkalan pengetahuan bebas dengan indeks berasingan
UI Web — Antara muka lengkap untuk pengurusan dokumen dan carian interaktif

Sistem RAG Dokumen Lokal-Pertama dengan Carian Hibrid & Sokongan Pelbagai Format

Cabaran

Penyelesaian Kami

Seni Bina

Saluran Pemprosesan Dokumen

Pemuat Pelbagai Format

Pengecilan Chunks Peka Struktur

Embedding & Pengindeksan

Model Embedding Lokal

Penyimpanan Vektor

Saluran Carian Hibrid

Isyarat 1: Carian Embedding (Semantik)

Isyarat 2: Carian Teks Penuh (Leksikal)

Isyarat 3: Peningkatan Kebaharuan

Gabungan Skor

Penyusunan Semula Cross-Encoder

Sokongan Data Berstruktur

Antara Muka Web

Ciri-ciri Utama

Keputusan

Timbunan Teknologi

caseStudyDetail.more Kajian Kes

Analisis Hamparan & Dokumen Dikuasakan AI dengan Orkestrasi Berbilang Ejen dan Rujukan Silang Dokumen

Pemprosesan Invois Berkuasa AI dengan OCR dan Integrasi QuickBooks

Bersedia untuk Mentransformasi Perniagaan Anda?

Penyisipan Iklan Sisi Klien (CSAI) dengan Penghuraian Penanda SCTE-35 & Integrasi Pemain Berbilang Platform

Soalan Lazim