Apakah itu sistem RAG tempatan, dan mengapa saya ingin pemprosesan dokumen berlaku di premis dan bukannya di awan?

MicrocosmWorks membangunkan sistem RAG tempatan di mana semua pengambilan dokumen, penjanaan benaman, penyimpanan vektor, dan inferens LLM berjalan sepenuhnya pada infrastruktur anda tanpa menghantar sebarang data ke API awan luaran. Seni bina ini penting untuk organisasi yang mengendalikan dokumen sulit, bahan-bahan yang dilindungi hak peguam-pelanggan, atau harta intelek sensitif di mana keperluan kedaulatan data melarang sebarang pemprosesan awan, walaupun dengan penyulitan.

Bagaimanakah carian hibrid menggabungkan carian kata kunci dan carian semantik untuk menghasilkan hasil yang lebih baik daripada salah satu pendekatan sahaja?

MicrocosmWorks melaksanakan saluran paip perolehan hibrid yang menjalankan carian kata kunci BM25 dan carian semantik vektor padat secara selari, kemudian menggunakan gabungan pangkat timbal balik untuk menggabungkan dan menyusun semula pangkat hasil gabungan sebelum menyalurkannya kepada LLM sebagai konteks. Pendekatan ini menangkap pertanyaan padanan tepat seperti kod produk dan petikan undang-undang yang terlepas oleh carian semantik, sambil juga memperoleh kandungan yang berkaitan secara konseptual yang tidak akan ditemui oleh carian kata kunci.

Format dokumen apakah yang disokong oleh sistem RAG tempatan, dan bagaimanakah ia mengendalikan PDF yang diimbas?

MicrocosmWorks membina penghurai khusus format untuk PDF, DOCX, XLSX, PPTX, HTML, Markdown, dan teks biasa, dengan saluran paip OCR menggunakan Tesseract untuk PDF yang diimbas dan dokumen berasaskan imej. Sistem ini secara automatik mengesan sama ada PDF mengandungi teks yang boleh dipilih atau memerlukan OCR, menggunakan analisis susun atur untuk mengekalkan struktur jadual dan susunan bacaan, dan memecah dokumen menggunakan sempadan semantik dan bukannya had aksara sewenang-wenangnya untuk meningkatkan kualiti perolehan.

Bagaimanakah sistem mengendalikan kemas kini dokumen tanpa mengindeks semula keseluruhan korpus?

MicrocosmWorks melaksanakan pengindeksan inkremental yang menjejak checksum dokumen dan hanya memproses semula fail yang telah berubah sejak jalankan pengambilan terakhir. Dokumen yang dikemas kini akan membuang cebisan lama dan cebisan baharu dimasukkan secara atomik, jadi indeks carian tidak pernah dalam keadaan tidak konsisten. Sistem ini juga menyokong perolehan dokumen berversi, membenarkan pengguna menanyakan versi dokumen sejarah apabila diperlukan untuk tujuan audit atau pematuhan.

Perkakasan apakah yang diperlukan untuk menjalankan sistem RAG tempatan dengan prestasi yang boleh diterima?

MicrocosmWorks mengoptimumkan saluran paip RAG tempatan untuk berjalan pada perkakasan sederhana, dengan konfigurasi minimum yang disyorkan ialah mesin dengan 32GB RAM, 8 teras CPU, dan secara pilihan GPU kelas pertengahan untuk penjanaan benaman yang dipercepat. Untuk organisasi tanpa perkakasan GPU, sistem ini kembali kepada model benaman berasaskan CPU dengan sedikit kependaman yang lebih tinggi, dan pangkalan data vektor ditala untuk storan SSD untuk memastikan masa tindak balas pertanyaan di bawah 200ms untuk korpus sehingga 1 juta cebisan dokumen.

Local-First Document RAG System with Hybrid Search & Mult...

Sistem RAG Dokumen Mendahulukan Lokal dengan Carian Hibrid & Sokongan Pelbagai Format

Sebuah pasukan pembina alat pembangun memerlukan sistem kepintaran dokumen yang sepenuhnya lokal dan memelihara privasi, yang mampu menyerap pelbagai format fail, membina pangkalan pengetahuan yang boleh dicari, dan menjawab pertanyaan bahasa semula jadi menggunakan Retrieval-Augmented Generation — tanpa menghantar sebarang data kepada API luaran.

Bincangkan Projek Anda

Penyelesaian RAG sedia ada mempunyai batasan ketara untuk kes penggunaan yang mementingkan privasi dan berfokuskan pembangun:

Ketergantungan API Luaran — Kebanyakan alat RAG memerlukan penghantaran kandungan dokumen kepada API embedding berasaskan awan, melanggar keperluan privasi
Sokongan Format Terhad — Penyelesaian lazimnya hanya mengendalikan teks biasa atau PDF, mengabaikan hamparan elektronik, dokumen Word, HTML, dan Markdown
Chunking Lemah — Pembahagian teks naif mengabaikan struktur dokumen (halaman, helaian, tajuk), menghasilkan chunk yang miskin konteks
Jurang Kata Kunci — Carian berasaskan embedding tulen terlepas padanan kata kunci tepat yang dapat dikesan oleh carian leksikal
Ketidakupayaan Hamparan Elektronik — Sistem RAG tidak dapat mengendalikan data berstruktur jadual atau menjawab pertanyaan penapisan/pengagregatan
Tiada Reranking — Pengambilan pertama sering menghasilkan keputusan yang hanya sebahagian relevan tanpa penapis kualiti laluan kedua

Kami membina sistem RAG mendahulukan lokal yang lengkap dengan pengambilan dokumen pelbagai format, chunking berstruktur, penjanaan embedding lokal, saluran carian hibrid (semantik + teks penuh + kebaharuan), reranking cross-encoder, dan UI berasaskan web — semuanya berjalan sepenuhnya pada mesin pengguna.

Seni Bina

Pemuat Dokumen: Penganalisis khusus format untuk PDF, DOCX, XLSX, CSV, HTML, Markdown, dan teks biasa
Chunker: Pembahagian berstruktur yang mengekalkan sempadan halaman, helaian, dan tajuk
Embeddings: Model embedding lokal melalui Transformers.js (tiada panggilan API luaran)
Pangkalan Data Vektor: LanceDB (serverless, berasaskan fail) untuk penyimpanan embedding dan carian kesamaan
Carian Teks Penuh: Pengindeksan berasaskan trigram untuk padanan leksikal
Reranker: Model cross-encoder untuk penskoran hasil berkonteks
Penganalisis Pertanyaan: Penghalaan pengesanan niat antara pertanyaan semantik dan berstruktur
Pelayan Web: API Express.js dengan pengurusan projek dan titik akhir carian
Frontend: UI berasaskan web untuk muat naik dokumen, pengurusan, dan carian interaktif

Saluran Pemprosesan Dokumen

Pemuat Pelbagai Format

Corak pendaftaran mengesan jenis fail secara automatik dan menghantar ke penganalisis yang sesuai:

PDF — Pengekstrakan teks dengan segmentasi peringkat halaman
Word (.docx/.doc) — Penganalisisan peka tajuk yang mengekalkan hierarki dokumen
Excel/CSV — Penganalisisan helaian demi helaian dengan pengesanan pengepala dan kandungan peringkat baris
HTML — Pengekstrakan peka tag dengan pemeliharaan struktur
Markdown — Penganalisisan bahagian berasaskan tajuk
Teks Biasa — Segmentasi berasaskan baris

Setiap pemuat mengekstrak metadata (tajuk, pengarang, tarikh penciptaan, kiraan halaman/helaian, kiraan perkataan) bersama-sama kandungan, menghasilkan bahagian berstruktur dengan rujukan sumber.

Chunking Berstruktur

Berbeza dengan pembahagian teks naif, chunker menghormati sempadan dokumen:

Mengekalkan pemisah halaman (PDF), sempadan helaian (hamparan elektronik), dan hierarki tajuk (Word/Markdown)
Saiz berasaskan token dengan saiz chunk dan pertindihan yang boleh dikonfigurasi
Ganti rugi hierarki: membahagi mengikut bahagian dahulu, kemudian perenggan, kemudian ayat
Setiap chunk mengekalkan metadata sumber (nombor halaman, nama helaian, tajuk) untuk atribusi

Embedding & Pengindeksan

Model Embedding Lokal

Berjalan sepenuhnya secara lokal melalui Transformers.js — tiada data meninggalkan mesin
Model terkuantitasi untuk pengoptimuman prestasi
Batch embedding untuk pemprosesan pukal yang cekap
Pemotongan automatik pada sempadan perkataan dengan normalisasi L2

Storan Vektor

LanceDB menyediakan storan vektor serverless:

Berasaskan fail (tiada pelayan pangkalan data berasingan diperlukan)
Pengasingan setiap projek dengan indeks bebas
Kekunci cache berasaskan SHA256 untuk deduplikasi
Metadata disimpan bersama vektor untuk pengambilan yang ditapis

Saluran Carian Hibrid

Saluran pengambilan menggabungkan tiga isyarat ranking untuk hasil yang lebih baik daripada mana-mana satu pendekatan:

Isyarat 1: Carian Embedding (Semantik)

Carian kesamaan vektor menemui chunk dengan makna berkaitan walaupun perkataan yang berbeza digunakan. Mengendalikan parafrasa, sinonim, dan pertanyaan konseptual.

Isyarat 2: Carian Teks Penuh (Leksikal)

Pengindeksan berasaskan trigram dengan kesamaan Jaccard menangkap padanan kata kunci tepat yang mungkin terlepas oleh carian embedding — penting untuk istilah teknikal, nama, dan pengecam.

Isyarat 3: Peningkatan Kebaharuan

Pembobotan pereputan eksponen mengutamakan dokumen yang baru diakses atau diubah suai, memastikan maklumat terkini muncul dahulu.

Gabungan Skor

Isyarat digabungkan dengan pemberat yang boleh dikonfigurasi (lalai: 50% semantik, 25% leksikal, 25% kebaharuan), dinormalisasi, dan ditapis oleh ambang skor minimum.

Reranking Cross-Encoder

Selepas pengambilan awal, model cross-encoder menyemak semula skor calon teratas:

Penskoran peka konteks mempertimbangkan pasangan pertanyaan-dokumen bersama-sama (bukan secara bebas)
Pengiraan peningkatan kata kunci untuk pertindihan istilah
Penskoran campuran (cross-encoder + isyarat kata kunci)
Menghasilkan senarai kedudukan akhir dengan ketepatan yang lebih tinggi berbanding pengambilan laluan pertama sahaja

Sokongan Data Berstruktur

Untuk kandungan hamparan elektronik, sistem menyediakan keupayaan tambahan:

Pengesanan automatik jenis lajur (numerik, tarikh, boolean, rentetan)
Penapisan bahasa semula jadi (cth., "pekerja dalam kejuruteraan dengan gaji melebihi ambang")
Sokongan pengagregatan (kiraan, jumlah, purata, min, maks)
Penganalisis pertanyaan menghalakan pertanyaan berstruktur ke enjin khusus berbanding carian embedding

Antara Muka Web

Pengurusan Projek — Mencipta, mengemas kini, dan memadam projek pangkalan pengetahuan
Muat Naik Dokumen — Muat naik fail seret dan lepas dengan pengesanan format automatik
Penciptaan Dokumen — Mencipta dokumen daripada teks secara terus dalam UI
Carian Interaktif — Antara muka pertanyaan bahasa semula jadi dengan hasil yang diberi ranking
Statistik — Saiz indeks, kiraan dokumen, dan pengedaran format bagi setiap projek

Ciri-Ciri Utama

Sepenuhnya Lokal — Semua pemprosesan pada peranti; tiada panggilan API luaran untuk embeddings atau carian
9 Format Input — PDF, DOCX, DOC, XLSX, XLS, CSV, HTML, Markdown, teks biasa
Chunking Berstruktur — Mengekalkan halaman, helaian, dan tajuk sebagai sempadan chunk
Carian Hibrid — Menggabungkan isyarat semantik, leksikal, dan kebaharuan untuk pengambilan yang lebih baik
Reranking Cross-Encoder — Penskoran laluan kedua untuk hasil ketepatan yang lebih tinggi
Pertanyaan Berstruktur — Penapisan dan pengagregatan bahasa semula jadi pada data hamparan elektronik
LanceDB Vektor DB Tanpa Pelayan — Storan berasaskan fail LanceDB tanpa overhed infrastruktur
Penulisan Dokumen — Keupayaan eksport untuk penciptaan PDF, DOCX, dan XLSX
Pengasingan Projek — Pangkalan pengetahuan bebas dengan indeks berasingan
UI Web — Antara muka lengkap untuk pengurusan dokumen dan carian interaktif

Sistem RAG Dokumen Mendahulukan Lokal dengan Carian Hibrid & Sokongan Pelbagai Format

Cabaran

Penyelesaian Kami

Seni Bina

Saluran Pemprosesan Dokumen

Pemuat Pelbagai Format

Chunking Berstruktur

Embedding & Pengindeksan

Model Embedding Lokal

Storan Vektor

Saluran Carian Hibrid

Isyarat 1: Carian Embedding (Semantik)

Isyarat 2: Carian Teks Penuh (Leksikal)

Isyarat 3: Peningkatan Kebaharuan

Gabungan Skor

Reranking Cross-Encoder

Sokongan Data Berstruktur

Antara Muka Web

Ciri-Ciri Utama

Keputusan

Timbunan Teknologi

caseStudyDetail.more Kajian Kes

Analisis Hamparan & Dokumen Dikuasakan AI dengan Orkestrasi Berbilang Ejen dan Rujukan Silang Dokumen

Pemprosesan Invois Berkuasa AI dengan OCR dan Integrasi QuickBooks

Bersedia untuk Mentransformasi Perniagaan Anda?

Penyisipan Iklan Sisi Klien (CSAI) dengan Penghuraian Penanda SCTE-35 & Integrasi Pemain Berbilang Platform

Soalan Lazim