Sistem RAG Dokumen Lokal-Pertama dengan Carian Hibrid & Sokongan Pelbagai Format
Sebuah pasukan yang membangunkan alatan pembangun memerlukan sistem kecerdasan dokumen yang beroperasi sepenuhnya secara lokal, memelihara privasi, yang boleh menyerap pelbagai format fail, membina pangkalan pengetahuan yang boleh dicari, dan menjawab pertanyaan bahasa semula jadi menggunakan Retrieval-Augmented Generation โ tanpa menghantar sebarang data kepada API luaran.
Bincangkan Projek Anda
Cabaran
Penyelesaian RAG sedia ada mempunyai batasan yang ketara untuk kes penggunaan yang mementingkan privasi dan berfokuskan pembangun:
- Kebergantungan API Luaran โ Kebanyakan alatan RAG memerlukan penghantaran kandungan dokumen ke API embedding berasaskan awan, melanggar keperluan privasi
- Sokongan Format Terhad โ Penyelesaian biasanya hanya mengendalikan teks biasa atau PDF, mengabaikan hamparan, dokumen Word, HTML, dan Markdown
- Pengecilan Chunks Yang Lemah โ Pemisahan teks yang naif mengabaikan struktur dokumen (halaman, helaian, tajuk), menghasilkan chunks yang kurang konteks
- Jurang Kata Kunci โ Carian berasaskan embedding tulen terlepas padanan kata kunci tepat yang akan ditangkap oleh carian leksikal
- Ketidakupayaan Hamparan โ Sistem RAG tidak dapat mengendalikan data berjadual berstruktur atau menjawab pertanyaan penapisan/pengagregatan
- Tiada Penyusunan Semula โ Pengambilan awal sering memunculkan hasil yang hanya relevan sebahagiannya tanpa penapis kualiti langkah kedua
Penyelesaian Kami
Kami membina sistem RAG lokal-pertama yang lengkap dengan penyerapan dokumen pelbagai format, pengecilan chunks yang peka struktur, penjanaan embedding lokal, saluran carian hibrid (semantik + teks penuh + kebaharuan), penyusunan semula cross-encoder, dan UI berasaskan web โ semuanya berjalan sepenuhnya pada mesin pengguna.
Seni Bina
- Pemuat Dokumen: Penghurai khusus format untuk PDF, DOCX, XLSX, CSV, HTML, Markdown, dan teks biasa
- Pengecil Chunks: Pemisahan peka struktur yang memelihara sempadan halaman, helaian, dan tajuk
- Embedding: Model embedding lokal melalui Transformers.js (tiada panggilan API luaran)
- Pangkalan Data Vektor: LanceDB (tanpa pelayan, berasaskan fail) untuk penyimpanan embedding dan carian kesamaan
- Carian Teks Penuh: Pengindeksan berasaskan trigram untuk padanan leksikal
- Penyusun Semula: Model cross-encoder untuk pemarkahan hasil yang peka konteks
- Penganalisis Pertanyaan: Penghalaan pengesanan niat antara pertanyaan semantik dan berstruktur
- Pelayan Web: API Express.js dengan pengurusan projek dan titik akhir carian
- Bahagian Hadapan: UI berasaskan web untuk muat naik, pengurusan, dan carian interaktif dokumen
Saluran Pemprosesan Dokumen
Pemuat Pelbagai Format
Corak pendaftaran mengesan jenis fail secara automatik dan menghalakan ke penghurai yang sesuai:
- PDF โ Pengekstrakan teks dengan segmentasi peringkat halaman
- Word (.docx/.doc) โ Penghuraian peka tajuk memelihara hierarki dokumen
- Excel/CSV โ Penghuraian helaian demi helaian dengan pengesanan pengepala dan kandungan peringkat baris
- HTML โ Pengekstrakan peka tag dengan pemeliharaan struktur
- Markdown โ Penghuraian bahagian berasaskan tajuk
- Teks Biasa โ Segmentasi berasaskan baris
Setiap pemuat mengekstrak metadata (tajuk, pengarang, tarikh penciptaan, kiraan halaman/helaian, kiraan perkataan) bersama kandungan, menghasilkan bahagian berstruktur dengan rujukan sumber.
Pengecilan Chunks Peka Struktur
Tidak seperti pemisahan teks naif, pengecil chunks menghormati sempadan dokumen:
- Memelihara pemisahan halaman (PDF), sempadan helaian (hamparan), dan hierarki tajuk (Word/Markdown)
- Saiz berasaskan token dengan saiz chunk dan pertindihan yang boleh dikonfigurasi
- Sandaran hierarki: memisahkan mengikut bahagian dahulu, kemudian perenggan, kemudian ayat
- Setiap chunk mengekalkan metadata sumber (nombor halaman, nama helaian, tajuk) untuk atribusi
Embedding & Pengindeksan
Model Embedding Lokal
- Berjalan sepenuhnya secara lokal melalui Transformers.js โ tiada data meninggalkan mesin
- Model terkuantisasi untuk pengoptimuman prestasi
- Embedding kelompok untuk pemprosesan pukal yang cekap
- Pemotongan automatik pada sempadan perkataan dengan normalisasi L2
Penyimpanan Vektor
LanceDB menyediakan penyimpanan vektor tanpa pelayan:
- Berasaskan fail (tiada pelayan pangkalan data berasingan diperlukan)
- Pengasingan setiap projek dengan indeks bebas
- Kunci cache berasaskan SHA256 untuk penyahduplikasi
- Metadata disimpan bersama vektor untuk pengambilan yang ditapis
Saluran Carian Hibrid
Saluran pengambilan menggabungkan tiga isyarat ranking untuk hasil yang lebih baik daripada mana-mana pendekatan tunggal:
Isyarat 1: Carian Embedding (Semantik)
Carian kesamaan vektor menemui chunks dengan makna yang berkaitan walaupun perkataan yang berbeza digunakan. Mengendalikan parafrasa, sinonim, dan pertanyaan konseptual.
Isyarat 2: Carian Teks Penuh (Leksikal)
Pengindeksan berasaskan trigram dengan kesamaan Jaccard menangkap padanan kata kunci tepat yang mungkin terlepas oleh carian embedding โ penting untuk istilah teknikal, nama, dan pengecam.
Isyarat 3: Peningkatan Kebaharuan
Pemberatan pereputan eksponen mengutamakan dokumen yang baru diakses atau diubah suai, memastikan maklumat terkini muncul dahulu.
Gabungan Skor
Isyarat digabungkan dengan pemberat yang boleh dikonfigurasi (lalai: 50% semantik, 25% leksikal, 25% kebaharuan), dinormalisasi, dan ditapis oleh ambang skor minimum.
Penyusunan Semula Cross-Encoder
Selepas pengambilan awal, model cross-encoder menilai semula calon teratas:
- Pemarkahan peka konteks mempertimbangkan pasangan pertanyaan-dokumen bersama (bukan secara bebas)
- Pengiraan peningkatan kata kunci untuk pertindihan istilah
- Pemarkahan campuran (cross-encoder + isyarat kata kunci)
- Menghasilkan senarai kedudukan akhir dengan ketepatan yang lebih tinggi daripada pengambilan awal sahaja
Sokongan Data Berstruktur
Untuk kandungan hamparan, sistem menyediakan keupayaan tambahan:
- Pengesanan automatik jenis lajur (numerik, tarikh, boolean, rentetan)
- Penapisan bahasa semula jadi (cth., "pekerja dalam kejuruteraan dengan gaji melebihi ambang")
- Sokongan pengagregatan (kiraan, jumlah, purata, min, maks)
- Penganalisis pertanyaan menghalakan pertanyaan berstruktur kepada enjin khusus berbanding carian embedding
Antara Muka Web
- Pengurusan Projek โ Cipta, kemas kini, dan padam projek pangkalan pengetahuan
- Muat Naik Dokumen โ Muat naik fail seret-dan-lepas dengan pengesanan format automatik
- Penciptaan Dokumen โ Cipta dokumen daripada teks secara langsung dalam UI
- Carian Interaktif โ Antara muka pertanyaan bahasa semula jadi dengan hasil yang berkedudukan
- Statistik โ Saiz indeks, kiraan dokumen, dan agihan format setiap projek
Ciri-ciri Utama
- Sepenuhnya Lokal โ Semua pemprosesan pada peranti; tiada panggilan API luaran untuk embedding atau carian
- 9 Format Input โ PDF, DOCX, DOC, XLSX, XLS, CSV, HTML, Markdown, teks biasa
- Pengecilan Chunks Peka Struktur โ Memelihara halaman, helaian, dan tajuk sebagai sempadan chunk
- Carian Hibrid โ Menggabungkan isyarat semantik, leksikal, dan kebaharuan untuk pengambilan yang lebih baik
- Penyusunan Semula Cross-Encoder โ Pemarkahan langkah kedua untuk hasil ketepatan yang lebih tinggi
- Pertanyaan Berstruktur โ Penapisan dan pengagregatan bahasa semula jadi pada data hamparan
- Pangkalan Data Vektor Tanpa Pelayan โ Penyimpanan berasaskan fail LanceDB tanpa kos overhead infrastruktur
- Penulisan Dokumen โ Keupayaan eksport untuk penciptaan PDF, DOCX, dan XLSX
- Pengasingan Projek โ Pangkalan pengetahuan bebas dengan indeks berasingan
- UI Web โ Antara muka lengkap untuk pengurusan dokumen dan carian interaktif
Keputusan
Timbunan Teknologi
caseStudyDetail.more Kajian Kes
Terokai lebih banyak pelaksanaan teknikal kami
Analisis Hamparan & Dokumen Dikuasakan AI dengan Orkestrasi Berbilang Ejen dan Rujukan Silang Dokumen
Pasukan data perusahaan memerlukan keupayaan untuk menganalisis, menanyakan, dan menyunting koleksi besar hamparan dan dokumen (Excel, CSV, Google Sheets, PDF, Word docs) menggunakan bahasa semula jadi โ dengan keupayaan untuk membuat rujukan silang data merentasi pelbagai fail dan melaksanakan aliran kerja analisis berbilang langkah tanpa pemanipulasian data secara manual.
Pemprosesan Invois Berkuasa AI dengan OCR dan Integrasi QuickBooks
Sebuah perniagaan bersaiz sederhana yang memproses ratusan invois vendor setiap bulan perlu menghapuskan kemasukan data manual dengan mengekstrak data invois secara automatik menggunakan AI/OCR dan menyegerakkannya terus ke dalam QuickBooks untuk tujuan simpan kira dan penjejakan pembayaran.
Bersedia untuk Mentransformasi Perniagaan Anda?
Mari bincangkan bagaimana kami boleh mengaplikasikan penyelesaian serupa untuk cabaran anda.