Apa itu sistem RAG local-first, dan mengapa saya ingin pemrosesan dokumen terjadi secara on-premises alih-alih di cloud?

MicrocosmWorks membangun sistem RAG local-first di mana semua penyerapan dokumen, pembuatan embedding, penyimpanan vektor, dan inferensi LLM berjalan sepenuhnya di infrastruktur Anda tanpa mengirimkan data apa pun ke API cloud eksternal. Arsitektur ini sangat penting bagi organisasi yang menangani dokumen rahasia, materi yang dilindungi hak istimewa pengacara-klien, atau kekayaan intelektual sensitif di mana persyaratan kedaulatan data melarang pemrosesan cloud apa pun, bahkan dengan enkripsi.

Bagaimana hybrid search menggabungkan keyword search dan semantic search untuk menghasilkan hasil yang lebih baik daripada salah satu pendekatan saja?

MicrocosmWorks mengimplementasikan sebuah hybrid retrieval pipeline yang menjalankan BM25 keyword search dan dense vector semantic search secara paralel, kemudian menggunakan reciprocal rank fusion untuk menggabungkan dan menyusun ulang hasil gabungan sebelum meneruskannya ke LLM sebagai konteks. Pendekatan ini menangkap kueri pencocokan tepat seperti kode produk dan kutipan hukum yang terlewatkan oleh semantic search, sekaligus mengambil konten yang terkait secara konseptual yang tidak akan pernah ditemukan oleh keyword search.

Format dokumen apa saja yang didukung oleh sistem RAG lokal, dan bagaimana penanganannya terhadap PDF yang dipindai?

MicrocosmWorks membangun parser khusus format untuk PDF, DOCX, XLSX, PPTX, HTML, Markdown, dan teks biasa, dengan pipeline OCR menggunakan Tesseract untuk PDF yang dipindai dan dokumen berbasis gambar. Sistem secara otomatis mendeteksi apakah sebuah PDF berisi teks yang dapat dipilih atau memerlukan OCR, menerapkan analisis tata letak untuk mempertahankan struktur tabel dan urutan pembacaan, dan membagi dokumen menggunakan batas semantik daripada batas karakter arbitrer untuk meningkatkan kualitas pengambilan.

Bagaimana sistem menangani pembaruan dokumen tanpa mengindeks ulang seluruh korpus?

MicrocosmWorks mengimplementasikan incremental indexing yang melacak document checksums dan hanya memproses ulang berkas yang telah berubah sejak ingestion run terakhir. Dokumen yang diperbarui akan dihapus chunk lamanya dan chunk baru disisipkan secara atomik, sehingga indeks pencarian tidak pernah dalam keadaan tidak konsisten. Sistem juga mendukung versioned document retrieval, memungkinkan pengguna untuk membuat kueri terhadap versi dokumen historis saat dibutuhkan untuk tujuan audit atau kepatuhan.

Perangkat keras apa yang diperlukan untuk menjalankan sistem RAG lokal dengan kinerja yang dapat diterima?

MicrocosmWorks mengoptimalkan pipeline RAG lokal untuk berjalan pada perangkat keras yang tidak terlalu canggih, dengan konfigurasi minimum yang direkomendasikan adalah mesin dengan 32GB RAM, 8 core CPU, dan secara opsional GPU kelas menengah untuk pembuatan embedding yang dipercepat. Untuk organisasi tanpa perangkat keras GPU, sistem kembali menggunakan model embedding berbasis CPU dengan latensi sedikit lebih tinggi, dan database vektor dioptimalkan untuk penyimpanan SSD untuk menjaga waktu respons kueri di bawah 200ms untuk korpora hingga 1 juta potongan dokumen.

Local-First Document RAG System with Hybrid Search & Mult...

Sistem RAG Dokumen Lokal-Pertama dengan Pencarian Hibrida & Dukungan Multi-Format

Sebuah tim yang mengembangkan alat untuk developer membutuhkan sistem kecerdasan dokumen yang sepenuhnya lokal, menjaga privasi, yang dapat menyerap berbagai format file, membangun basis pengetahuan yang dapat dicari, dan menjawab pertanyaan bahasa alami menggunakan Retrieval-Augmented Generation — tanpa mengirim data apa pun ke API eksternal.

Diskusikan Proyek Anda

Solusi RAG yang ada memiliki batasan signifikan untuk kasus penggunaan yang mementingkan privasi dan berfokus pada developer:

Ketergantungan API Eksternal — Kebanyakan alat RAG memerlukan pengiriman konten dokumen ke API embedding berbasis cloud, melanggar persyaratan privasi
Dukungan Format Terbatas — Solusi biasanya hanya menangani teks biasa atau PDF, mengabaikan spreadsheet, dokumen Word, HTML, dan Markdown
Chunking yang Buruk — Pemisahan teks yang naif mengabaikan struktur dokumen (halaman, lembar, judul), menciptakan chunk yang miskin konteks
Kesenjangan Kata Kunci — Pencarian berbasis embedding murni melewatkan kecocokan kata kunci yang tepat yang akan ditangkap oleh pencarian leksikal
Ketidakmampuan Memproses Spreadsheet — Sistem RAG tidak dapat menangani data tabular terstruktur atau menjawab pertanyaan penyaringan/agregasi
Tanpa Reranking — Pengambilan lintasan pertama sering kali memunculkan hasil yang hanya relevan sebagian tanpa filter kualitas lintasan kedua

Kami membangun sistem RAG lokal-pertama yang lengkap dengan penyerapan dokumen multi-format, chunking yang peka struktur, pembuatan embedding lokal, pipeline pencarian hibrida (semantik + teks lengkap + kebaruan), reranking cross-encoder, dan UI berbasis web — semuanya berjalan sepenuhnya di mesin pengguna.

Arsitektur

Pemuat Dokumen: Parser spesifik format untuk PDF, DOCX, XLSX, CSV, HTML, Markdown, dan teks biasa
Chunker: Pemisahan yang peka struktur yang mempertahankan batas halaman, lembar, dan judul
Embeddings: Model embedding lokal melalui Transformers.js (tanpa panggilan API eksternal)
Basis Data Vektor: LanceDB (serverless, berbasis file) untuk penyimpanan embedding dan pencarian kemiripan
Pencarian Teks Lengkap: Pengindeksan berbasis trigram untuk pencocokan leksikal
Reranker: Model cross-encoder untuk penilaian hasil yang peka konteks
Penganalisis Kueri: Perutean deteksi maksud antara kueri semantik dan terstruktur
Server Web: API Express.js dengan manajemen proyek dan endpoint pencarian
Frontend: UI berbasis web untuk unggah dokumen, manajemen, dan pencarian interaktif

Pipeline Pemrosesan Dokumen

Pemuat Multi-Format

Pola registri secara otomatis mendeteksi jenis file dan merutekannya ke parser yang sesuai:

PDF — Ekstraksi teks dengan segmentasi tingkat halaman
Word (.docx/.doc) — Parsing peka judul yang mempertahankan hierarki dokumen
Excel/CSV — Parsing lembar demi lembar dengan deteksi header dan konten tingkat baris
HTML — Ekstraksi peka tag dengan pelestarian struktur
Markdown — Parsing bagian berbasis judul
Teks Biasa — Segmentasi berbasis baris

Setiap pemuat mengekstrak metadata (judul, penulis, tanggal pembuatan, jumlah halaman/lembar, jumlah kata) di samping konten, menghasilkan bagian terstruktur dengan referensi sumber.

Chunking yang Peka Struktur

Tidak seperti pemisahan teks yang naif, chunker menghormati batas dokumen:

Mempertahankan pemisah halaman (PDF), batas lembar (spreadsheet), dan hierarki judul (Word/Markdown)
Penentuan ukuran berbasis token dengan ukuran chunk dan tumpang tindih yang dapat dikonfigurasi
Hierarchical fallback: membagi berdasarkan bagian terlebih dahulu, lalu paragraf, lalu kalimat
Setiap chunk mempertahankan metadata sumber (nomor halaman, nama lembar, judul) untuk atribusi

Embedding & Pengindeksan

Model Embedding Lokal

Berjalan sepenuhnya secara lokal melalui Transformers.js — tidak ada data yang meninggalkan mesin
Model terkuantisasi untuk optimasi kinerja
Embedding batch untuk pemrosesan massal yang efisien
Pemotongan otomatis pada batas kata dengan normalisasi L2

Penyimpanan Vektor

LanceDB menyediakan penyimpanan vektor serverless:

Berbasis file (tidak memerlukan server basis data terpisah)
Isolasi per proyek dengan indeks independen
Kunci cache berbasis SHA256 untuk deduplikasi
Metadata disimpan di samping vektor untuk pengambilan yang difilter

Pipeline Pencarian Hibrida

Pipeline pengambilan menggabungkan tiga sinyal peringkat untuk hasil yang lebih baik daripada pendekatan tunggal mana pun:

Sinyal 1: Pencarian Embedding (Semantik)

Pencarian kemiripan vektor menemukan chunk dengan makna terkait bahkan ketika kata-kata yang berbeda digunakan. Menangani parafrasa, sinonim, dan kueri konseptual.

Sinyal 2: Pencarian Teks Lengkap (Leksikal)

Pengindeksan berbasis trigram dengan kemiripan Jaccard menangkap kecocokan kata kunci yang tepat yang mungkin dilewatkan oleh pencarian embedding — penting untuk istilah teknis, nama, dan pengidentifikasi.

Sinyal 3: Peningkatan Kebaruan

Pembobotan peluruhan eksponensial mengutamakan dokumen yang baru diakses atau dimodifikasi, memastikan informasi terkini muncul pertama.

Kombinasi Skor

Sinyal digabungkan dengan bobot yang dapat dikonfigurasi (default: 50% semantik, 25% leksikal, 25% kebaruan), dinormalisasi, dan disaring oleh ambang batas skor minimum.

Reranking Cross-Encoder

Setelah pengambilan awal, model cross-encoder menilai ulang kandidat teratas:

Penilaian yang peka konteks mempertimbangkan pasangan kueri-dokumen bersama-sama (tidak secara independen)
Perhitungan peningkatan kata kunci untuk tumpang tindih istilah
Penilaian campuran (cross-encoder + sinyal kata kunci)
Menghasilkan daftar peringkat akhir dengan presisi lebih tinggi daripada pengambilan lintasan pertama saja

Dukungan Data Terstruktur

Untuk konten spreadsheet, sistem menyediakan kemampuan tambahan:

Deteksi otomatis jenis kolom (numerik, tanggal, boolean, string)
Pemfilteran bahasa alami (misalnya, "karyawan di bidang teknik dengan gaji di atas ambang batas")
Dukungan agregasi (count, sum, average, min, max)
Penganalisis kueri merutekan kueri terstruktur ke mesin khusus daripada pencarian embedding

Antarmuka Web

Manajemen Proyek — Membuat, memperbarui, dan menghapus proyek basis pengetahuan
Unggah Dokumen — Unggah file drag-and-drop dengan deteksi format otomatis
Pembuatan Dokumen — Membuat dokumen dari teks langsung di UI
Pencarian Interaktif — Antarmuka kueri bahasa alami dengan hasil peringkat
Statistik — Ukuran indeks, jumlah dokumen, dan distribusi format per proyek

Fitur Utama

Sepenuhnya Lokal — Semua pemrosesan di perangkat; tanpa panggilan API eksternal untuk embedding atau pencarian
9 Format Input — PDF, DOCX, DOC, XLSX, XLS, CSV, HTML, Markdown, teks biasa
Chunking yang Peka Struktur — Mempertahankan halaman, lembar, dan judul sebagai batas chunk
Pencarian Hibrida — Menggabungkan sinyal semantik, leksikal, dan kebaruan untuk pengambilan yang lebih baik
Reranking Cross-Encoder — Penilaian lintasan kedua untuk hasil presisi lebih tinggi
Kueri Terstruktur — Pemfilteran dan agregasi bahasa alami pada data spreadsheet
DB Vektor Serverless — Penyimpanan berbasis file LanceDB tanpa overhead infrastruktur
Penulisan Dokumen — Kemampuan ekspor untuk pembuatan PDF, DOCX, dan XLSX
Isolasi Proyek — Basis pengetahuan independen dengan indeks terpisah
UI Web — Antarmuka lengkap untuk manajemen dokumen dan pencarian interaktif

Sistem RAG Dokumen Lokal-Pertama dengan Pencarian Hibrida & Dukungan Multi-Format

Tantangan

Solusi Kami

Arsitektur

Pipeline Pemrosesan Dokumen

Pemuat Multi-Format

Chunking yang Peka Struktur

Embedding & Pengindeksan

Model Embedding Lokal

Penyimpanan Vektor

Pipeline Pencarian Hibrida

Sinyal 1: Pencarian Embedding (Semantik)

Sinyal 2: Pencarian Teks Lengkap (Leksikal)

Sinyal 3: Peningkatan Kebaruan

Kombinasi Skor

Reranking Cross-Encoder

Dukungan Data Terstruktur

Antarmuka Web

Fitur Utama

Hasil

Tumpukan Teknologi

caseStudyDetail.more Studi Kasus

Analisis Spreadsheet & Dokumen Didukung AI dengan Orkes Multi-Agen dan Referensi Lintas Dokumen

Pemrosesan Faktur Bertenaga AI dengan OCR dan Integrasi QuickBooks

Siap Mentransformasi Bisnis Anda?

Penyisipan Iklan Sisi Klien (CSAI) dengan Penguraian Penanda SCTE-35 & Integrasi Pemutar Multi-Platform

Pertanyaan yang Sering Diajukan