Kami membina platform kecerdasan dokumen AI berbilang ejen dengan perolehan disokong pangkalan data vektor untuk dokumen besar, ejen khusus untuk pelbagai jenis dokumen, orkestrator untuk penaakulan silang dokumen, dan keupayaan tulis balik untuk penyuntingan hamparan.
Seni Bina
- Orkestrator: Ejen orkestrator AI menyelaraskan aliran kerja berbilang langkah merentasi ejen-ejen khusus
- Ejen Hamparan: Mengendalikan analisis Excel/CSV/Google Sheets, penjanaan formula, dan suntingan sel
- Ejen Dokumen: Mengendalikan pembacaan, pengekstrakkan, dan ringkasan dokumen PDF/Word
- Ejen Rujukan Silang: Melaksanakan gabungan, perbandingan, dan penyesuaian merentasi jenis dokumen
- Pangkalan Data Vektor: Milvus untuk pengindeksan semantik cebisan dokumen dan baris hamparan
- Lapisan LLM: Pendekatan berbilang model dengan panggilan fungsi
- Backend: Python/FastAPI untuk pemprosesan dokumen dan orkestrasi ejen
- Frontend: Papan pemuka React dengan muat naik fail, antara muka sembang, dan pratonton hamparan langsung
- Storan: S3 untuk fail asal, PostgreSQL untuk metadata dan penjejakan kerja
Seni Bina Berbilang Ejen
Peranan Ejen
1. Ejen Orkestrator
Penyelaras pusat yang menerima pertanyaan pengguna, memecahkannya kepada sub-tugas, dan menyerahkannya kepada ejen-ejen khusus. Ia menganalisis niat pengguna, mencipta pelan pelaksanaan, menguruskan aliran data antara ejen, mengagregatkan hasil, dan mengendalikan pemulihan ralat.
2. Ejen Hamparan
Khusus untuk operasi data berjadual termasuk pemahaman skema, terjemahan bahasa semula jadi kepada pertanyaan, pengagregatan dan penapisan, penjanaan formula, penyuntingan sel dan pengisian lajur, cadangan carta, serta pengesahan data/pengesanan anomali.
3. Ejen Dokumen
Khusus untuk dokumen tidak berstruktur dan separa berstruktur termasuk OCR dan pengekstrakkan teks peka susun atur, pengenalpastian bahagian, pengekstrakkan nilai kunci daripada kontrak, ringkasan, carian klausa semantik, dan pengekstrakkan jadual daripada PDF/Word docs.
4. Ejen Rujukan Silang
Khusus untuk penaakulan berbilang dokumen termasuk padanan entiti merentasi dokumen, penyesuaian data dan pengenalpastian percanggahan, analisis garis masa, penyelesaian kebergantungan untuk data yang bercanggah, dan operasi gabungan seperti SQL merentasi jenis dokumen.
Lapisan Pangkalan Data Vektor
Mengapa Pangkalan Data Vektor untuk Dokumen
Dokumen dan hamparan besar tidak boleh dimuatkan dalam satu tetingkap konteks LLM. Pangkalan data vektor membolehkan carian semantik merentasi berjuta-juta baris dan cebisan dokumen, perolehan hanya bahagian yang relevan bagi setiap pertanyaan, pemautan entiti silang dokumen melalui kesamaan benam, dan pengindeksan berterusan yang tidak memerlukan pemprosesan semula pada setiap pertanyaan.
Strategi Pengindeksan
Pengindeksan Hamparan:
Setiap baris ditukar kepada perwakilan bahasa semula jadi dengan menyambungkan nilai lajur utama, kemudian dibenamkan dan disimpan dengan rujukan kembali ke fail asal, lembaran, dan indeks baris untuk operasi tulis balik.
Pengindeksan Dokumen:
Dokumen diekstrak dengan kesedaran susun atur, dipecahkan kepada segmen semantik dengan pertindihan, dibenamkan, dan disimpan dengan rujukan kepada fail sumber, bahagian, dan nombor halaman.
Indeks Entiti Silang Dokumen:
Indeks berasingan memautkan entiti (vendor, produk, orang, nombor invois) merentasi dokumen, membolehkan pertanyaan rujukan silang untuk mencari semua sebutan entiti dengan cepat tanpa mengira fail sumber.
Saluran Perolehan
Apabila pengguna bertanya soalan silang dokumen, orkestrator mengenal pasti dokumen dan ejen mana yang diperlukan, melakukan carian vektor untuk mencari data yang relevan merentasi semua sumber, menyerahkannya kepada ejen khusus untuk pemprosesan, dan mengagregatkan hasil menjadi respons yang koheren.
Enjin Orkestrasi
Penguraian Pertanyaan
Orkestrator memecahkan pertanyaan kompleks kepada pelan pelaksanaan berbilang langkah. Sebagai contoh, soalan seperti "Cari vendor dengan penghantaran lewat, semak klausa penalti kontrak, dan kira penalti yang boleh dituntut" akan diuraikan menjadi langkah-langkah berurutan: menanyakan data penghantaran melalui Ejen Hamparan, mencari kontrak melalui Ejen Dokumen, dan menggabungkan hasil melalui Ejen Rujukan Silang.
Komunikasi Ejen
- Ejen berkomunikasi melalui mesej berstruktur dengan muatan bertipe
- Orkestrator mengekalkan konteks pelaksanaan dengan hasil pertengahan
- Langkah yang gagal mencetuskan strategi cuba semula atau pulih
- Hasil separa dikembalikan jika beberapa langkah selesai tetapi yang lain gagal
Penyuntingan & Tulis Balik Hamparan
Keupayaan Suntingan
Platform ini menyokong kemas kini sel, pengisian lajur, penyisipan baris, pemformatan bersyarat, penciptaan lembaran baharu, dan suntikan formula โ semuanya dicadangkan oleh ejen AI dan diterapkan dengan kelulusan pengguna.
Saluran Tulis Balik
- Ejen menentukan operasi suntingan (sel mana, nilai apa)
- Pratonton suntingan ditunjukkan kepada pengguna dengan penonjolan perbezaan (nilai lama vs. nilai baharu)
- Pengguna meluluskan atau mengubah suai perubahan yang dicadangkan
- Backend menerapkan perubahan pada fail menggunakan perpustakaan yang sesuai mengikut format
- Fail yang diubah suai disimpan sebagai versi baharu dengan jejak audit suntingan
- Indeks vektor dikemas kini untuk baris yang berubah
Kawalan Versi
- Setiap suntingan mencipta versi fail baharu (asal dikekalkan)
- Log perbezaan menunjukkan dengan tepat apa yang berubah, bila, dan mengapa
- Kembalikan ke versi sebelumnya dengan satu klik
- Atribusi suntingan: ejen atau pengguna mana yang membuat setiap perubahan
Saluran Pemprosesan untuk Dokumen Baharu
Aliran Muat Naik Fail
- Pengguna memuat naik fail (seret dan lepas atau API)
- Jenis fail dikesan dan dihalakan kepada pemproses yang sesuai
- Hamparan: Dihuraikan, skema disimpulkan, baris dibenamkan dan diindeks
- PDF: OCR (jika diimbas) โ pengekstrakkan susun atur โ pemecahan โ pembenaman โ pengindeksan
- Dokumen Word: Pengekstrakkan teks โ penghuraian bahagian โ pemecahan โ pembenaman โ pengindeksan
- Pengekstrakkan Entiti: NER mengenal pasti orang, organisasi, tarikh, jumlah merentasi semua dokumen
- Pemautan Silang Dokumen: Indeks entiti dikemas kini dengan sebutan baharu
- Metadata fail disimpan dalam PostgreSQL, benam dalam pangkalan data vektor, asal dalam S3
Format yang Disokong
Platform ini menyokong Excel, CSV, dan Google Sheets (dengan tulis balik penuh), PDF asli dan diimbas (baca sahaja), serta dokumen Word dan Google Docs (tulis balik terhad).
Ciri Utama
- Seni Bina Berbilang Ejen โ Ejen khusus untuk hamparan, dokumen, dan rujukan silang
- Orkestrator AI โ Menguraikan pertanyaan kompleks kepada pelan pelaksanaan berbilang langkah
- Rujukan Silang Dokumen โ Pemautan entiti dan penyesuaian data merentasi jenis fail
- Perolehan Dikuasakan Vektor โ Carian semantik mengendalikan set data melampaui had konteks LLM
- Tulis Balik Hamparan โ AI menyunting sel, mengisi lajur, dan menyuntik formula dengan kelulusan pengguna
- Sokongan Set Data Besar โ Hamparan 50,000+ baris diindeks dan boleh ditanya melalui carian vektor
- Kawalan Versi โ Setiap suntingan diviversikan dengan log perbezaan dan keupayaan untuk kembali ke versi sebelumnya
- Pertanyaan Bahasa Semula Jadi โ Ajukan soalan analitikal kompleks dalam bahasa Inggeris biasa
- Sokongan Pelbagai Format โ Excel, CSV, Google Sheets, PDF, Word, Google Docs
- Pratonton Suntingan โ Pratonton yang ditonjolkan perbezaan sebelum sebarang perubahan diterapkan