Analisis Spreadsheet & Dokumen Didukung AI dengan Orkes Multi-Agen dan Referensi Lintas Dokumen
Sebuah tim data perusahaan perlu menganalisis, mengkueri, dan mengedit koleksi besar spreadsheet dan dokumen (Excel, CSV, Google Sheets, PDF, Word docs) menggunakan bahasa alami โ dengan kemampuan untuk mereferensikan data di seluruh beberapa file dan menjalankan alur kerja analitis multi-langkah tanpa penanganan data manual.
Diskusikan Proyek Anda
Tantangan
Bekerja dengan dokumen bisnis dalam skala besar penuh dengan hambatan:
- Data Terisolasi โ Informasi penting tersebar di puluhan spreadsheet, PDF, dan dokumen Word tanpa cara untuk mengkueri di antaranya
- Referensi Silang Manual โ Membandingkan daftar harga vendor (Excel) dengan ketentuan kontrak (PDF) dengan riwayat faktur (CSV) memerlukan berjam-jam pencarian manual
- Keterbatasan Formula โ Pertanyaan analitis kompleks tidak dapat dijawab hanya dengan formula spreadsheet
- Batas Jendela Konteks โ Spreadsheet besar (50.000+ baris) melebihi jendela konteks LLM, membuat pendekatan naif gagal
- Tanpa Kemampuan Edit โ Alat AI yang ada dapat menganalisis dokumen tetapi tidak dapat menulis perubahan kembali ke file sumber
- Penalaran Multi-Langkah โ Pertanyaan yang memerlukan analisis berurutan di seluruh dokumen memerlukan alur kerja multi-langkah yang terorkestrasi
Solusi Kami
Kami membangun platform intelijen dokumen AI multi-agen dengan pengambilan yang didukung basis data vektor untuk dokumen besar, agen khusus untuk berbagai jenis dokumen, orkestrator untuk penalaran lintas dokumen, dan kemampuan write-back untuk pengeditan spreadsheet.
Arsitektur
- Orkestrator: Agen orkestrator AI yang mengoordinasikan alur kerja multi-langkah di seluruh agen khusus
- Agen Spreadsheet: Menangani analisis Excel/CSV/Google Sheets, pembuatan formula, dan pengeditan sel
- Agen Dokumen: Menangani pembacaan, ekstraksi, dan peringkasan dokumen PDF/Word
- Agen Referensi Silang: Melakukan gabungan (joins), perbandingan, dan rekonsiliasi di seluruh jenis dokumen
- Basis Data Vektor: Milvus untuk pengindeksan semantik potongan dokumen dan baris spreadsheet
- Lapisan LLM: Pendekatan multi-model dengan pemanggilan fungsi
- Backend: Python/FastAPI untuk pemrosesan dokumen dan orkestrasi agen
- Frontend: Dasbor React dengan unggah file, antarmuka chat, dan pratinjau spreadsheet langsung
- Penyimpanan: S3 untuk file asli, PostgreSQL untuk metadata dan pelacakan pekerjaan
Arsitektur Multi-Agen
Peran Agen
1. Agen OrkestratorKoordinator pusat yang menerima kueri pengguna, menguraikannya menjadi sub-tugas, dan mendelegasikannya ke agen khusus. Ini menganalisis niat pengguna, membuat rencana eksekusi, mengelola aliran data antar agen, mengagregasi hasil, dan menangani pemulihan kesalahan.
2. Agen SpreadsheetKhusus untuk operasi data tabular termasuk pemahaman skema, terjemahan bahasa alami ke kueri, agregasi dan pemfilteran, pembuatan formula, pengeditan sel dan pengisian kolom, saran bagan, dan validasi data/deteksi anomali.
3. Agen DokumenKhusus untuk dokumen tidak terstruktur dan semi-terstruktur termasuk OCR dan ekstraksi teks berbasis tata letak, identifikasi bagian, ekstraksi nilai kunci dari kontrak, peringkasan, pencarian klausa semantik, dan ekstraksi tabel dari PDF/Word docs.
4. Agen Referensi SilangKhusus untuk penalaran multi-dokumen termasuk pencocokan entitas di seluruh dokumen, rekonsiliasi data dan identifikasi perbedaan, analisis garis waktu, resolusi ketergantungan untuk data yang bertentangan, dan operasi join seperti SQL di seluruh jenis dokumen.
Lapisan Basis Data Vektor
Mengapa Basis Data Vektor untuk Dokumen
Dokumen dan spreadsheet besar tidak dapat muat dalam satu jendela konteks LLM. Basis data vektor memungkinkan pencarian semantik di seluruh jutaan baris dan potongan dokumen, pengambilan hanya bagian yang relevan per kueri, penghubungan entitas lintas dokumen melalui kemiripan embedding, dan pengindeksan persisten yang tidak memerlukan pemrosesan ulang pada setiap kueri.
Strategi Pengindeksan
Pengindeksan Spreadsheet:Setiap baris diubah menjadi representasi bahasa alami dengan menggabungkan nilai kolom kunci, kemudian di-embed dan disimpan dengan referensi kembali ke file asli, sheet, dan indeks baris untuk operasi write-back.
Pengindeksan Dokumen:Dokumen diekstraksi dengan kesadaran tata letak, dipecah menjadi segmen semantik dengan tumpang tindih, di-embed, dan disimpan dengan referensi ke file sumber, bagian, dan nomor halaman.
Indeks Entitas Lintas Dokumen:Sebuah indeks terpisah menghubungkan entitas (vendor, produk, orang, nomor faktur) di seluruh dokumen, memungkinkan kueri referensi silang untuk dengan cepat menemukan semua penyebutan entitas terlepas dari file sumber.
Pipeline Pengambilan
Ketika pengguna mengajukan pertanyaan lintas dokumen, orkestrator mengidentifikasi dokumen dan agen mana yang dibutuhkan, melakukan pencarian vektor untuk menemukan data yang relevan di semua sumber, mendelegasikannya ke agen khusus untuk pemrosesan, dan mengagregasi hasil menjadi respons yang koheren.
Mesin Orkes
Dekomposisi Kueri
Orkestrator memecah kueri kompleks menjadi rencana eksekusi multi-langkah. Contohnya, pertanyaan seperti "Temukan vendor dengan keterlambatan pengiriman, periksa klausa penalti kontrak, dan hitung penalti yang dapat diklaim" akan diuraikan menjadi langkah-langkah berurutan: mengkueri data pengiriman melalui Agen Spreadsheet, mencari kontrak melalui Agen Dokumen, dan menggabungkan hasil melalui Agen Referensi Silang.
Komunikasi Agen
- Agen berkomunikasi melalui pesan terstruktur dengan payload bertipe
- Orkestrator mempertahankan konteks eksekusi dengan hasil perantara
- Langkah yang gagal memicu strategi coba lagi atau fallback
- Hasil parsial dikembalikan jika beberapa langkah selesai tetapi yang lain gagal
Pengeditan & Write-Back Spreadsheet
Kemampuan Edit
Platform ini mendukung pembaruan sel, pengisian kolom, penyisipan baris, pemformatan bersyarat, pembuatan sheet baru, dan injeksi formula โ semuanya diusulkan oleh agen AI dan diterapkan dengan persetujuan pengguna.
Pipeline Write-Back
- Agen menentukan operasi edit (sel mana, nilai apa)
- Pratinjau edit ditampilkan kepada pengguna dengan penyorotan perbedaan (nilai lama vs. baru)
- Pengguna menyetujui atau mengubah perubahan yang diusulkan
- Backend menerapkan perubahan ke file menggunakan pustaka yang sesuai per format
- File yang dimodifikasi disimpan sebagai versi baru dengan jejak audit edit
- Indeks vektor diperbarui untuk baris yang berubah
Kontrol Versi
- Setiap edit membuat versi file baru (asli tetap dipertahankan)
- Log perbedaan menunjukkan dengan tepat apa yang berubah, kapan, dan mengapa
- Rollback ke versi sebelumnya dengan sekali klik
- Atribusi edit: agen atau pengguna mana yang membuat setiap perubahan
Pipeline Pemrosesan untuk Dokumen Baru
Alur Unggah File
- Pengguna mengunggah file (tarik-dan-lepas atau API)
- Jenis file terdeteksi dan diarahkan ke prosesor yang sesuai
- Spreadsheet: Diurai, skema disimpulkan, baris di-embed dan diindeks
- PDF: OCR (jika dipindai) โ ekstraksi tata letak โ pemotongan (chunking) โ embedding โ pengindeksan
- Dokumen Word: Ekstraksi teks โ penguraian bagian โ pemotongan (chunking) โ embedding โ pengindeksan
- Ekstraksi Entitas: NER mengidentifikasi orang, organisasi, tanggal, jumlah di seluruh dokumen
- Penghubungan Lintas Dokumen: Indeks entitas diperbarui dengan penyebutan baru
- Metadata file disimpan di PostgreSQL, embedding di basis data vektor, file asli di S3
Format yang Didukung
Platform ini mendukung Excel, CSV, dan Google Sheets (dengan write-back penuh), PDF asli dan hasil pindai (hanya baca), serta dokumen Word dan Google Docs (write-back terbatas).
Fitur Utama
- Arsitektur Multi-Agen โ Agen khusus untuk spreadsheet, dokumen, dan referensi silang
- Orkestrator AI โ Menguraikan kueri kompleks menjadi rencana eksekusi multi-langkah
- Referensi Lintas Dokumen โ Penghubungan entitas dan rekonsiliasi data di seluruh jenis file
- Pengambilan Didukung Vektor โ Pencarian semantik menangani dataset di luar batas konteks LLM
- Write-Back Spreadsheet โ AI mengedit sel, mengisi kolom, dan menyuntikkan formula dengan persetujuan pengguna
- Dukungan Dataset Besar โ Spreadsheet 50.000+ baris diindeks dan dapat dikueri melalui pencarian vektor
- Kontrol Versi โ Setiap edit div-versi-kan dengan log perbedaan dan kemampuan rollback
- Kueri Bahasa Alami โ Ajukan pertanyaan analitis kompleks dalam Bahasa Inggris sederhana
- Dukungan Multi-Format โ Excel, CSV, Google Sheets, PDF, Word, Google Docs
- Pratinjau Edit โ Pratinjau yang menyoroti perbedaan sebelum perubahan apa pun diterapkan
Hasil
Tumpukan Teknologi
caseStudyDetail.more Studi Kasus
Jelajahi lebih banyak implementasi teknis kami
Sistem RAG Dokumen Lokal-Pertama dengan Pencarian Hibrida & Dukungan Multi-Format
Sebuah tim yang mengembangkan alat untuk developer membutuhkan sistem kecerdasan dokumen yang sepenuhnya lokal, menjaga privasi, yang dapat menyerap berbagai format file, membangun basis pengetahuan yang dapat dicari, dan menjawab pertanyaan bahasa alami menggunakan Retrieval-Augmented Generation โ tanpa mengirim data apa pun ke API eksternal.
Pemrosesan Faktur Bertenaga AI dengan OCR dan Integrasi QuickBooks
Sebuah bisnis menengah yang memproses ratusan faktur vendor setiap bulan perlu menghilangkan entri data manual dengan mengekstraksi data faktur secara otomatis menggunakan AI/OCR dan menyinkronkannya langsung ke QuickBooks untuk pembukuan dan pelacakan pembayaran.
Siap Mentransformasi Bisnis Anda?
Mari diskusikan bagaimana kami dapat menerapkan solusi serupa untuk tantangan Anda.