MicrocosmWorksInovasi dan Arsitektur Kosmos Digital
TentangKontak
MicrocosmWorksInovasi dan Arsitektur Digital Cosmos

Menyediakan solusi IT yang penting. Kami bersemangat tentang teknologi, keamanan, dan membantu bisnis tumbuh melalui infrastruktur IT yang andal dan inovatif.

[email protected]
+91 7011868196
New Delhi, India

Pusat Pertumbuhan AI

AI HubInovasi StartupAkselerator Perusahaan

Solusi

Semua SolusiAplikasi Kesehatan & KebugaranPlatform Video AIPengembangan Agen AI

Sumber Daya

WawasanPanduan IndustriCetak Biru Kasus PenggunaanPola ArsitekturStudi Kasus

Perusahaan

Tentang KamiKontakPekerjaan Kami

Layanan

Konsultasi DigitalInfrastruktur CloudPengembangan SaaSPengembangan AITeknologi Video
Pengembangan ERPKustomisasi ZohoPengembangan OdooIntegrasi SalesforcePengembangan CRM Kustom
Integrasi QuickBooksSolusi IoTPengembangan Blockchain
Konsultasi Keamanan SiberDukungan IT - L3

ยฉ 2026 MicrocosmWorks. Semua hak dilindungi.

Kebijakan PrivasiSyarat Layanan
Kembali ke Studi Kasus
Document IntelligenceDipublikasikan June 22, 2026 ยท Diperbarui June 22, 2026

Analisis Spreadsheet & Dokumen Didukung AI dengan Orkes Multi-Agen dan Referensi Lintas Dokumen

Sebuah tim data perusahaan perlu menganalisis, mengkueri, dan mengedit koleksi besar spreadsheet dan dokumen (Excel, CSV, Google Sheets, PDF, Word docs) menggunakan bahasa alami โ€” dengan kemampuan untuk mereferensikan data di seluruh beberapa file dan menjalankan alur kerja analitis multi-langkah tanpa penanganan data manual.

Diskusikan Proyek Anda
spreadsheet-docs-analysis-multi-agent.webp
Document Intelligence
Domain
15
Technologies
6
Key Results
Delivered
Status

Tantangan

Bekerja dengan dokumen bisnis dalam skala besar penuh dengan hambatan:

  • Data Terisolasi โ€” Informasi penting tersebar di puluhan spreadsheet, PDF, dan dokumen Word tanpa cara untuk mengkueri di antaranya
  • Referensi Silang Manual โ€” Membandingkan daftar harga vendor (Excel) dengan ketentuan kontrak (PDF) dengan riwayat faktur (CSV) memerlukan berjam-jam pencarian manual
  • Keterbatasan Formula โ€” Pertanyaan analitis kompleks tidak dapat dijawab hanya dengan formula spreadsheet
  • Batas Jendela Konteks โ€” Spreadsheet besar (50.000+ baris) melebihi jendela konteks LLM, membuat pendekatan naif gagal
  • Tanpa Kemampuan Edit โ€” Alat AI yang ada dapat menganalisis dokumen tetapi tidak dapat menulis perubahan kembali ke file sumber
  • Penalaran Multi-Langkah โ€” Pertanyaan yang memerlukan analisis berurutan di seluruh dokumen memerlukan alur kerja multi-langkah yang terorkestrasi

Solusi Kami

Kami membangun platform intelijen dokumen AI multi-agen dengan pengambilan yang didukung basis data vektor untuk dokumen besar, agen khusus untuk berbagai jenis dokumen, orkestrator untuk penalaran lintas dokumen, dan kemampuan write-back untuk pengeditan spreadsheet.

Arsitektur

  • Orkestrator: Agen orkestrator AI yang mengoordinasikan alur kerja multi-langkah di seluruh agen khusus
  • Agen Spreadsheet: Menangani analisis Excel/CSV/Google Sheets, pembuatan formula, dan pengeditan sel
  • Agen Dokumen: Menangani pembacaan, ekstraksi, dan peringkasan dokumen PDF/Word
  • Agen Referensi Silang: Melakukan gabungan (joins), perbandingan, dan rekonsiliasi di seluruh jenis dokumen
  • Basis Data Vektor: Milvus untuk pengindeksan semantik potongan dokumen dan baris spreadsheet
  • Lapisan LLM: Pendekatan multi-model dengan pemanggilan fungsi
  • Backend: Python/FastAPI untuk pemrosesan dokumen dan orkestrasi agen
  • Frontend: Dasbor React dengan unggah file, antarmuka chat, dan pratinjau spreadsheet langsung
  • Penyimpanan: S3 untuk file asli, PostgreSQL untuk metadata dan pelacakan pekerjaan

Arsitektur Multi-Agen

Peran Agen

1. Agen Orkestrator

Koordinator pusat yang menerima kueri pengguna, menguraikannya menjadi sub-tugas, dan mendelegasikannya ke agen khusus. Ini menganalisis niat pengguna, membuat rencana eksekusi, mengelola aliran data antar agen, mengagregasi hasil, dan menangani pemulihan kesalahan.

2. Agen Spreadsheet

Khusus untuk operasi data tabular termasuk pemahaman skema, terjemahan bahasa alami ke kueri, agregasi dan pemfilteran, pembuatan formula, pengeditan sel dan pengisian kolom, saran bagan, dan validasi data/deteksi anomali.

3. Agen Dokumen

Khusus untuk dokumen tidak terstruktur dan semi-terstruktur termasuk OCR dan ekstraksi teks berbasis tata letak, identifikasi bagian, ekstraksi nilai kunci dari kontrak, peringkasan, pencarian klausa semantik, dan ekstraksi tabel dari PDF/Word docs.

4. Agen Referensi Silang

Khusus untuk penalaran multi-dokumen termasuk pencocokan entitas di seluruh dokumen, rekonsiliasi data dan identifikasi perbedaan, analisis garis waktu, resolusi ketergantungan untuk data yang bertentangan, dan operasi join seperti SQL di seluruh jenis dokumen.

Lapisan Basis Data Vektor

Mengapa Basis Data Vektor untuk Dokumen

Dokumen dan spreadsheet besar tidak dapat muat dalam satu jendela konteks LLM. Basis data vektor memungkinkan pencarian semantik di seluruh jutaan baris dan potongan dokumen, pengambilan hanya bagian yang relevan per kueri, penghubungan entitas lintas dokumen melalui kemiripan embedding, dan pengindeksan persisten yang tidak memerlukan pemrosesan ulang pada setiap kueri.

Strategi Pengindeksan

Pengindeksan Spreadsheet:

Setiap baris diubah menjadi representasi bahasa alami dengan menggabungkan nilai kolom kunci, kemudian di-embed dan disimpan dengan referensi kembali ke file asli, sheet, dan indeks baris untuk operasi write-back.

Pengindeksan Dokumen:

Dokumen diekstraksi dengan kesadaran tata letak, dipecah menjadi segmen semantik dengan tumpang tindih, di-embed, dan disimpan dengan referensi ke file sumber, bagian, dan nomor halaman.

Indeks Entitas Lintas Dokumen:

Sebuah indeks terpisah menghubungkan entitas (vendor, produk, orang, nomor faktur) di seluruh dokumen, memungkinkan kueri referensi silang untuk dengan cepat menemukan semua penyebutan entitas terlepas dari file sumber.

Pipeline Pengambilan

Ketika pengguna mengajukan pertanyaan lintas dokumen, orkestrator mengidentifikasi dokumen dan agen mana yang dibutuhkan, melakukan pencarian vektor untuk menemukan data yang relevan di semua sumber, mendelegasikannya ke agen khusus untuk pemrosesan, dan mengagregasi hasil menjadi respons yang koheren.

Mesin Orkes

Dekomposisi Kueri

Orkestrator memecah kueri kompleks menjadi rencana eksekusi multi-langkah. Contohnya, pertanyaan seperti "Temukan vendor dengan keterlambatan pengiriman, periksa klausa penalti kontrak, dan hitung penalti yang dapat diklaim" akan diuraikan menjadi langkah-langkah berurutan: mengkueri data pengiriman melalui Agen Spreadsheet, mencari kontrak melalui Agen Dokumen, dan menggabungkan hasil melalui Agen Referensi Silang.

Komunikasi Agen

  • Agen berkomunikasi melalui pesan terstruktur dengan payload bertipe
  • Orkestrator mempertahankan konteks eksekusi dengan hasil perantara
  • Langkah yang gagal memicu strategi coba lagi atau fallback
  • Hasil parsial dikembalikan jika beberapa langkah selesai tetapi yang lain gagal

Pengeditan & Write-Back Spreadsheet

Kemampuan Edit

Platform ini mendukung pembaruan sel, pengisian kolom, penyisipan baris, pemformatan bersyarat, pembuatan sheet baru, dan injeksi formula โ€” semuanya diusulkan oleh agen AI dan diterapkan dengan persetujuan pengguna.

Pipeline Write-Back

  1. Agen menentukan operasi edit (sel mana, nilai apa)
  2. Pratinjau edit ditampilkan kepada pengguna dengan penyorotan perbedaan (nilai lama vs. baru)
  3. Pengguna menyetujui atau mengubah perubahan yang diusulkan
  4. Backend menerapkan perubahan ke file menggunakan pustaka yang sesuai per format
  5. File yang dimodifikasi disimpan sebagai versi baru dengan jejak audit edit
  6. Indeks vektor diperbarui untuk baris yang berubah

Kontrol Versi

  • Setiap edit membuat versi file baru (asli tetap dipertahankan)
  • Log perbedaan menunjukkan dengan tepat apa yang berubah, kapan, dan mengapa
  • Rollback ke versi sebelumnya dengan sekali klik
  • Atribusi edit: agen atau pengguna mana yang membuat setiap perubahan

Pipeline Pemrosesan untuk Dokumen Baru

Alur Unggah File

  1. Pengguna mengunggah file (tarik-dan-lepas atau API)
  2. Jenis file terdeteksi dan diarahkan ke prosesor yang sesuai
  3. Spreadsheet: Diurai, skema disimpulkan, baris di-embed dan diindeks
  4. PDF: OCR (jika dipindai) โ†’ ekstraksi tata letak โ†’ pemotongan (chunking) โ†’ embedding โ†’ pengindeksan
  5. Dokumen Word: Ekstraksi teks โ†’ penguraian bagian โ†’ pemotongan (chunking) โ†’ embedding โ†’ pengindeksan
  6. Ekstraksi Entitas: NER mengidentifikasi orang, organisasi, tanggal, jumlah di seluruh dokumen
  7. Penghubungan Lintas Dokumen: Indeks entitas diperbarui dengan penyebutan baru
  8. Metadata file disimpan di PostgreSQL, embedding di basis data vektor, file asli di S3

Format yang Didukung

Platform ini mendukung Excel, CSV, dan Google Sheets (dengan write-back penuh), PDF asli dan hasil pindai (hanya baca), serta dokumen Word dan Google Docs (write-back terbatas).

Fitur Utama

  1. Arsitektur Multi-Agen โ€” Agen khusus untuk spreadsheet, dokumen, dan referensi silang
  2. Orkestrator AI โ€” Menguraikan kueri kompleks menjadi rencana eksekusi multi-langkah
  3. Referensi Lintas Dokumen โ€” Penghubungan entitas dan rekonsiliasi data di seluruh jenis file
  4. Pengambilan Didukung Vektor โ€” Pencarian semantik menangani dataset di luar batas konteks LLM
  5. Write-Back Spreadsheet โ€” AI mengedit sel, mengisi kolom, dan menyuntikkan formula dengan persetujuan pengguna
  6. Dukungan Dataset Besar โ€” Spreadsheet 50.000+ baris diindeks dan dapat dikueri melalui pencarian vektor
  7. Kontrol Versi โ€” Setiap edit div-versi-kan dengan log perbedaan dan kemampuan rollback
  8. Kueri Bahasa Alami โ€” Ajukan pertanyaan analitis kompleks dalam Bahasa Inggris sederhana
  9. Dukungan Multi-Format โ€” Excel, CSV, Google Sheets, PDF, Word, Google Docs
  10. Pratinjau Edit โ€” Pratinjau yang menyoroti perbedaan sebelum perubahan apa pun diterapkan

Hasil

Kecepatan Kueri: Pertanyaan lintas dokumen dijawab dalam 10-30 detik vs. berjam-jam pencarian manual
Skala Data: Menangani 500+ dokumen dan spreadsheet dengan total 2 juta+ baris yang diindeks
Akurasi Edit: Edit spreadsheet yang diusulkan AI diterima tanpa modifikasi 85% dari waktu

Tumpukan Teknologi

PythonFastAPILLM (GPT-4oClaude)MilvusOpenAI EmbeddingsLangChainLangGraphReactPostgreSQLS3Job QueueRedisOCR

caseStudyDetail.more Studi Kasus

Jelajahi lebih banyak implementasi teknis kami

Document Intelligence

Sistem RAG Dokumen Lokal-Pertama dengan Pencarian Hibrida & Dukungan Multi-Format

Sebuah tim yang mengembangkan alat untuk developer membutuhkan sistem kecerdasan dokumen yang sepenuhnya lokal, menjaga privasi, yang dapat menyerap berbagai format file, membangun basis pengetahuan yang dapat dicari, dan menjawab pertanyaan bahasa alami menggunakan Retrieval-Augmented Generation โ€” tanpa mengirim data apa pun ke API eksternal.

Baca Studi Kasus
AI Accounting

Pemrosesan Faktur Bertenaga AI dengan OCR dan Integrasi QuickBooks

Sebuah bisnis menengah yang memproses ratusan faktur vendor setiap bulan perlu menghilangkan entri data manual dengan mengekstraksi data faktur secara otomatis menggunakan AI/OCR dan menyinkronkannya langsung ke QuickBooks untuk pembukuan dan pelacakan pembayaran.

Baca Studi Kasus

Siap Mentransformasi Bisnis Anda?

Mari diskusikan bagaimana kami dapat menerapkan solusi serupa untuk tantangan Anda.

Hubungi KamicaseStudyDetail.viewAllCaseStudies
Referensi Silang: Pencocokan entitas menghubungkan data di seluruh dokumen dengan akurasi 92%
Presisi Pengambilan: Pencarian vektor mengembalikan potongan yang relevan dalam 5 hasil teratas 94% dari waktu
Penghematan Waktu: Mengurangi alur kerja analisis multi-dokumen dari jam menjadi menit
Document Processing Libraries
Video Encoding

Penyisipan Iklan Sisi Klien (CSAI) dengan Penguraian Penanda SCTE-35 & Integrasi Pemutar Multi-Platform

Sebuah platform streaming video perlu mengimplementasikan Client-Side Ad Insertion (CSAI) di seluruh aplikasi web, seluler, dan TV terhubung โ€” memungkinkan pengalaman iklan yang dipersonalisasi di tingkat perangkat dengan dukungan interaksi iklan penuh (overlay yang dapat diklik, banner pendamping, tombol lewati) yang tidak dapat disediakan oleh penyisipan sisi server.

Baca Studi Kasus

Pertanyaan yang Sering Diajukan

MicrocosmWorks merancang arsitektur multi-agen di mana agen-agen khusus menangani berbagai aspek analisis dokumen, seperti agen ekstraksi tabel untuk lembar kerja, agen peringkasan teks untuk dokumen naratif, dan agen referensi silang yang mengidentifikasi hubungan antar titik data di berbagai file. Pembagian kerja ini menghasilkan hasil yang lebih akurat dibandingkan dengan satu panggilan LLM monolitik karena setiap agen beroperasi dalam jendela konteks yang terfokus dan menerapkan strategi *prompting* spesifik domain.

Ya, MicrocosmWorks membangun sebuah spreadsheet parsing engine yang menyelesaikan formula dependencies, mengembangkan pivot table summaries, dan melacak cross-sheet references sebelum meneruskan structured data ke analysis agents. Sistem ini mengubah Excel constructs yang kompleks menjadi flattened data representations yang dapat dipertimbangkan secara efektif oleh LLM, dan mempertahankan relational context antar sheet sehingga AI dapat menjawab pertanyaan seperti 'departemen mana yang melebihi anggaran Q3-nya' yang memerlukan joining data di beberapa tab.

MicrocosmWorks mengimplementasikan pipeline entity linking yang mengekstrak entitas bernama, pengidentifikasi numerik, dan referensi tanggal dari semua dokumen yang diunggah, kemudian membangun sebuah knowledge graph yang menghubungkan penyebutan terkait di seluruh file. Ketika pengguna mengajukan pertanyaan, agen referensi silang melintasi graph ini untuk menarik data yang relevan dari beberapa dokumen sumber, memberikan jawaban yang mensintesis informasi dengan cara yang akan memakan waktu berjam-jam bagi seorang analis manusia untuk melakukan pemeriksaan silang secara manual.

MicrocosmWorks merancang sistem ini untuk menangani batch dokumen hingga 500 file per sesi analisis, dengan ukuran file individual hingga 100MB untuk spreadsheet dan 50MB untuk PDF. Dokumen berukuran besar secara otomatis dipecah (chunked) dan diproses secara paralel di seluruh beberapa instans agen, dan orchestrator mempertahankan pandangan yang koheren dari seluruh kumpulan dokumen dengan mengagregasi output agen menjadi representasi pengetahuan yang terpadu.

MicrocosmWorks mengembangkan platform analisis dokumen multi-agen dengan tarif $30-$50/jam, dengan sistem siap produksi biasanya membutuhkan 3-5 bulan pengembangan termasuk parsing dokumen, orkestrasi agen, deteksi referensi silang, dan antarmuka kueri yang menghadap pengguna. Biaya per kueri dalam produksi bergantung pada volume dokumen dan penggunaan token LLM, tetapi arsitektur multi-agen sebenarnya mengurangi biaya LLM dengan mengarahkan hanya konteks yang relevan ke setiap agen daripada memasukkan seluruh set dokumen ke dalam satu prompt.