MicrocosmWorksInovasi dan Seni Bina Kosmos Digital
TentangHubungi
MicrocosmWorksMemperbaharui dan Merangka Kosmos Digital

Menyampaikan penyelesaian IT yang penting. Kami bersemangat tentang teknologi, keselamatan, dan membantu perniagaan berkembang melalui infrastruktur IT yang boleh dipercayai dan inovatif.

[email protected]
+91 7011868196
New Delhi, India

Pusat Pertumbuhan AI

AI HubInovasi PermulaanPemecut Perusahaan

Penyelesaian

Semua PenyelesaianAplikasi Kesihatan & KecergasanPlatform Video AIPembangunan Ejen AI

Sumber

WawasanPanduan IndustriPelan Tindakan Kes PenggunaanCorak Seni BinaKajian Kes

Syarikat

Tentang KamiHubungiKerja Kami

Perkhidmatan

Perundingan DigitalInfrastruktur AwanPembangunan SaaSPembangunan AITeknologi Video
Pembangunan ERPPenyesuaian ZohoPembangunan OdooIntegrasi SalesforcePembangunan CRM Tersuai
Integrasi QuickBooksPenyelesaian IoTPembangunan Blockchain
Perundingan Keselamatan SiberSokongan IT - L3

ยฉ 2026 MicrocosmWorks. Hak cipta terpelihara.

Dasar PrivasiTerma Perkhidmatan
Kembali ke Kajian Kes
Document IntelligenceDiterbitkan June 22, 2026 ยท Dikemas kini June 22, 2026

Analisis Hamparan & Dokumen Dikuasakan AI dengan Orkestrasi Berbilang Ejen dan Rujukan Silang Dokumen

Pasukan data perusahaan memerlukan keupayaan untuk menganalisis, menanyakan, dan menyunting koleksi besar hamparan dan dokumen (Excel, CSV, Google Sheets, PDF, Word docs) menggunakan bahasa semula jadi โ€” dengan keupayaan untuk membuat rujukan silang data merentasi pelbagai fail dan melaksanakan aliran kerja analisis berbilang langkah tanpa pemanipulasian data secara manual.

Bincangkan Projek Anda
spreadsheet-docs-analysis-multi-agent.webp
Document Intelligence
Domain
15
Technologies
6
Key Results
Delivered
Status

Cabaran

Bekerja dengan dokumen perniagaan pada skala besar penuh dengan geseran:

  • Data Tersisih โ€” Maklumat kritikal tersebar merentasi puluhan hamparan, PDF, dan dokumen Word tanpa cara untuk membuat pertanyaan merentasinya
  • Rujukan Silang Manual โ€” Membandingkan senarai harga vendor (Excel) dengan terma kontrak (PDF) dengan sejarah invois (CSV) memerlukan berjam-jam pencarian manual
  • Had Formula โ€” Soalan analitikal yang kompleks tidak dapat dijawab dengan formula hamparan sahaja
  • Had Tetingkap Konteks โ€” Hamparan besar (50,000+ baris) melebihi tetingkap konteks LLM, menyebabkan pendekatan naif gagal
  • Tiada Keupayaan Suntingan โ€” Alat AI sedia ada boleh menganalisis dokumen tetapi tidak dapat menulis perubahan kembali ke fail sumber
  • Penaakulan Berbilang Langkah โ€” Soalan yang memerlukan analisis berurutan merentasi dokumen memerlukan aliran kerja berbilang langkah yang diatur

Penyelesaian Kami

Kami membina platform kecerdasan dokumen AI berbilang ejen dengan perolehan disokong pangkalan data vektor untuk dokumen besar, ejen khusus untuk pelbagai jenis dokumen, orkestrator untuk penaakulan silang dokumen, dan keupayaan tulis balik untuk penyuntingan hamparan.

Seni Bina

  • Orkestrator: Ejen orkestrator AI menyelaraskan aliran kerja berbilang langkah merentasi ejen-ejen khusus
  • Ejen Hamparan: Mengendalikan analisis Excel/CSV/Google Sheets, penjanaan formula, dan suntingan sel
  • Ejen Dokumen: Mengendalikan pembacaan, pengekstrakkan, dan ringkasan dokumen PDF/Word
  • Ejen Rujukan Silang: Melaksanakan gabungan, perbandingan, dan penyesuaian merentasi jenis dokumen
  • Pangkalan Data Vektor: Milvus untuk pengindeksan semantik cebisan dokumen dan baris hamparan
  • Lapisan LLM: Pendekatan berbilang model dengan panggilan fungsi
  • Backend: Python/FastAPI untuk pemprosesan dokumen dan orkestrasi ejen
  • Frontend: Papan pemuka React dengan muat naik fail, antara muka sembang, dan pratonton hamparan langsung
  • Storan: S3 untuk fail asal, PostgreSQL untuk metadata dan penjejakan kerja

Seni Bina Berbilang Ejen

Peranan Ejen

1. Ejen Orkestrator

Penyelaras pusat yang menerima pertanyaan pengguna, memecahkannya kepada sub-tugas, dan menyerahkannya kepada ejen-ejen khusus. Ia menganalisis niat pengguna, mencipta pelan pelaksanaan, menguruskan aliran data antara ejen, mengagregatkan hasil, dan mengendalikan pemulihan ralat.

2. Ejen Hamparan

Khusus untuk operasi data berjadual termasuk pemahaman skema, terjemahan bahasa semula jadi kepada pertanyaan, pengagregatan dan penapisan, penjanaan formula, penyuntingan sel dan pengisian lajur, cadangan carta, serta pengesahan data/pengesanan anomali.

3. Ejen Dokumen

Khusus untuk dokumen tidak berstruktur dan separa berstruktur termasuk OCR dan pengekstrakkan teks peka susun atur, pengenalpastian bahagian, pengekstrakkan nilai kunci daripada kontrak, ringkasan, carian klausa semantik, dan pengekstrakkan jadual daripada PDF/Word docs.

4. Ejen Rujukan Silang

Khusus untuk penaakulan berbilang dokumen termasuk padanan entiti merentasi dokumen, penyesuaian data dan pengenalpastian percanggahan, analisis garis masa, penyelesaian kebergantungan untuk data yang bercanggah, dan operasi gabungan seperti SQL merentasi jenis dokumen.

Lapisan Pangkalan Data Vektor

Mengapa Pangkalan Data Vektor untuk Dokumen

Dokumen dan hamparan besar tidak boleh dimuatkan dalam satu tetingkap konteks LLM. Pangkalan data vektor membolehkan carian semantik merentasi berjuta-juta baris dan cebisan dokumen, perolehan hanya bahagian yang relevan bagi setiap pertanyaan, pemautan entiti silang dokumen melalui kesamaan benam, dan pengindeksan berterusan yang tidak memerlukan pemprosesan semula pada setiap pertanyaan.

Strategi Pengindeksan

Pengindeksan Hamparan:

Setiap baris ditukar kepada perwakilan bahasa semula jadi dengan menyambungkan nilai lajur utama, kemudian dibenamkan dan disimpan dengan rujukan kembali ke fail asal, lembaran, dan indeks baris untuk operasi tulis balik.

Pengindeksan Dokumen:

Dokumen diekstrak dengan kesedaran susun atur, dipecahkan kepada segmen semantik dengan pertindihan, dibenamkan, dan disimpan dengan rujukan kepada fail sumber, bahagian, dan nombor halaman.

Indeks Entiti Silang Dokumen:

Indeks berasingan memautkan entiti (vendor, produk, orang, nombor invois) merentasi dokumen, membolehkan pertanyaan rujukan silang untuk mencari semua sebutan entiti dengan cepat tanpa mengira fail sumber.

Saluran Perolehan

Apabila pengguna bertanya soalan silang dokumen, orkestrator mengenal pasti dokumen dan ejen mana yang diperlukan, melakukan carian vektor untuk mencari data yang relevan merentasi semua sumber, menyerahkannya kepada ejen khusus untuk pemprosesan, dan mengagregatkan hasil menjadi respons yang koheren.

Enjin Orkestrasi

Penguraian Pertanyaan

Orkestrator memecahkan pertanyaan kompleks kepada pelan pelaksanaan berbilang langkah. Sebagai contoh, soalan seperti "Cari vendor dengan penghantaran lewat, semak klausa penalti kontrak, dan kira penalti yang boleh dituntut" akan diuraikan menjadi langkah-langkah berurutan: menanyakan data penghantaran melalui Ejen Hamparan, mencari kontrak melalui Ejen Dokumen, dan menggabungkan hasil melalui Ejen Rujukan Silang.

Komunikasi Ejen

  • Ejen berkomunikasi melalui mesej berstruktur dengan muatan bertipe
  • Orkestrator mengekalkan konteks pelaksanaan dengan hasil pertengahan
  • Langkah yang gagal mencetuskan strategi cuba semula atau pulih
  • Hasil separa dikembalikan jika beberapa langkah selesai tetapi yang lain gagal

Penyuntingan & Tulis Balik Hamparan

Keupayaan Suntingan

Platform ini menyokong kemas kini sel, pengisian lajur, penyisipan baris, pemformatan bersyarat, penciptaan lembaran baharu, dan suntikan formula โ€” semuanya dicadangkan oleh ejen AI dan diterapkan dengan kelulusan pengguna.

Saluran Tulis Balik

  1. Ejen menentukan operasi suntingan (sel mana, nilai apa)
  2. Pratonton suntingan ditunjukkan kepada pengguna dengan penonjolan perbezaan (nilai lama vs. nilai baharu)
  3. Pengguna meluluskan atau mengubah suai perubahan yang dicadangkan
  4. Backend menerapkan perubahan pada fail menggunakan perpustakaan yang sesuai mengikut format
  5. Fail yang diubah suai disimpan sebagai versi baharu dengan jejak audit suntingan
  6. Indeks vektor dikemas kini untuk baris yang berubah

Kawalan Versi

  • Setiap suntingan mencipta versi fail baharu (asal dikekalkan)
  • Log perbezaan menunjukkan dengan tepat apa yang berubah, bila, dan mengapa
  • Kembalikan ke versi sebelumnya dengan satu klik
  • Atribusi suntingan: ejen atau pengguna mana yang membuat setiap perubahan

Saluran Pemprosesan untuk Dokumen Baharu

Aliran Muat Naik Fail

  1. Pengguna memuat naik fail (seret dan lepas atau API)
  2. Jenis fail dikesan dan dihalakan kepada pemproses yang sesuai
  3. Hamparan: Dihuraikan, skema disimpulkan, baris dibenamkan dan diindeks
  4. PDF: OCR (jika diimbas) โ†’ pengekstrakkan susun atur โ†’ pemecahan โ†’ pembenaman โ†’ pengindeksan
  5. Dokumen Word: Pengekstrakkan teks โ†’ penghuraian bahagian โ†’ pemecahan โ†’ pembenaman โ†’ pengindeksan
  6. Pengekstrakkan Entiti: NER mengenal pasti orang, organisasi, tarikh, jumlah merentasi semua dokumen
  7. Pemautan Silang Dokumen: Indeks entiti dikemas kini dengan sebutan baharu
  8. Metadata fail disimpan dalam PostgreSQL, benam dalam pangkalan data vektor, asal dalam S3

Format yang Disokong

Platform ini menyokong Excel, CSV, dan Google Sheets (dengan tulis balik penuh), PDF asli dan diimbas (baca sahaja), serta dokumen Word dan Google Docs (tulis balik terhad).

Ciri Utama

  1. Seni Bina Berbilang Ejen โ€” Ejen khusus untuk hamparan, dokumen, dan rujukan silang
  2. Orkestrator AI โ€” Menguraikan pertanyaan kompleks kepada pelan pelaksanaan berbilang langkah
  3. Rujukan Silang Dokumen โ€” Pemautan entiti dan penyesuaian data merentasi jenis fail
  4. Perolehan Dikuasakan Vektor โ€” Carian semantik mengendalikan set data melampaui had konteks LLM
  5. Tulis Balik Hamparan โ€” AI menyunting sel, mengisi lajur, dan menyuntik formula dengan kelulusan pengguna
  6. Sokongan Set Data Besar โ€” Hamparan 50,000+ baris diindeks dan boleh ditanya melalui carian vektor
  7. Kawalan Versi โ€” Setiap suntingan diviversikan dengan log perbezaan dan keupayaan untuk kembali ke versi sebelumnya
  8. Pertanyaan Bahasa Semula Jadi โ€” Ajukan soalan analitikal kompleks dalam bahasa Inggeris biasa
  9. Sokongan Pelbagai Format โ€” Excel, CSV, Google Sheets, PDF, Word, Google Docs
  10. Pratonton Suntingan โ€” Pratonton yang ditonjolkan perbezaan sebelum sebarang perubahan diterapkan

Keputusan

Kelajuan Pertanyaan: Soalan silang dokumen dijawab dalam 10-30 saat berbanding berjam-jam pencarian manual
Skala Data: Mengendalikan 500+ dokumen dan hamparan dengan 2M+ jumlah baris diindeks
Ketepatan Suntingan: Suntingan hamparan yang dicadangkan oleh AI diterima tanpa pengubahsuaian 85% daripada masa
Rujukan Silang: Padanan entiti memautkan data merentasi dokumen dengan ketepatan 92%
Ketepatan Perolehan: Carian vektor mengembalikan cebisan yang relevan dalam 5 hasil teratas 94% daripada masa
Penjimatan Masa: Mengurangkan aliran kerja analisis berbilang dokumen daripada berjam-jam kepada minit

Timbunan Teknologi

PythonFastAPILLM (GPT-4oClaude)MilvusOpenAI EmbeddingsLangChainLangGraphReactPostgreSQLS3Job QueueRedisOCRDocument Processing Libraries

caseStudyDetail.more Kajian Kes

Terokai lebih banyak pelaksanaan teknikal kami

Document Intelligence

Sistem RAG Dokumen Lokal-Pertama dengan Carian Hibrid & Sokongan Pelbagai Format

Sebuah pasukan yang membangunkan alatan pembangun memerlukan sistem kecerdasan dokumen yang beroperasi sepenuhnya secara lokal, memelihara privasi, yang boleh menyerap pelbagai format fail, membina pangkalan pengetahuan yang boleh dicari, dan menjawab pertanyaan bahasa semula jadi menggunakan Retrieval-Augmented Generation โ€” tanpa menghantar sebarang data kepada API luaran.

Baca Kajian Kes
AI Accounting

Pemprosesan Invois Berkuasa AI dengan OCR dan Integrasi QuickBooks

Sebuah perniagaan bersaiz sederhana yang memproses ratusan invois vendor setiap bulan perlu menghapuskan kemasukan data manual dengan mengekstrak data invois secara automatik menggunakan AI/OCR dan menyegerakkannya terus ke dalam QuickBooks untuk tujuan simpan kira dan penjejakan pembayaran.

Baca Kajian Kes
Video Encoding

Penyisipan Iklan Sisi Klien (CSAI) dengan Penghuraian Penanda SCTE-35 & Integrasi Pemain Berbilang Platform

Sebuah platform penstriman video perlu melaksanakan Client-Side Ad Insertion (CSAI) merentasi aplikasi web, mudah alih, dan TV bersambung โ€” membolehkan pengalaman iklan yang diperibadikan pada peringkat peranti dengan sokongan interaksi iklan penuh (lapisan tindanan boleh klik, sepanduk pendamping, butang langkau) yang tidak dapat disediakan oleh penyisipan sisi pelayan.

Baca Kajian Kes

Soalan Lazim

MicrocosmWorks mereka bentuk seni bina berbilang ejen di mana ejen khusus mengendalikan aspek analisis dokumen yang berbeza, seperti ejen pengekstrakan jadual untuk hamparan elektronik, ejen ringkasan teks untuk dokumen naratif, dan ejen rujukan silang yang mengenal pasti hubungan antara titik data merentasi pelbagai fail. Pembahagian kerja ini menghasilkan keputusan yang lebih tepat berbanding dengan satu panggilan LLM monolitik kerana setiap ejen beroperasi dalam tetingkap konteks yang terfokus dan menggunakan strategi gesaan khusus domain.

Ya, MicrocosmWorks membina enjin penghuraian hamparan yang menyelesaikan kebergantungan formula, mengembangkan ringkasan pivot table, dan mengesan rujukan merentasi lembaran sebelum menyampaikan data berstruktur kepada agen analisis. Sistem ini menukar binaan Excel yang kompleks menjadi representasi data yang diratakan yang boleh dipertimbangkan dengan berkesan oleh LLMs, dan mengekalkan konteks hubungan antara lembaran supaya AI dapat menjawab soalan seperti 'jabatan mana yang melebihi bajet Q3 nya' yang memerlukan penyatuan data merentasi beberapa tab.

MicrocosmWorks melaksanakan pipeline penghubungan entiti yang mengekstrak named entities, numeric identifiers, dan rujukan tarikh daripada semua dokumen yang dimuat naik, kemudian membina knowledge graph yang menghubungkan sebutan berkaitan merentasi fail. Apabila pengguna bertanya soalan, agen rujukan rentas melintasi knowledge graph ini untuk menarik data yang relevan daripada pelbagai dokumen sumber, menyediakan jawapan yang mensintesis maklumat dalam cara yang akan mengambil masa berjam-jam pemeriksaan silang manual oleh seorang penganalisis manusia.

MicrocosmWorks mereka bentuk sistem untuk mengendalikan kumpulan dokumen sehingga 500 fail setiap sesi analisis, dengan saiz fail individu sehingga 100MB untuk hamparan dan 50MB untuk PDF. Dokumen besar dipecah-pecahkan secara automatik dan diproses secara selari merentasi beberapa instans ejen, dan orkestrator mengekalkan pandangan yang koheren bagi keseluruhan set dokumen dengan mengagregasikan output ejen ke dalam representasi pengetahuan yang bersatu.

MicrocosmWorks membangunkan platform analisis dokumen berbilang ejen pada kadar $30-$50/jam, dengan sistem sedia-produksi biasanya memerlukan 3-5 bulan pembangunan termasuk penghuraian dokumen, orkestrasi ejen, pengesanan rujukan silang, dan antara muka pertanyaan berhadapan pengguna. Kos per-pertanyaan dalam produksi bergantung kepada jumlah dokumen dan penggunaan token LLM, tetapi seni bina berbilang ejen sebenarnya mengurangkan kos LLM dengan menghalakan hanya konteks yang relevan kepada setiap ejen dan bukannya menyumbat seluruh set dokumen ke dalam satu prompt.

Bersedia untuk Mentransformasi Perniagaan Anda?

Mari bincangkan bagaimana kami boleh mengaplikasikan penyelesaian serupa untuk cabaran anda.

Hubungi KamicaseStudyDetail.viewAllCaseStudies