Bumuo kami ng isang multi-agent AI document intelligence platform na may retrieval na suportado ng vector database para sa malalaking dokumento, mga espesyal na agent para sa iba't ibang uri ng dokumento, isang orchestrator para sa cross-document reasoning, at mga kakayahang mag-write-back para sa pag-edit ng spreadsheet.
Arkitektura
- Orchestrator: AI orchestrator agent na nagko-coordinate ng multi-step workflows sa mga espesyal na agent
- Spreadsheet Agent: Nangangasiwa sa pagsusuri ng Excel/CSV/Google Sheets, pagbuo ng formula, at pag-edit ng cell
- Document Agent: Nangangasiwa sa pagbabasa, pagkuha, at pagbubuod ng PDF/Word document
- Cross-Reference Agent: Nagsasagawa ng joins, paghahambing, at pagrereconcile sa iba't ibang uri ng dokumento
- Vector Database: Milvus para sa semantic indexing ng document chunks at spreadsheet rows
- LLM Layer: Multi-model approach na may function calling
- Backend: Python/FastAPI para sa pagproseso ng dokumento at agent orchestration
- Frontend: React dashboard na may pag-upload ng file, chat interface, at live spreadsheet preview
- Storage: S3 para sa orihinal na file, PostgreSQL para sa metadata at job tracking
Arkitekturang Multi-Agent
Mga Tungkulin ng Agent
1. Orchestrator Agent
Ang sentral na coordinator na tumatanggap ng mga query ng user, nagde-decompose sa mga ito sa sub-tasks, at nagdedelega sa mga espesyal na agent. Sinusuri nito ang layunin ng user, lumilikha ng mga execution plan, namamahala sa data flow sa pagitan ng mga agent, nag-a-aggregate ng mga resulta, at nangangasiwa sa pagbawi ng error.
2. Spreadsheet Agent
Espesyal para sa mga operasyon ng tabular data kabilang ang pag-unawa sa schema, natural language to query translation, aggregations at filtering, pagbuo ng formula, pag-edit ng cell at pagpuno ng column, mga mungkahi sa chart, at data validation/anomaly detection.
3. Document Agent
Espesyal para sa unstructured at semi-structured na mga dokumento kabilang ang OCR at layout-aware text extraction, pagtukoy ng seksyon, key-value extraction mula sa mga kontrata, summarization, semantic clause search, at table extraction mula sa PDFs/Word docs.
4. Cross-Reference Agent
Espesyal para sa multi-document reasoning kabilang ang entity matching sa mga dokumento, data reconciliation at discrepancy identification, timeline analysis, dependency resolution para sa conflicting data, at SQL-like join operations sa iba't ibang uri ng dokumento.
Layer ng Vector Database
Bakit Vector DB para sa mga Dokumento
Ang malalaking dokumento at spreadsheets ay hindi kasya sa isang LLM context window. Nagbibigay-daan ang vector database sa semantic search sa milyun-milyong rows at document chunks, retrieval ng mga relevant na bahagi lamang sa bawat query, cross-document entity linking sa pamamagitan ng embedding similarity, at persistent indexing na hindi nangangailangan ng muling pagproseso sa bawat query.
Estratehiya sa Pag-index
Pag-index ng Spreadsheet:
Ang bawat row ay kino-convert sa natural language representation sa pamamagitan ng pagdudugtong ng mga key column values, pagkatapos ay ine-embed at iniimbak na may mga reference pabalik sa orihinal na file, sheet, at row index para sa mga write-back operation.
Pag-index ng Dokumento:
Ang mga dokumento ay kino-extract na may layout awareness, hinahati sa semantic segments na may overlap, ine-embed, at iniimbak na may mga reference sa source file, seksyon, at numero ng pahina.
Cross-Document Entity Index:
Isang hiwalay na index ang nagli-link ng mga entity (vendors, products, people, invoice numbers) sa mga dokumento, na nagbibigay-daan sa mga cross-reference query upang mabilis na mahanap ang lahat ng pagbanggit ng isang entity anuman ang source file.
Retrieval Pipeline
Kapag ang isang user ay nagtanong ng cross-document question, tinutukoy ng orchestrator kung aling mga dokumento at agent ang kailangan, nagsasagawa ng vector searches upang mahanap ang relevant na data sa lahat ng pinagmulan, nagdedelega sa mga espesyal na agent para sa pagproseso, at nag-a-aggregate ng mga resulta sa isang coherent na tugon.
Orchestration Engine
Query Decomposition
Hinahati ng orchestrator ang mga kumplikadong query sa multi-step execution plans. Halimbawa, ang isang tanong tulad ng "Maghanap ng mga vendor na may late na delivery, tingnan ang mga penalty clause sa kontrata, at kalkulahin ang mga claimable penalty" ay ide-decompose sa magkakasunod na hakbang: pag-query ng delivery data sa pamamagitan ng Spreadsheet Agent, paghahanap ng mga kontrata sa pamamagitan ng Document Agent, at pagsasama ng mga resulta sa pamamagitan ng Cross-Reference Agent.
Komunikasyon ng Agent
- Ang mga agent ay nakikipag-ugnayan sa pamamagitan ng structured messages na may typed payloads
- Pinapanatili ng orchestrator ang execution context na may intermediate results
- Ang mga nabigong hakbang ay nagti-trigger ng retry o fallback strategies
- Ang mga partial na resulta ay ibinabalik kung ang ilang hakbang ay nakumpleto ngunit ang iba ay nabigo
Pag-edit at Write-Back ng Spreadsheet
Mga Kakayahan sa Pag-edit
Sinuportahan ng platform ang mga update ng cell, pagpuno ng column, pagpasok ng row, conditional formatting, paglikha ng bagong sheet, at formula injection โ lahat ay iminungkahi ng mga AI agent at inilapat sa pag-apruba ng user.
Write-Back Pipeline
- Tinutukoy ng agent ang operasyon ng pag-edit (aling mga cell, anong mga value)
- Ipinapakita ang preview ng pag-edit sa user na may diff highlighting (lumang vs. bagong value)
- Inaprubahan o binago ng user ang mga iminungkahing pagbabago
- Inilapat ng Backend ang mga pagbabago sa file gamit ang mga angkop na library bawat format
- Ang binagong file ay nai-save bilang isang bagong bersyon na may edit audit trail
- Na-update ang vector index para sa mga nabagong row
Pagkontrol ng Bersyon
- Ang bawat pag-edit ay lumilikha ng bagong bersyon ng file (naipreserba ang orihinal)
- Ipinapakita ng Diff log kung ano mismo ang nabago, kailan, at bakit
- Ibalik sa anumang nakaraang bersyon sa isang click
- Pagpapatungkol ng pag-edit: aling agent o user ang gumawa ng bawat pagbabago
Processing Pipeline para sa mga Bagong Dokumento
Daloy ng Pag-upload ng File
- Nag-a-upload ang user ng mga file (drag-and-drop o API)
- Natutukoy ang uri ng file at iruruta sa naaangkop na processor
- Spreadsheets: Pinoproseso, schema inferred, rows embedded at indexed
- PDFs: OCR (kung scanned) โ layout extraction โ chunking โ embedding โ indexing
- Word Docs: Text extraction โ section parsing โ chunking โ embedding โ indexing
- Entity Extraction: Kinikilala ng NER ang mga tao, organisasyon, petsa, halaga sa lahat ng doc
- Cross-Document Linking: Na-update ang Entity index na may mga bagong pagbanggit
- Ang metadata ng file ay iniimbak sa PostgreSQL, mga embedding sa vector DB, mga orihinal sa S3
Mga Suportadong Format
Sinuportahan ng platform ang Excel, CSV, at Google Sheets (na may full write-back), native at scanned PDFs (read-only), at Word docs at Google Docs (limited write-back).
Mga Pangunahing Tampok
- Arkitekturang Multi-Agent โ Mga espesyal na agent para sa spreadsheets, dokumento, at cross-referencing
- AI Orchestrator โ Nagde-decompose ng mga kumplikadong query sa multi-step execution plans
- Cross-Document Reference โ Pagli-link ng entity at data reconciliation sa iba't ibang uri ng file
- Vector-Powered Retrieval โ Nangangasiwa ang semantic search sa mga dataset na lampas sa LLM context limits
- Spreadsheet Write-Back โ Ini-edit ng AI ang mga cell, pinupuno ang mga column, at nag-i-inject ng mga formula sa pag-apruba ng user
- Suporta para sa Malalaking Dataset โ 50,000+ row spreadsheets na nai-index at queryable sa pamamagitan ng vector search
- Pagkontrol ng Bersyon โ Ang bawat pag-edit ay may bersyon na may diff log at kakayahang mag-rollback
- Natural Language Queries โ Magtanong ng mga kumplikadong analitikal na tanong sa simpleng Ingles
- Suporta sa Multi-Format โ Excel, CSV, Google Sheets, PDF, Word, Google Docs
- Preview ng Pag-edit โ Diff-highlighted na preview bago ilapat ang anumang pagbabago