Hvordan forbedrer multi-agent orkestrering dokumentanalyse sammenlignet med at sende alt til én enkelt LLM?

MicrocosmWorks har designet en multi-agent arkitektur, hvor specialiserede agenter håndterer forskellige aspekter af dokumentanalyse, såsom en tabeludtræksagent til regneark, en tekstopsummeringsagent til narrative dokumenter og en krydsrefererende agent, der identificerer relationer mellem datapunkter på tværs af flere filer. Denne arbejdsdeling producerer mere præcise resultater end et enkelt monolitisk LLM-kald, fordi hver agent opererer inden for et fokuseret kontekstvindue og anvender domænespecifikke prompting-strategier.

Kan systemet analysere regneark med komplekse formler, pivottabeller og flere forbundne ark?

Ja, MicrocosmWorks har bygget en regnearks-parsing-motor, der løser formelafhængigheder, udvider pivottabelloversigter og sporer henvisninger på tværs af ark, før det videregiver strukturerede data til analyseagenterne. Systemet konverterer komplekse Excel-konstruktioner til fladtrykte datarepræsentationer, som LLM'er effektivt kan ræsonnere med, og bevarer den relationelle kontekst mellem ark, så AI'en kan besvare spørgsmål som 'hvilken afdeling overskred sit Q3-budget', der kræver sammenføjning af data på tværs af flere faner.

Hvordan fungerer krydsdokumenthenvisningsdetektion, når man analyserer en blanding af PDF'er, regneark og Word-dokumenter?

MicrocosmWorks implementerede en entitetskoblingspipeline, der udtrækker navngivne entiteter, numeriske identifikatorer og datoreferencer fra alle uploadede dokumenter og derefter bygger en vidensgraf, der forbinder relaterede omtaler på tværs af filer. Når en bruger stiller et spørgsmål, gennemløber krydshenvisningsagenten denne graf for at trække relevante data fra flere kildedokumenter og giver svar, der syntetiserer information på måder, som ville tage en menneskelig analytiker timer at krydstjekke manuelt.

Hvilke grænser for filstørrelse og dokumentvolumen understøtter multi-agent analysesystemet?

MicrocosmWorks designede systemet til at håndtere dokumentbatcher på op til 500 filer pr. analysesession, med individuelle filstørrelser på op til 100MB for regneark og 50MB for PDF'er. Store dokumenter chunkes automatisk og behandles parallelt på tværs af flere agent instances, og orchestrator'en opretholder et sammenhængende overblik over hele dokumentsættet ved at aggregere agent outputs til en samlet knowledge representation.

Hvor meget koster det at bygge en tilpasset multi-agent dokumentanalyseplatform?

MicrocosmWorks udvikler multi-agent dokumentanalyseplatforme til priser på $30-$50/time, hvor et produktionsklart system typisk kræver 3-5 måneders udvikling herunder dokumentparsing, agentorkestrering, krydsreferencedetektion og en brugervendt forespørgselsgrænseflade. Omkostningen per forespørgsel i produktion afhænger af dokumentvolumen og LLM token-forbrug, men multi-agent arkitekturer reducerer faktisk LLM-omkostningerne ved kun at rute relevant kontekst til hver agent i stedet for at proppe hele dokumentsæt ind i en enkelt prompt.

AI-Powered Spreadsheet & Document Analysis with Multi-Age...

AI-drevet Regneark & Dokumentanalyse med Multi-Agent Orkestrering og Krydsdokument Reference

Et virksomhedsdatasæt havde brug for at analysere, forespørge og redigere store samlinger af regneark og dokumenter (Excel, CSV, Google Sheets, PDF'er, Word-dokumenter) ved hjælp af naturligt sprog — med evnen til at krydsreferere data på tværs af flere filer og udføre flertrins analytiske arbejdsgange uden manuel datahåndtering.

Diskuter Dit Projekt

Arbejdet med forretningsdokumenter i stor skala var fyldt med friktion:

Siloed Data — Kritisk information var spredt over dusinvis af regneark, PDF'er og Word-dokumenter uden mulighed for at forespørge på tværs af dem
Manuel Krydsreferering — Sammenligning af en leverandørprisliste (Excel) mod kontraktbetingelser (PDF) mod fakturahistorik (CSV) krævede timers manuel opslag
Formelbegrænsninger — Komplekse analytiske spørgsmål kunne ikke besvares med regnearksformler alene
Begrænsninger i Kontekstvindue — Store regneark (50.000+ rækker) overskred LLM kontekstvinduer, hvilket gjorde naive tilgange mislykkede
Ingen Redigeringsmuligheder — Eksisterende AI-værktøjer kunne analysere dokumenter, men kunne ikke skrive ændringer tilbage til kildefilerne
Flertrins Ræsonnering — Spørgsmål, der kræver sekventiel analyse på tværs af dokumenter, havde brug for orkestrerede flertrins arbejdsgange

Vi byggede en multi-agent AI dokumentintelligensplatform med vektordatabase-understøttet hentning for store dokumenter, specialiserede agenter for forskellige dokumenttyper, en orkestrator til krydsdokument ræsonnering og skrive-tilbage kapaciteter til regnearksredigering.

Arkitektur

Orchestrator: AI orkestrator agent, der koordinerer flertrins arbejdsgange på tværs af specialiserede agenter
Spreadsheet Agent: Håndterer Excel/CSV/Google Sheets analyse, formelgenerering og celleændringer
Document Agent: Håndterer PDF/Word dokumentlæsning, udtræk og opsummering
Cross-Reference Agent: Udfører joins, sammenligninger og afstemning på tværs af dokumenttyper
Vector Database: Milvus til semantisk indeksering af dokumentstykker og regnearksrækker
LLM Layer: Multi-model tilgang med funktionskald
Backend: Python/FastAPI til dokumentbehandling og agentorkestrering
Frontend: React dashboard med filupload, chatgrænseflade og live regnearksvisning
Storage: S3 til originale filer, PostgreSQL til metadata og jobsporing

Multi-Agent Arkitektur

Agentroller

1. Orchestrator Agent

Den centrale koordinator, der modtager brugerforespørgsler, nedbryder dem i delopgaver og delegerer til specialiserede agenter. Den analyserer brugerens hensigt, skaber udførelsesplaner, styrer dataflow mellem agenter, aggregerer resultater og håndterer fejlretning.

2. Spreadsheet Agent

Specialiseret til tabulære dataoperationer inklusive skemaforståelse, oversættelse af naturligt sprog til forespørgsel, aggregeringer og filtrering, formelgenerering, celleændringer og kolonneudfyldninger, diagramforslag og datavalidering/anomalidetektion.

3. Document Agent

Specialiseret til ustrukturerede og semi-strukturerede dokumenter inklusive OCR og layout-bevidst tekstudtræk, sektionidentifikation, nøgle-værdi udtræk fra kontrakter, opsummering, semantisk klausulsøgning og tabeludtræk fra PDF'er/Word dokumenter.

4. Cross-Reference Agent

Specialiseret til multi-dokument ræsonnering inklusive enhedsmatchning på tværs af dokumenter, dataafstemning og uoverensstemmelsesidentifikation, tidslinjeanalyse, afhængighedsopløsning for modstridende data og SQL-lignende join-operationer på tværs af dokumenttyper.

Vektordatabase Lag

Hvorfor Vector DB til Dokumenter

Store dokumenter og regneark kan ikke passe i et enkelt LLM kontekstvindue. Vektordatabasen muliggør semantisk søgning på tværs af millioner af rækker og dokumentstykker, hentning af kun relevante dele pr. forespørgsel, krydsdokument enhedslinking via indlejringslighed og vedvarende indeksering, der ikke behøver genbehandling ved hver forespørgsel.

Indekseringsstrategi

Spreadsheet Indeksering:

Hver række konverteres til en naturligt sprog repræsentation ved at sammenkæde nøglekolonneværdier, derefter indlejret og gemt med referencer tilbage til den originale fil, ark og rækkeindeks for skrive-tilbage operationer.

Document Indeksering:

Dokumenter udtrækkes med layout-bevidsthed, opdelt i semantiske segmenter med overlap, indlejret og gemt med referencer til kildefilen, sektionen og sidenummeret.

Cross-Document Entity Index:

Et separat indeks linker enheder (leverandører, produkter, personer, fakturanumre) på tværs af dokumenter, hvilket muliggør krydsreference forespørgsler til hurtigt at finde alle nævnelser af en enhed uanset kildefil.

Hentningspipeline

Når en bruger stiller et krydsdokument spørgsmål, identificerer orkestratoren hvilke dokumenter og agenter der er nødvendige, udfører vektorsøgninger for at finde relevante data på tværs af alle kilder, delegerer til specialiserede agenter til behandling og aggregerer resultaterne til et sammenhængende svar.

Orkestreringsmotor

Forespørgselsnedbrydning

Orkestratoren bryder komplekse forespørgsler ned i flertrins udførelsesplaner. For eksempel ville et spørgsmål som "Find leverandører med sene leverancer, tjek kontraktstraffeklausuler og beregn kravbare straffe" blive nedbrudt i sekventielle trin: forespørgsel om leveringsdata via Spreadsheet Agent, søgning i kontrakter via Document Agent og sammenføjning af resultater via Cross-Reference Agent.

Agentkommunikation

Agenter kommunikerer via strukturerede meddelelser med typede nyttelaster
Orkestratoren opretholder udførelseskontekst med mellemliggende resultater
Fejlede trin udløser retry eller fallback strategier
Delvise resultater returneres, hvis nogle trin fuldføres, men andre fejler

Regnearksredigering & Skrive-tilbage

Redigeringsmuligheder

Platformen understøtter celleopdateringer, kolonneudfyldninger, rækkeindsættelse, betinget formatering, oprettelse af nye ark og formelinjektion — alt foreslået af AI-agenter og anvendt med brugerens godkendelse.

Skrive-tilbage Pipeline

Agenten bestemmer redigeringsoperationen (hvilke celler, hvilke værdier)
Redigeringsforhåndsvisning vises til brugeren med diff-fremhævning (gamle vs. nye værdier)
Brugeren godkender eller ændrer de foreslåede ændringer
Backend anvender ændringer til filen ved hjælp af passende biblioteker pr. format
Ændret fil gemmes som en ny version med redigeringsspor
Vektorindeks opdateres for ændrede rækker

Versionskontrol

Hver redigering skaber en ny filversion (original bevaret)
Diff-log viser præcis, hvad der blev ændret, hvornår og hvorfor
Tilbagefør til enhver tidligere version med et klik
Redigeringsattribution: hvilken agent eller bruger der foretog hver ændring

Behandlingspipeline for Nye Dokumenter

Filupload Flow

Bruger uploader filer (træk-og-slip eller API)
Filtype detekteres og dirigeres til passende processor
Spreadsheets: Parsede, skema udledt, rækker indlejret og indekseret
PDFs: OCR (hvis scannet) → layoutudtræk → chunking → indlejring → indeksering
Word Docs: Tekstudtræk → sektion parsing → chunking → indlejring → indeksering
Entity Extraction: NER identificerer personer, organisationer, datoer, beløb på tværs af alle dokumenter
Cross-Document Linking: Enhedsindeks opdateres med nye nævnelser
Filmetadata gemt i PostgreSQL, indlejringer i vektor DB, originaler i S3

Understøttede Formater

Platformen understøtter Excel, CSV og Google Sheets (med fuld skrive-tilbage), native og scannede PDF'er (kun læsning) og Word-dokumenter og Google Docs (begrænset skrive-tilbage).

Nøglefunktioner

Multi-Agent Arkitektur — Specialiserede agenter til regneark, dokumenter og krydsreferering
AI Orchestrator — Nedbryder komplekse forespørgsler i flertrins udførelsesplaner
Krydsdokument Reference — Enhedslinking og dataafstemning på tværs af filtyper
Vektor-drevet Hentning — Semantisk søgning håndterer datasæt ud over LLM kontekstgrænser
Regnearks Skrive-tilbage — AI redigerer celler, udfylder kolonner og indsprøjter formler med brugerens godkendelse
Støtte til Store Datasæt — 50.000+ række regneark indekseret og forespørgbar via vektorsøgning
Versionskontrol — Hver redigering versioneret med diff-log og tilbageføringsmulighed
Naturligt Sprog Forespørgsler — Stil komplekse analytiske spørgsmål på almindeligt engelsk
Multi-Format Support — Excel, CSV, Google Sheets, PDF, Word, Google Docs
Redigeringsforhåndsvisning — Diff-fremhævet forhåndsvisning før ændringer anvendes

AI-drevet Regneark & Dokumentanalyse med Multi-Agent Orkestrering og Krydsdokument Reference

Udfordringen

Vores Løsning

Arkitektur

Multi-Agent Arkitektur

Agentroller

Vektordatabase Lag

Hvorfor Vector DB til Dokumenter

Indekseringsstrategi

Hentningspipeline

Orkestreringsmotor

Forespørgselsnedbrydning

Agentkommunikation

Regnearksredigering & Skrive-tilbage

Redigeringsmuligheder

Skrive-tilbage Pipeline

Versionskontrol

Behandlingspipeline for Nye Dokumenter

Filupload Flow

Understøttede Formater

Nøglefunktioner

Resultater

Teknologistak

caseStudyDetail.more Casestudier

Lokal-First Dokument RAG System med Hybrid Søgning & Multi-Format Support

AI-drevet fakturabehandling med OCR og QuickBooks-integration

Klar til at Transformere Din Virksomhed?

Klient-side annonceindsættelse (CSAI) med SCTE-35-markørparsing og integration af afspillere på flere platforme

Ofte stillede spørgsmål