AI-drevet Regneark & Dokumentanalyse med Multi-Agent Orkestrering og Krydsdokument Reference
Et virksomhedsdatasæt havde brug for at analysere, forespørge og redigere store samlinger af regneark og dokumenter (Excel, CSV, Google Sheets, PDF'er, Word-dokumenter) ved hjælp af naturligt sprog — med evnen til at krydsreferere data på tværs af flere filer og udføre flertrins analytiske arbejdsgange uden manuel datahåndtering.
Diskuter Dit Projekt
Udfordringen
Arbejdet med forretningsdokumenter i stor skala var fyldt med friktion:
- Siloed Data — Kritisk information var spredt over dusinvis af regneark, PDF'er og Word-dokumenter uden mulighed for at forespørge på tværs af dem
- Manuel Krydsreferering — Sammenligning af en leverandørprisliste (Excel) mod kontraktbetingelser (PDF) mod fakturahistorik (CSV) krævede timers manuel opslag
- Formelbegrænsninger — Komplekse analytiske spørgsmål kunne ikke besvares med regnearksformler alene
- Begrænsninger i Kontekstvindue — Store regneark (50.000+ rækker) overskred LLM kontekstvinduer, hvilket gjorde naive tilgange mislykkede
- Ingen Redigeringsmuligheder — Eksisterende AI-værktøjer kunne analysere dokumenter, men kunne ikke skrive ændringer tilbage til kildefilerne
- Flertrins Ræsonnering — Spørgsmål, der kræver sekventiel analyse på tværs af dokumenter, havde brug for orkestrerede flertrins arbejdsgange
Vores Løsning
Vi byggede en multi-agent AI dokumentintelligensplatform med vektordatabase-understøttet hentning for store dokumenter, specialiserede agenter for forskellige dokumenttyper, en orkestrator til krydsdokument ræsonnering og skrive-tilbage kapaciteter til regnearksredigering.
Arkitektur
- Orchestrator: AI orkestrator agent, der koordinerer flertrins arbejdsgange på tværs af specialiserede agenter
- Spreadsheet Agent: Håndterer Excel/CSV/Google Sheets analyse, formelgenerering og celleændringer
- Document Agent: Håndterer PDF/Word dokumentlæsning, udtræk og opsummering
- Cross-Reference Agent: Udfører joins, sammenligninger og afstemning på tværs af dokumenttyper
- Vector Database: Milvus til semantisk indeksering af dokumentstykker og regnearksrækker
- LLM Layer: Multi-model tilgang med funktionskald
- Backend: Python/FastAPI til dokumentbehandling og agentorkestrering
- Frontend: React dashboard med filupload, chatgrænseflade og live regnearksvisning
- Storage: S3 til originale filer, PostgreSQL til metadata og jobsporing
Multi-Agent Arkitektur
Agentroller
1. Orchestrator AgentDen centrale koordinator, der modtager brugerforespørgsler, nedbryder dem i delopgaver og delegerer til specialiserede agenter. Den analyserer brugerens hensigt, skaber udførelsesplaner, styrer dataflow mellem agenter, aggregerer resultater og håndterer fejlretning.
2. Spreadsheet AgentSpecialiseret til tabulære dataoperationer inklusive skemaforståelse, oversættelse af naturligt sprog til forespørgsel, aggregeringer og filtrering, formelgenerering, celleændringer og kolonneudfyldninger, diagramforslag og datavalidering/anomalidetektion.
3. Document AgentSpecialiseret til ustrukturerede og semi-strukturerede dokumenter inklusive OCR og layout-bevidst tekstudtræk, sektionidentifikation, nøgle-værdi udtræk fra kontrakter, opsummering, semantisk klausulsøgning og tabeludtræk fra PDF'er/Word dokumenter.
4. Cross-Reference AgentSpecialiseret til multi-dokument ræsonnering inklusive enhedsmatchning på tværs af dokumenter, dataafstemning og uoverensstemmelsesidentifikation, tidslinjeanalyse, afhængighedsopløsning for modstridende data og SQL-lignende join-operationer på tværs af dokumenttyper.
Vektordatabase Lag
Hvorfor Vector DB til Dokumenter
Store dokumenter og regneark kan ikke passe i et enkelt LLM kontekstvindue. Vektordatabasen muliggør semantisk søgning på tværs af millioner af rækker og dokumentstykker, hentning af kun relevante dele pr. forespørgsel, krydsdokument enhedslinking via indlejringslighed og vedvarende indeksering, der ikke behøver genbehandling ved hver forespørgsel.
Indekseringsstrategi
Spreadsheet Indeksering:Hver række konverteres til en naturligt sprog repræsentation ved at sammenkæde nøglekolonneværdier, derefter indlejret og gemt med referencer tilbage til den originale fil, ark og rækkeindeks for skrive-tilbage operationer.
Document Indeksering:Dokumenter udtrækkes med layout-bevidsthed, opdelt i semantiske segmenter med overlap, indlejret og gemt med referencer til kildefilen, sektionen og sidenummeret.
Cross-Document Entity Index:Et separat indeks linker enheder (leverandører, produkter, personer, fakturanumre) på tværs af dokumenter, hvilket muliggør krydsreference forespørgsler til hurtigt at finde alle nævnelser af en enhed uanset kildefil.
Hentningspipeline
Når en bruger stiller et krydsdokument spørgsmål, identificerer orkestratoren hvilke dokumenter og agenter der er nødvendige, udfører vektorsøgninger for at finde relevante data på tværs af alle kilder, delegerer til specialiserede agenter til behandling og aggregerer resultaterne til et sammenhængende svar.
Orkestreringsmotor
Forespørgselsnedbrydning
Orkestratoren bryder komplekse forespørgsler ned i flertrins udførelsesplaner. For eksempel ville et spørgsmål som "Find leverandører med sene leverancer, tjek kontraktstraffeklausuler og beregn kravbare straffe" blive nedbrudt i sekventielle trin: forespørgsel om leveringsdata via Spreadsheet Agent, søgning i kontrakter via Document Agent og sammenføjning af resultater via Cross-Reference Agent.
Agentkommunikation
- Agenter kommunikerer via strukturerede meddelelser med typede nyttelaster
- Orkestratoren opretholder udførelseskontekst med mellemliggende resultater
- Fejlede trin udløser retry eller fallback strategier
- Delvise resultater returneres, hvis nogle trin fuldføres, men andre fejler
Regnearksredigering & Skrive-tilbage
Redigeringsmuligheder
Platformen understøtter celleopdateringer, kolonneudfyldninger, rækkeindsættelse, betinget formatering, oprettelse af nye ark og formelinjektion — alt foreslået af AI-agenter og anvendt med brugerens godkendelse.
Skrive-tilbage Pipeline
- Agenten bestemmer redigeringsoperationen (hvilke celler, hvilke værdier)
- Redigeringsforhåndsvisning vises til brugeren med diff-fremhævning (gamle vs. nye værdier)
- Brugeren godkender eller ændrer de foreslåede ændringer
- Backend anvender ændringer til filen ved hjælp af passende biblioteker pr. format
- Ændret fil gemmes som en ny version med redigeringsspor
- Vektorindeks opdateres for ændrede rækker
Versionskontrol
- Hver redigering skaber en ny filversion (original bevaret)
- Diff-log viser præcis, hvad der blev ændret, hvornår og hvorfor
- Tilbagefør til enhver tidligere version med et klik
- Redigeringsattribution: hvilken agent eller bruger der foretog hver ændring
Behandlingspipeline for Nye Dokumenter
Filupload Flow
- Bruger uploader filer (træk-og-slip eller API)
- Filtype detekteres og dirigeres til passende processor
- Spreadsheets: Parsede, skema udledt, rækker indlejret og indekseret
- PDFs: OCR (hvis scannet) → layoutudtræk → chunking → indlejring → indeksering
- Word Docs: Tekstudtræk → sektion parsing → chunking → indlejring → indeksering
- Entity Extraction: NER identificerer personer, organisationer, datoer, beløb på tværs af alle dokumenter
- Cross-Document Linking: Enhedsindeks opdateres med nye nævnelser
- Filmetadata gemt i PostgreSQL, indlejringer i vektor DB, originaler i S3
Understøttede Formater
Platformen understøtter Excel, CSV og Google Sheets (med fuld skrive-tilbage), native og scannede PDF'er (kun læsning) og Word-dokumenter og Google Docs (begrænset skrive-tilbage).
Nøglefunktioner
- Multi-Agent Arkitektur — Specialiserede agenter til regneark, dokumenter og krydsreferering
- AI Orchestrator — Nedbryder komplekse forespørgsler i flertrins udførelsesplaner
- Krydsdokument Reference — Enhedslinking og dataafstemning på tværs af filtyper
- Vektor-drevet Hentning — Semantisk søgning håndterer datasæt ud over LLM kontekstgrænser
- Regnearks Skrive-tilbage — AI redigerer celler, udfylder kolonner og indsprøjter formler med brugerens godkendelse
- Støtte til Store Datasæt — 50.000+ række regneark indekseret og forespørgbar via vektorsøgning
- Versionskontrol — Hver redigering versioneret med diff-log og tilbageføringsmulighed
- Naturligt Sprog Forespørgsler — Stil komplekse analytiske spørgsmål på almindeligt engelsk
- Multi-Format Support — Excel, CSV, Google Sheets, PDF, Word, Google Docs
- Redigeringsforhåndsvisning — Diff-fremhævet forhåndsvisning før ændringer anvendes
Resultater
Teknologistak
caseStudyDetail.more Casestudier
Udforsk flere af vores tekniske implementeringer
Lokal-First Dokument RAG System med Hybrid Søgning & Multi-Format Support
Et team, der bygger udviklerværktøjer, havde brug for et fuldt lokalt, privatlivsbevarende dokumentintelligenssystem, der kunne indlæse flere filformater, opbygge søgbare vidensbaser og besvare naturlige sprogforespørgsler ved hjælp af Retrieval-Augmented Generation — uden at sende nogen data til eksterne API'er.
AI-drevet fakturabehandling med OCR og QuickBooks-integration
En mellemstor virksomhed, der månedligt behandler hundredvis af leverandørfakturaer, havde brug for at eliminere manuel dataindtastning ved automatisk at udtrække fakturadata ved hjælp af AI/OCR og synkronisere dem direkte til QuickBooks for bogføring og sporing af betalinger.
Klar til at Transformere Din Virksomhed?
Lad os drøfte, hvordan vi kan anvende lignende løsninger til dine udfordringer.