Wie verbessert die Multi-Agenten-Orchestrierung die Dokumentenanalyse im Vergleich zur Übermittlung aller Inhalte an ein einzelnes LLM?

MicrocosmWorks hat eine Multi-Agenten-Architektur entwickelt, bei der spezialisierte Agenten verschiedene Aspekte der Dokumentenanalyse handhaben, wie z. B. ein Tabellenextraktions-Agent für Tabellenkalkulationen, ein Textzusammenfassungs-Agent für narrative Dokumente und ein Querverweis-Agent, der Beziehungen zwischen Datenpunkten über mehrere Dateien hinweg identifiziert. Diese Arbeitsteilung führt zu genaueren Ergebnissen als ein einzelner monolithischer LLM-Aufruf, da jeder Agent innerhalb eines fokussierten Kontextfensters arbeitet und domänenspezifische Prompting-Strategien anwendet.

Kann das System Tabellenkalkulationen mit komplexen Formeln, Pivot-Tabellen und mehreren verknüpften Blättern analysieren?

Ja, MicrocosmWorks hat eine Engine zur Analyse von Tabellenkalkulationen entwickelt, die Formelabhängigkeiten auflöst, Pivot-Tabellen-Zusammenfassungen erweitert und übergreifende Blattreferenzen verfolgt, bevor die strukturierten Daten an die Analyse-Agenten weitergegeben werden. Das System wandelt komplexe Excel-Konstrukte in abgeflachte Datenrepräsentationen um, über die LLMs effektiv nachdenken können, und bewahrt den relationalen Kontext zwischen den Blättern, damit die AI Fragen beantworten kann wie 'welche Abteilung ihr Q3-Budget überschritten hat', die das Verknüpfen von Daten über mehrere Registerkarten hinweg erfordern.

Wie funktioniert die dokumentübergreifende Referenzerkennung bei der Analyse einer Mischung aus PDFs, Tabellenkalkulationen und Word-Dokumenten?

MicrocosmWorks implementierte eine Entity-Linking-Pipeline, die benannte Entitäten, numerische Identifikatoren und Datumsreferenzen aus allen hochgeladenen Dokumenten extrahiert und dann einen Wissensgraphen aufbaut, der zusammengehörige Erwähnungen über Dateien hinweg verbindet. Wenn ein Benutzer eine Frage stellt, durchläuft der Querverweis-Agent diesen Graphen, um relevante Daten aus mehreren Quelldokumenten zu ziehen und liefert Antworten, die Informationen auf eine Weise synthetisieren, die einen menschlichen Analysten Stunden manueller Querverweise kosten würde.

Welche Dateigrößen- und Dokumentvolumen-Grenzwerte unterstützt das Multi-Agenten-Analysesystem?

MicrocosmWorks hat das System entwickelt, um Dokumentstapel von bis zu 500 Dateien pro Analysesitzung zu verarbeiten, wobei einzelne Dateigrößen bis zu 100 MB für Tabellenkalkulationen und 50 MB für PDFs betragen dürfen. Große Dokumente werden automatisch gechunked und parallel über mehrere Agenteninstanzen hinweg verarbeitet, und der Orchestrator behält eine kohärente Ansicht des gesamten Dokumentensatzes bei, indem er die Agentenausgaben zu einer vereinheitlichten Wissensrepräsentation aggregiert.

Wie viel kostet der Aufbau einer maßgeschneiderten Multi-Agenten-Dokumentenanalyseplattform?

MicrocosmWorks entwickelt Multi-Agenten-Dokumentenanalyseplattformen zu Preisen von $30-$50/Stunde, wobei ein produktionsreifes System typischerweise 3-5 Monate Entwicklungszeit benötigt, einschließlich Dokumenten-Parsing, Agenten-Orchestrierung, Querverweis-Erkennung und einer benutzerfreundlichen Abfrageschnittstelle. Die Kosten pro Abfrage im Produktionseinsatz hängen vom Dokumentenvolumen und der LLM Token-Nutzung ab, aber Multi-Agenten-Architekturen reduzieren tatsächlich die LLM-Kosten, indem sie nur relevanten Kontext an jeden Agenten weiterleiten, anstatt ganze Dokumentsätze in einen einzigen Prompt zu stopfen.

AI-Powered Spreadsheet & Document Analysis with Multi-Age...

Die Arbeit mit Geschäftsdokumenten in großem Maßstab war mit Schwierigkeiten behaftet:

Isolierte Daten — Kritische Informationen waren über Dutzende von Tabellen, PDFs und Word-Dokumenten verteilt, ohne die Möglichkeit, diese übergreifend abzufragen
Manuelle Querverweise — Das Vergleichen einer Lieferantenpreisliste (Excel) mit Vertragsbedingungen (PDF) und der Rechnungshistorie (CSV) erforderte Stunden manueller Recherche
Formelbeschränkungen — Komplexe analytische Fragen konnten nicht allein mit Tabellenformeln beantwortet werden
Context Window Limits — Große Tabellen (50.000+ Zeilen) überschritten die LLM Context Windows, wodurch naive Ansätze scheiterten
Keine Bearbeitungsfunktionen — Bestehende AI-Tools konnten Dokumente analysieren, aber keine Änderungen in die Quelldateien zurückschreiben
Mehrstufiges Reasoning — Fragen, die eine sequentielle Analyse über Dokumente hinweg erforderten, benötigten orchestrierte mehrstufige Workflows

Wir haben eine KI-Dokumentenintelligenzplattform mit mehreren Agenten entwickelt, die über einen Vektordatenbank-gestützten Abruf für große Dokumente, spezialisierte Agenten für verschiedene Dokumenttypen, einen Orchestrator für dokumentenübergreifendes Reasoning und Rückschreibfunktionen für die Tabellenbearbeitung verfügt.

Architektur

Orchestrator: AI Orchestrator-Agent, der mehrstufige Workflows über spezialisierte Agenten hinweg koordiniert
Spreadsheet Agent: Übernimmt die Analyse von Excel/CSV/Google Sheets, die Formelerstellung und Zellbearbeitung
Document Agent: Übernimmt das Lesen, Extrahieren und Zusammenfassen von PDF/Word-Dokumenten
Cross-Reference Agent: Führt Joins, Vergleiche und Abgleiche über Dokumenttypen hinweg durch
Vector Database: Milvus für die semantische Indexierung von Dokument-Chunks und Tabellenzeilen
LLM Layer: Multi-Modell-Ansatz mit Function Calling
Backend: Python/FastAPI für die Dokumentenverarbeitung und Agenten-Orchestrierung
Frontend: React-Dashboard mit Dateiupload, Chat-Interface und Live-Tabellenvorschau
Storage: S3 für Originaldateien, PostgreSQL für Metadaten und Job-Tracking

Multi-Agenten-Architektur

Agenten-Rollen

1. Orchestrator Agent

Der zentrale Koordinator, der Benutzeranfragen entgegennimmt, diese in Unteraufgaben zerlegt und an spezialisierte Agenten delegiert. Er analysiert die Benutzerabsicht, erstellt Ausführungspläne, verwaltet den Datenfluss zwischen den Agenten, aggregiert Ergebnisse und handhabt die Fehlerbehebung.

2. Spreadsheet Agent

Spezialisiert auf Operationen mit tabellarischen Daten, einschließlich Schemaverständnis, Übersetzung natürlicher Sprache in Abfragen, Aggregationen und Filterung, Formelerstellung, Zellbearbeitung und Spaltenfüllung, Diagrammvorschläge sowie Datenvalidierung/Anomalieerkennung.

3. Document Agent

Spezialisiert auf unstrukturierte und semi-strukturierte Dokumente, einschließlich OCR und layoutbewusster Text extraktion, Abschnittsidentifikation, Schlüssel-Wert-Extraktion aus Verträgen, Zusammenfassung, semantischer Klauselsuche und Tabellenextraktion aus PDFs/Word docs.

4. Cross-Reference Agent

Spezialisiert auf multi-dokumenten Reasoning, einschließlich Entitätsabgleich über Dokumente hinweg, Datenabgleich und Diskrepanzidentifikation, Zeitachsenanalyse, Abhängigkeitsauflösung für widersprüchliche Daten und SQL-ähnliche Join-Operationen über Dokumententypen hinweg.

Vector Database Layer

Warum Vector DB für Dokumente

Große Dokumente und Tabellen passen nicht in ein einzelnes LLM Context Window. Die Vektordatenbank ermöglicht die semantische Suche über Millionen von Zeilen und Dokument-Chunks, den Abruf nur relevanter Abschnitte pro Abfrage, die dokumentenübergreifende Entitätsverknüpfung über Embedding-Ähnlichkeit und eine persistente Indexierung, die bei jeder Abfrage keine Neuverarbeitung erfordert.

Indexierungsstrategie

Tabellen-Indexierung:

Jede Zeile wird durch Verketten der Schlüsselspaltenwerte in eine natürlichsprachliche Repräsentation umgewandelt, dann eingebettet und mit Verweisen zurück zur Originaldatei, zum Blatt und zum Zeilenindex für Rückschreiboperationen gespeichert.

Dokumenten-Indexierung:

Dokumente werden layoutbewusst extrahiert, in semantische Segmente mit Überlappung zerlegt, eingebettet und mit Verweisen auf die Quelldatei, den Abschnitt und die Seitenzahl gespeichert.

Dokumentenübergreifender Entitätsindex:

Ein separater Index verknüpft Entitäten (Anbieter, Produkte, Personen, Rechnungsnummern) über Dokumente hinweg, wodurch Querverweisabfragen schnell alle Erwähnungen einer Entität finden können, unabhängig von der Quelldatei.

Abrufpipeline

Wenn ein Benutzer eine dokumentenübergreifende Frage stellt, identifiziert der Orchestrator, welche Dokumente und Agenten benötigt werden, führt Vektor-Suchen durch, um relevante Daten aus allen Quellen zu finden, delegiert die Verarbeitung an spezialisierte Agenten und aggregiert die Ergebnisse zu einer kohärenten Antwort.

Orchestrierungs-Engine

Abfragezerlegung

Der Orchestrator zerlegt komplexe Abfragen in mehrstufige Ausführungspläne. Eine Frage wie zum Beispiel „Lieferanten mit verspäteten Lieferungen finden, Vertragsstrafklauseln prüfen und einforderbare Strafen berechnen“ würde in sequentielle Schritte zerlegt: Abfrage von Lieferdaten über den Spreadsheet Agent, Suche in Verträgen über den Document Agent und Verknüpfung der Ergebnisse über den Cross-Reference Agent.

Agentenkommunikation

Agenten kommunizieren über strukturierte Nachrichten mit typisierten Payloads
Der Orchestrator verwaltet den Ausführungskontext mit Zwischenergebnissen
Fehlgeschlagene Schritte lösen Wiederholungs- oder Fallback-Strategien aus
Teilergebnisse werden zurückgegeben, wenn einige Schritte erfolgreich sind, andere jedoch fehlschlagen

Tabellenbearbeitung & Rückschreiben

Bearbeitungsfunktionen

Die Plattform unterstützt Zellaktualisierungen, Spaltenfüllungen, Zeileneinfügungen, bedingte Formatierungen, das Erstellen neuer Blätter und das Einfügen von Formeln – alles von AI-Agenten vorgeschlagen und mit Benutzergenehmigung angewendet.

Rückschreib-Pipeline

Agent bestimmt den Bearbeitungsvorgang (welche Zellen, welche Werte)
Bearbeitungsvorschau wird dem Benutzer mit Diff-Hervorhebung angezeigt (alte vs. neue Werte)
Benutzer genehmigt oder modifiziert die vorgeschlagenen Änderungen
Backend wendet Änderungen an der Datei mit den entsprechenden Bibliotheken pro Format an
Die geänderte Datei wird als neue Version mit Bearbeitungs-Audit-Trail gespeichert
Vektorindex für geänderte Zeilen aktualisiert

Versionskontrolle

Jede Bearbeitung erstellt eine neue Dateiversion (Original bleibt erhalten)
Diff-Log zeigt genau, was sich wann und warum geändert hat
Rollback zu jeder früheren Version mit einem Klick
Bearbeitungszuordnung: welcher Agent oder Benutzer hat jede Änderung vorgenommen

Verarbeitungspipeline für neue Dokumente

Dateiupload-Fluss

Benutzer lädt Dateien hoch (Drag-and-Drop oder API)
Dateityp erkannt und an den entsprechenden Prozessor weitergeleitet
Tabellen: Geparsed, Schema abgeleitet, Zeilen eingebettet und indiziert
PDFs: OCR (falls gescannt) → Layout-Extraktion → Chunking → Embedding → Indexierung
Word Docs: Text extraktion → Abschnitts-Parsing → Chunking → Embedding → Indexierung
Entitätsextraktion: NER identifiziert Personen, Organisationen, Daten, Beträge in allen Dokumenten
Dokumentenübergreifende Verknüpfung: Entitätsindex mit neuen Erwähnungen aktualisiert
Dateimetadaten in PostgreSQL, Embeddings in Vector DB, Originale in S3 gespeichert

Unterstützte Formate

Die Plattform unterstützt Excel, CSV und Google Sheets (mit vollständigem Rückschreiben), native und gescannte PDFs (schreibgeschützt) sowie Word docs und Google Docs (eingeschränktes Rückschreiben).

Hauptmerkmale

Multi-Agent Architecture — Spezialisierte Agenten für Tabellen, Dokumente und Querverweise
AI Orchestrator — Zerlegt komplexe Abfragen in mehrstufige Ausführungspläne
Cross-Document Reference — Entitätsverknüpfung und Datenabgleich über Dateitypen hinweg
Vector-Powered Retrieval — Semantische Suche verarbeitet Datensätze jenseits der LLM Context Limits
Spreadsheet Write-Back — AI bearbeitet Zellen, füllt Spalten und fügt Formeln mit Benutzergenehmigung ein
Large Dataset Support — Tabellen mit über 50.000 Zeilen werden indexiert und sind über Vektor-Suche abfragbar
Version Control — Jede Bearbeitung wird versioniert mit Diff-Log und Rollback-Funktion
Natural Language Queries — Komplexe analytische Fragen in natürlicher Sprache stellen
Multi-Format Support — Excel, CSV, Google Sheets, PDF, Word, Google Docs
Edit Preview — Diff-hervorgehobene Vorschau, bevor Änderungen angewendet werden

KI-gestützte Tabellen- & Dokumentenanalyse mit Multi-Agenten-Orchestrierung und dokumentenübergreifender Referenzierung

Die Herausforderung

Unsere Lösung

Architektur

Multi-Agenten-Architektur

Agenten-Rollen

Vector Database Layer

Warum Vector DB für Dokumente

Indexierungsstrategie

Abrufpipeline

Orchestrierungs-Engine

Abfragezerlegung

Agentenkommunikation

Tabellenbearbeitung & Rückschreiben

Bearbeitungsfunktionen

Rückschreib-Pipeline

Versionskontrolle

Verarbeitungspipeline für neue Dokumente

Dateiupload-Fluss

Unterstützte Formate

Hauptmerkmale

Ergebnisse

Technologie-Stack

caseStudyDetail.more Fallstudien

Lokal-Zuerst Dokument RAG-System mit Hybrid-Suche & Multi-Format-Unterstützung

Kickly: KI-gestützte Projektplattform für Startups

Bereit, Ihr Unternehmen zu transformieren?

KI-gestützte Rechnungsverarbeitung mit OCR und QuickBooks-Integration

Häufig gestellte Fragen