MicrocosmWorksInnovation und Architektur digitaler Kosmen
Über unsKontakt
MicrocosmWorksInnovieren und Gestalten digitaler Kosmen

Bereitstellung von IT-Lösungen, die zählen. Wir sind leidenschaftlich für Technologie, Sicherheit und helfen Unternehmen, durch zuverlässige, innovative IT-Infrastruktur zu wachsen.

[email protected]
+91 7011868196
New Delhi, India

AI Wachstumszentrum

AI HubStartup-InnovationUnternehmensbeschleuniger

Lösungen

Alle LösungenWellness- & Fitness-AppsAI Video PlattformAI Agent Entwicklung

Ressourcen

EinblickeBranchenleitfädenAnwendungsfall-BlaupausenArchitektur-MusterFallstudien

Unternehmen

Über unsKontaktUnsere Arbeit

Dienstleistungen

Digitale BeratungCloud-InfrastrukturSaaS-EntwicklungKI-EntwicklungVideotechnologie
ERP-EntwicklungZoho-AnpassungOdoo-EntwicklungSalesforce-IntegrationBenutzerdefinierte CRM-Entwicklung
QuickBooks-IntegrationIoT-LösungenBlockchain-Entwicklung
Cybersecurity-BeratungIT-Support - L3

© 2026 MicrocosmWorks. Alle Rechte vorbehalten.

DatenschutzrichtlinieNutzungsbedingungen
Zurück zu Fallstudien
Document IntelligenceVeröffentlicht June 22, 2026 · Aktualisiert June 22, 2026

KI-gestützte Tabellen- & Dokumentenanalyse mit Multi-Agenten-Orchestrierung und dokumentenübergreifender Referenzierung

Ein Unternehmensdatenteam musste große Sammlungen von Tabellen und Dokumenten (Excel, CSV, Google Sheets, PDFs, Word docs) mittels natürlicher Sprache analysieren, abfragen und bearbeiten – mit der Möglichkeit, Daten über mehrere Dateien hinweg zu referenzieren und mehrstufige analytische Workflows ohne manuelle Datenaufbereitung auszuführen.

Ihr Projekt besprechen
spreadsheet-docs-analysis-multi-agent.webp
Document Intelligence
Domain
15
Technologies
6
Key Results
Delivered
Status

Die Herausforderung

Die Arbeit mit Geschäftsdokumenten in großem Maßstab war mit Schwierigkeiten behaftet:

  • Isolierte Daten — Kritische Informationen waren über Dutzende von Tabellen, PDFs und Word-Dokumenten verteilt, ohne die Möglichkeit, diese übergreifend abzufragen
  • Manuelle Querverweise — Das Vergleichen einer Lieferantenpreisliste (Excel) mit Vertragsbedingungen (PDF) und der Rechnungshistorie (CSV) erforderte Stunden manueller Recherche
  • Formelbeschränkungen — Komplexe analytische Fragen konnten nicht allein mit Tabellenformeln beantwortet werden
  • Context Window Limits — Große Tabellen (50.000+ Zeilen) überschritten die LLM Context Windows, wodurch naive Ansätze scheiterten
  • Keine Bearbeitungsfunktionen — Bestehende AI-Tools konnten Dokumente analysieren, aber keine Änderungen in die Quelldateien zurückschreiben
  • Mehrstufiges Reasoning — Fragen, die eine sequentielle Analyse über Dokumente hinweg erforderten, benötigten orchestrierte mehrstufige Workflows

Unsere Lösung

Wir haben eine KI-Dokumentenintelligenzplattform mit mehreren Agenten entwickelt, die über einen Vektordatenbank-gestützten Abruf für große Dokumente, spezialisierte Agenten für verschiedene Dokumenttypen, einen Orchestrator für dokumentenübergreifendes Reasoning und Rückschreibfunktionen für die Tabellenbearbeitung verfügt.

Architektur

  • Orchestrator: AI Orchestrator-Agent, der mehrstufige Workflows über spezialisierte Agenten hinweg koordiniert
  • Spreadsheet Agent: Übernimmt die Analyse von Excel/CSV/Google Sheets, die Formelerstellung und Zellbearbeitung
  • Document Agent: Übernimmt das Lesen, Extrahieren und Zusammenfassen von PDF/Word-Dokumenten
  • Cross-Reference Agent: Führt Joins, Vergleiche und Abgleiche über Dokumenttypen hinweg durch
  • Vector Database: Milvus für die semantische Indexierung von Dokument-Chunks und Tabellenzeilen
  • LLM Layer: Multi-Modell-Ansatz mit Function Calling
  • Backend: Python/FastAPI für die Dokumentenverarbeitung und Agenten-Orchestrierung
  • Frontend: React-Dashboard mit Dateiupload, Chat-Interface und Live-Tabellenvorschau
  • Storage: S3 für Originaldateien, PostgreSQL für Metadaten und Job-Tracking

Multi-Agenten-Architektur

Agenten-Rollen

1. Orchestrator Agent

Der zentrale Koordinator, der Benutzeranfragen entgegennimmt, diese in Unteraufgaben zerlegt und an spezialisierte Agenten delegiert. Er analysiert die Benutzerabsicht, erstellt Ausführungspläne, verwaltet den Datenfluss zwischen den Agenten, aggregiert Ergebnisse und handhabt die Fehlerbehebung.

2. Spreadsheet Agent

Spezialisiert auf Operationen mit tabellarischen Daten, einschließlich Schemaverständnis, Übersetzung natürlicher Sprache in Abfragen, Aggregationen und Filterung, Formelerstellung, Zellbearbeitung und Spaltenfüllung, Diagrammvorschläge sowie Datenvalidierung/Anomalieerkennung.

3. Document Agent

Spezialisiert auf unstrukturierte und semi-strukturierte Dokumente, einschließlich OCR und layoutbewusster Text extraktion, Abschnittsidentifikation, Schlüssel-Wert-Extraktion aus Verträgen, Zusammenfassung, semantischer Klauselsuche und Tabellenextraktion aus PDFs/Word docs.

4. Cross-Reference Agent

Spezialisiert auf multi-dokumenten Reasoning, einschließlich Entitätsabgleich über Dokumente hinweg, Datenabgleich und Diskrepanzidentifikation, Zeitachsenanalyse, Abhängigkeitsauflösung für widersprüchliche Daten und SQL-ähnliche Join-Operationen über Dokumententypen hinweg.

Vector Database Layer

Warum Vector DB für Dokumente

Große Dokumente und Tabellen passen nicht in ein einzelnes LLM Context Window. Die Vektordatenbank ermöglicht die semantische Suche über Millionen von Zeilen und Dokument-Chunks, den Abruf nur relevanter Abschnitte pro Abfrage, die dokumentenübergreifende Entitätsverknüpfung über Embedding-Ähnlichkeit und eine persistente Indexierung, die bei jeder Abfrage keine Neuverarbeitung erfordert.

Indexierungsstrategie

Tabellen-Indexierung:

Jede Zeile wird durch Verketten der Schlüsselspaltenwerte in eine natürlichsprachliche Repräsentation umgewandelt, dann eingebettet und mit Verweisen zurück zur Originaldatei, zum Blatt und zum Zeilenindex für Rückschreiboperationen gespeichert.

Dokumenten-Indexierung:

Dokumente werden layoutbewusst extrahiert, in semantische Segmente mit Überlappung zerlegt, eingebettet und mit Verweisen auf die Quelldatei, den Abschnitt und die Seitenzahl gespeichert.

Dokumentenübergreifender Entitätsindex:

Ein separater Index verknüpft Entitäten (Anbieter, Produkte, Personen, Rechnungsnummern) über Dokumente hinweg, wodurch Querverweisabfragen schnell alle Erwähnungen einer Entität finden können, unabhängig von der Quelldatei.

Abrufpipeline

Wenn ein Benutzer eine dokumentenübergreifende Frage stellt, identifiziert der Orchestrator, welche Dokumente und Agenten benötigt werden, führt Vektor-Suchen durch, um relevante Daten aus allen Quellen zu finden, delegiert die Verarbeitung an spezialisierte Agenten und aggregiert die Ergebnisse zu einer kohärenten Antwort.

Orchestrierungs-Engine

Abfragezerlegung

Der Orchestrator zerlegt komplexe Abfragen in mehrstufige Ausführungspläne. Eine Frage wie zum Beispiel „Lieferanten mit verspäteten Lieferungen finden, Vertragsstrafklauseln prüfen und einforderbare Strafen berechnen“ würde in sequentielle Schritte zerlegt: Abfrage von Lieferdaten über den Spreadsheet Agent, Suche in Verträgen über den Document Agent und Verknüpfung der Ergebnisse über den Cross-Reference Agent.

Agentenkommunikation

  • Agenten kommunizieren über strukturierte Nachrichten mit typisierten Payloads
  • Der Orchestrator verwaltet den Ausführungskontext mit Zwischenergebnissen
  • Fehlgeschlagene Schritte lösen Wiederholungs- oder Fallback-Strategien aus
  • Teilergebnisse werden zurückgegeben, wenn einige Schritte erfolgreich sind, andere jedoch fehlschlagen

Tabellenbearbeitung & Rückschreiben

Bearbeitungsfunktionen

Die Plattform unterstützt Zellaktualisierungen, Spaltenfüllungen, Zeileneinfügungen, bedingte Formatierungen, das Erstellen neuer Blätter und das Einfügen von Formeln – alles von AI-Agenten vorgeschlagen und mit Benutzergenehmigung angewendet.

Rückschreib-Pipeline

  1. Agent bestimmt den Bearbeitungsvorgang (welche Zellen, welche Werte)
  2. Bearbeitungsvorschau wird dem Benutzer mit Diff-Hervorhebung angezeigt (alte vs. neue Werte)
  3. Benutzer genehmigt oder modifiziert die vorgeschlagenen Änderungen
  4. Backend wendet Änderungen an der Datei mit den entsprechenden Bibliotheken pro Format an
  5. Die geänderte Datei wird als neue Version mit Bearbeitungs-Audit-Trail gespeichert
  6. Vektorindex für geänderte Zeilen aktualisiert

Versionskontrolle

  • Jede Bearbeitung erstellt eine neue Dateiversion (Original bleibt erhalten)
  • Diff-Log zeigt genau, was sich wann und warum geändert hat
  • Rollback zu jeder früheren Version mit einem Klick
  • Bearbeitungszuordnung: welcher Agent oder Benutzer hat jede Änderung vorgenommen

Verarbeitungspipeline für neue Dokumente

Dateiupload-Fluss

  1. Benutzer lädt Dateien hoch (Drag-and-Drop oder API)
  2. Dateityp erkannt und an den entsprechenden Prozessor weitergeleitet
  3. Tabellen: Geparsed, Schema abgeleitet, Zeilen eingebettet und indiziert
  4. PDFs: OCR (falls gescannt) → Layout-Extraktion → Chunking → Embedding → Indexierung
  5. Word Docs: Text extraktion → Abschnitts-Parsing → Chunking → Embedding → Indexierung
  6. Entitätsextraktion: NER identifiziert Personen, Organisationen, Daten, Beträge in allen Dokumenten
  7. Dokumentenübergreifende Verknüpfung: Entitätsindex mit neuen Erwähnungen aktualisiert
  8. Dateimetadaten in PostgreSQL, Embeddings in Vector DB, Originale in S3 gespeichert

Unterstützte Formate

Die Plattform unterstützt Excel, CSV und Google Sheets (mit vollständigem Rückschreiben), native und gescannte PDFs (schreibgeschützt) sowie Word docs und Google Docs (eingeschränktes Rückschreiben).

Hauptmerkmale

  1. Multi-Agent Architecture — Spezialisierte Agenten für Tabellen, Dokumente und Querverweise
  2. AI Orchestrator — Zerlegt komplexe Abfragen in mehrstufige Ausführungspläne
  3. Cross-Document Reference — Entitätsverknüpfung und Datenabgleich über Dateitypen hinweg
  4. Vector-Powered Retrieval — Semantische Suche verarbeitet Datensätze jenseits der LLM Context Limits
  5. Spreadsheet Write-Back — AI bearbeitet Zellen, füllt Spalten und fügt Formeln mit Benutzergenehmigung ein
  6. Large Dataset Support — Tabellen mit über 50.000 Zeilen werden indexiert und sind über Vektor-Suche abfragbar
  7. Version Control — Jede Bearbeitung wird versioniert mit Diff-Log und Rollback-Funktion
  8. Natural Language Queries — Komplexe analytische Fragen in natürlicher Sprache stellen
  9. Multi-Format Support — Excel, CSV, Google Sheets, PDF, Word, Google Docs
  10. Edit Preview — Diff-hervorgehobene Vorschau, bevor Änderungen angewendet werden

Ergebnisse

Abfragegeschwindigkeit: Dokumentenübergreifende Fragen in 10-30 Sekunden beantwortet im Vergleich zu stundenlanger manueller Recherche
Datengröße: Über 500 Dokumente und Tabellen mit insgesamt über 2 Millionen indexierten Zeilen verarbeitet
Bearbeitungsgenauigkeit: Von der AI vorgeschlagene Tabellenbearbeitungen wurden zu 85% ohne Änderungen akzeptiert
Querverweise: Entitätsabgleich verknüpfte Daten über Dokumente hinweg mit 92% Genauigkeit
Abrufpräzision: Vektor-Suche lieferte relevante Chunks in den Top-5-Ergebnissen zu 94% der Zeit
Zeitersparnis: Mehr-Dokumenten-Analyse-Workflows von Stunden auf Minuten reduziert

Technologie-Stack

PythonFastAPILLM (GPT-4oClaude)MilvusOpenAI EmbeddingsLangChainLangGraphReactPostgreSQLS3Job QueueRedisOCRDocument Processing Libraries

caseStudyDetail.more Fallstudien

Entdecken Sie mehr unserer technischen Implementierungen

Document Intelligence

Lokal-Zuerst Dokument RAG-System mit Hybrid-Suche & Multi-Format-Unterstützung

Ein Team, das Entwicklertools entwickelt, benötigte ein vollständig lokales, datenschutzfreundliches Dokumenten-Intelligenzsystem, das mehrere Dateiformate verarbeiten, durchsuchbare Wissensdatenbanken erstellen und natürliche Sprachanfragen mittels Retrieval-Augmented Generation beantworten konnte — ohne Daten an externe APIs zu senden.

Fallstudie lesen
AI Accounting

KI-gestützte Rechnungsverarbeitung mit OCR und QuickBooks-Integration

Ein mittelständisches Unternehmen, das monatlich Hunderte von Lieferantenrechnungen verarbeitete, musste die manuelle Dateneingabe eliminieren, indem es Rechnungsdaten automatisch mithilfe von AI/OCR extrahierte und diese direkt mit QuickBooks für die Buchhaltung und Zahlungsverfolgung synchronisierte.

Fallstudie lesen
Video Encoding

Clientseitige Anzeigeninsertion (CSAI) mit SCTE-35 Marker-Parsing & Multi-Plattform-Player-Integration

Eine Video-Streaming-Plattform musste die Clientseitige Anzeigeninsertion (CSAI) über Web-, Mobil- und Connected TV-Apps hinweg implementieren – was personalisierte, gerätespezifische Anzeigenerlebnisse mit vollständiger Unterstützung der Anzeigeninteraktion (anklickbare Overlays, Companion-Banner, Skip-Buttons) ermöglicht, die serverseitige Insertion nicht bieten kann.

Fallstudie lesen

Häufig gestellte Fragen

MicrocosmWorks hat eine Multi-Agenten-Architektur entwickelt, bei der spezialisierte Agenten verschiedene Aspekte der Dokumentenanalyse handhaben, wie z. B. ein Tabellenextraktions-Agent für Tabellenkalkulationen, ein Textzusammenfassungs-Agent für narrative Dokumente und ein Querverweis-Agent, der Beziehungen zwischen Datenpunkten über mehrere Dateien hinweg identifiziert. Diese Arbeitsteilung führt zu genaueren Ergebnissen als ein einzelner monolithischer LLM-Aufruf, da jeder Agent innerhalb eines fokussierten Kontextfensters arbeitet und domänenspezifische Prompting-Strategien anwendet.

Ja, MicrocosmWorks hat eine Engine zur Analyse von Tabellenkalkulationen entwickelt, die Formelabhängigkeiten auflöst, Pivot-Tabellen-Zusammenfassungen erweitert und übergreifende Blattreferenzen verfolgt, bevor die strukturierten Daten an die Analyse-Agenten weitergegeben werden. Das System wandelt komplexe Excel-Konstrukte in abgeflachte Datenrepräsentationen um, über die LLMs effektiv nachdenken können, und bewahrt den relationalen Kontext zwischen den Blättern, damit die AI Fragen beantworten kann wie 'welche Abteilung ihr Q3-Budget überschritten hat', die das Verknüpfen von Daten über mehrere Registerkarten hinweg erfordern.

MicrocosmWorks implementierte eine Entity-Linking-Pipeline, die benannte Entitäten, numerische Identifikatoren und Datumsreferenzen aus allen hochgeladenen Dokumenten extrahiert und dann einen Wissensgraphen aufbaut, der zusammengehörige Erwähnungen über Dateien hinweg verbindet. Wenn ein Benutzer eine Frage stellt, durchläuft der Querverweis-Agent diesen Graphen, um relevante Daten aus mehreren Quelldokumenten zu ziehen und liefert Antworten, die Informationen auf eine Weise synthetisieren, die einen menschlichen Analysten Stunden manueller Querverweise kosten würde.

MicrocosmWorks hat das System entwickelt, um Dokumentstapel von bis zu 500 Dateien pro Analysesitzung zu verarbeiten, wobei einzelne Dateigrößen bis zu 100 MB für Tabellenkalkulationen und 50 MB für PDFs betragen dürfen. Große Dokumente werden automatisch gechunked und parallel über mehrere Agenteninstanzen hinweg verarbeitet, und der Orchestrator behält eine kohärente Ansicht des gesamten Dokumentensatzes bei, indem er die Agentenausgaben zu einer vereinheitlichten Wissensrepräsentation aggregiert.

MicrocosmWorks entwickelt Multi-Agenten-Dokumentenanalyseplattformen zu Preisen von $30-$50/Stunde, wobei ein produktionsreifes System typischerweise 3-5 Monate Entwicklungszeit benötigt, einschließlich Dokumenten-Parsing, Agenten-Orchestrierung, Querverweis-Erkennung und einer benutzerfreundlichen Abfrageschnittstelle. Die Kosten pro Abfrage im Produktionseinsatz hängen vom Dokumentenvolumen und der LLM Token-Nutzung ab, aber Multi-Agenten-Architekturen reduzieren tatsächlich die LLM-Kosten, indem sie nur relevanten Kontext an jeden Agenten weiterleiten, anstatt ganze Dokumentsätze in einen einzigen Prompt zu stopfen.

Bereit, Ihr Unternehmen zu transformieren?

Lassen Sie uns besprechen, wie wir ähnliche Lösungen für Ihre Herausforderungen anwenden können.

Kontakt aufnehmencaseStudyDetail.viewAllCaseStudies