Wir haben eine KI-Dokumentenintelligenzplattform mit mehreren Agenten entwickelt, die über einen Vektordatenbank-gestützten Abruf für große Dokumente, spezialisierte Agenten für verschiedene Dokumenttypen, einen Orchestrator für dokumentenübergreifendes Reasoning und Rückschreibfunktionen für die Tabellenbearbeitung verfügt.
Architektur
- Orchestrator: AI Orchestrator-Agent, der mehrstufige Workflows über spezialisierte Agenten hinweg koordiniert
- Spreadsheet Agent: Übernimmt die Analyse von Excel/CSV/Google Sheets, die Formelerstellung und Zellbearbeitung
- Document Agent: Übernimmt das Lesen, Extrahieren und Zusammenfassen von PDF/Word-Dokumenten
- Cross-Reference Agent: Führt Joins, Vergleiche und Abgleiche über Dokumenttypen hinweg durch
- Vector Database: Milvus für die semantische Indexierung von Dokument-Chunks und Tabellenzeilen
- LLM Layer: Multi-Modell-Ansatz mit Function Calling
- Backend: Python/FastAPI für die Dokumentenverarbeitung und Agenten-Orchestrierung
- Frontend: React-Dashboard mit Dateiupload, Chat-Interface und Live-Tabellenvorschau
- Storage: S3 für Originaldateien, PostgreSQL für Metadaten und Job-Tracking
Multi-Agenten-Architektur
Agenten-Rollen
1. Orchestrator Agent
Der zentrale Koordinator, der Benutzeranfragen entgegennimmt, diese in Unteraufgaben zerlegt und an spezialisierte Agenten delegiert. Er analysiert die Benutzerabsicht, erstellt Ausführungspläne, verwaltet den Datenfluss zwischen den Agenten, aggregiert Ergebnisse und handhabt die Fehlerbehebung.
2. Spreadsheet Agent
Spezialisiert auf Operationen mit tabellarischen Daten, einschließlich Schemaverständnis, Übersetzung natürlicher Sprache in Abfragen, Aggregationen und Filterung, Formelerstellung, Zellbearbeitung und Spaltenfüllung, Diagrammvorschläge sowie Datenvalidierung/Anomalieerkennung.
3. Document Agent
Spezialisiert auf unstrukturierte und semi-strukturierte Dokumente, einschließlich OCR und layoutbewusster Text extraktion, Abschnittsidentifikation, Schlüssel-Wert-Extraktion aus Verträgen, Zusammenfassung, semantischer Klauselsuche und Tabellenextraktion aus PDFs/Word docs.
4. Cross-Reference Agent
Spezialisiert auf multi-dokumenten Reasoning, einschließlich Entitätsabgleich über Dokumente hinweg, Datenabgleich und Diskrepanzidentifikation, Zeitachsenanalyse, Abhängigkeitsauflösung für widersprüchliche Daten und SQL-ähnliche Join-Operationen über Dokumententypen hinweg.
Vector Database Layer
Warum Vector DB für Dokumente
Große Dokumente und Tabellen passen nicht in ein einzelnes LLM Context Window. Die Vektordatenbank ermöglicht die semantische Suche über Millionen von Zeilen und Dokument-Chunks, den Abruf nur relevanter Abschnitte pro Abfrage, die dokumentenübergreifende Entitätsverknüpfung über Embedding-Ähnlichkeit und eine persistente Indexierung, die bei jeder Abfrage keine Neuverarbeitung erfordert.
Indexierungsstrategie
Tabellen-Indexierung:
Jede Zeile wird durch Verketten der Schlüsselspaltenwerte in eine natürlichsprachliche Repräsentation umgewandelt, dann eingebettet und mit Verweisen zurück zur Originaldatei, zum Blatt und zum Zeilenindex für Rückschreiboperationen gespeichert.
Dokumenten-Indexierung:
Dokumente werden layoutbewusst extrahiert, in semantische Segmente mit Überlappung zerlegt, eingebettet und mit Verweisen auf die Quelldatei, den Abschnitt und die Seitenzahl gespeichert.
Dokumentenübergreifender Entitätsindex:
Ein separater Index verknüpft Entitäten (Anbieter, Produkte, Personen, Rechnungsnummern) über Dokumente hinweg, wodurch Querverweisabfragen schnell alle Erwähnungen einer Entität finden können, unabhängig von der Quelldatei.
Abrufpipeline
Wenn ein Benutzer eine dokumentenübergreifende Frage stellt, identifiziert der Orchestrator, welche Dokumente und Agenten benötigt werden, führt Vektor-Suchen durch, um relevante Daten aus allen Quellen zu finden, delegiert die Verarbeitung an spezialisierte Agenten und aggregiert die Ergebnisse zu einer kohärenten Antwort.
Orchestrierungs-Engine
Abfragezerlegung
Der Orchestrator zerlegt komplexe Abfragen in mehrstufige Ausführungspläne. Eine Frage wie zum Beispiel „Lieferanten mit verspäteten Lieferungen finden, Vertragsstrafklauseln prüfen und einforderbare Strafen berechnen“ würde in sequentielle Schritte zerlegt: Abfrage von Lieferdaten über den Spreadsheet Agent, Suche in Verträgen über den Document Agent und Verknüpfung der Ergebnisse über den Cross-Reference Agent.
Agentenkommunikation
- Agenten kommunizieren über strukturierte Nachrichten mit typisierten Payloads
- Der Orchestrator verwaltet den Ausführungskontext mit Zwischenergebnissen
- Fehlgeschlagene Schritte lösen Wiederholungs- oder Fallback-Strategien aus
- Teilergebnisse werden zurückgegeben, wenn einige Schritte erfolgreich sind, andere jedoch fehlschlagen
Tabellenbearbeitung & Rückschreiben
Bearbeitungsfunktionen
Die Plattform unterstützt Zellaktualisierungen, Spaltenfüllungen, Zeileneinfügungen, bedingte Formatierungen, das Erstellen neuer Blätter und das Einfügen von Formeln – alles von AI-Agenten vorgeschlagen und mit Benutzergenehmigung angewendet.
Rückschreib-Pipeline
- Agent bestimmt den Bearbeitungsvorgang (welche Zellen, welche Werte)
- Bearbeitungsvorschau wird dem Benutzer mit Diff-Hervorhebung angezeigt (alte vs. neue Werte)
- Benutzer genehmigt oder modifiziert die vorgeschlagenen Änderungen
- Backend wendet Änderungen an der Datei mit den entsprechenden Bibliotheken pro Format an
- Die geänderte Datei wird als neue Version mit Bearbeitungs-Audit-Trail gespeichert
- Vektorindex für geänderte Zeilen aktualisiert
Versionskontrolle
- Jede Bearbeitung erstellt eine neue Dateiversion (Original bleibt erhalten)
- Diff-Log zeigt genau, was sich wann und warum geändert hat
- Rollback zu jeder früheren Version mit einem Klick
- Bearbeitungszuordnung: welcher Agent oder Benutzer hat jede Änderung vorgenommen
Verarbeitungspipeline für neue Dokumente
Dateiupload-Fluss
- Benutzer lädt Dateien hoch (Drag-and-Drop oder API)
- Dateityp erkannt und an den entsprechenden Prozessor weitergeleitet
- Tabellen: Geparsed, Schema abgeleitet, Zeilen eingebettet und indiziert
- PDFs: OCR (falls gescannt) → Layout-Extraktion → Chunking → Embedding → Indexierung
- Word Docs: Text extraktion → Abschnitts-Parsing → Chunking → Embedding → Indexierung
- Entitätsextraktion: NER identifiziert Personen, Organisationen, Daten, Beträge in allen Dokumenten
- Dokumentenübergreifende Verknüpfung: Entitätsindex mit neuen Erwähnungen aktualisiert
- Dateimetadaten in PostgreSQL, Embeddings in Vector DB, Originale in S3 gespeichert
Unterstützte Formate
Die Plattform unterstützt Excel, CSV und Google Sheets (mit vollständigem Rückschreiben), native und gescannte PDFs (schreibgeschützt) sowie Word docs und Google Docs (eingeschränktes Rückschreiben).
Hauptmerkmale
- Multi-Agent Architecture — Spezialisierte Agenten für Tabellen, Dokumente und Querverweise
- AI Orchestrator — Zerlegt komplexe Abfragen in mehrstufige Ausführungspläne
- Cross-Document Reference — Entitätsverknüpfung und Datenabgleich über Dateitypen hinweg
- Vector-Powered Retrieval — Semantische Suche verarbeitet Datensätze jenseits der LLM Context Limits
- Spreadsheet Write-Back — AI bearbeitet Zellen, füllt Spalten und fügt Formeln mit Benutzergenehmigung ein
- Large Dataset Support — Tabellen mit über 50.000 Zeilen werden indexiert und sind über Vektor-Suche abfragbar
- Version Control — Jede Bearbeitung wird versioniert mit Diff-Log und Rollback-Funktion
- Natural Language Queries — Komplexe analytische Fragen in natürlicher Sprache stellen
- Multi-Format Support — Excel, CSV, Google Sheets, PDF, Word, Google Docs
- Edit Preview — Diff-hervorgehobene Vorschau, bevor Änderungen angewendet werden