Як багатоагентна оркестрація покращує аналіз документів порівняно з надсиланням усього до одного LLM?

MicrocosmWorks розробила багатоагентну архітектуру, де спеціалізовані агенти обробляють різні аспекти аналізу документів, такі як агент з вилучення таблиць для електронних таблиць, агент з узагальнення тексту для наративних документів та агент перехресних посилань, який ідентифікує зв'язки між точками даних у кількох файлах. Такий розподіл праці дає точніші результати, ніж один монолітний виклик LLM, оскільки кожен агент працює у сфокусованому контекстному вікні та застосовує доменні стратегії підказок.

Чи може система аналізувати електронні таблиці зі складними формулами, зведеними таблицями та кількома пов'язаними аркушами?

Так, MicrocosmWorks розробила механізм аналізу електронних таблиць, що розв'язує залежності формул, розгортає підсумки зведених таблиць та відстежує посилання між аркушами перед передачею структурованих даних агентам аналізу. Система перетворює складні конструкції Excel на ущільнені представлення даних, з якими LLM можуть ефективно працювати, та зберігає реляційний контекст між аркушами, щоб AI міг відповідати на питання, такі як 'який відділ перевищив свій бюджет за Q3', що вимагають об'єднання даних з кількох вкладок.

Як працює виявлення посилань між документами при аналізі комбінації PDF-файлів, електронних таблиць та документів Word?

MicrocosmWorks реалізувала конвеєр зв'язування сутностей, який витягує іменовані сутності, числові ідентифікатори та посилання на дати з усіх завантажених документів, а потім будує граф знань, що з'єднує пов'язані згадки між файлами. Коли користувач ставить запитання, агент перехресних посилань обходить цей граф, щоб витягти релевантні дані з кількох вихідних документів, надаючи відповіді, які синтезують інформацію способами, що зайняли б у людського аналітика години ручної перевірки.

Які ліміти на розмір файлів та обсяг документів підтримує багатоагентна система аналізу?

MicrocosmWorks розробила систему для обробки пакетів документів до 500 файлів за одну сесію аналізу, з індивідуальними розмірами файлів до 100MB для електронних таблиць та 50MB для PDF-файлів. Великі документи автоматично розділяються на фрагменти та обробляються паралельно кількома екземплярами агентів, а оркестратор підтримує цілісне уявлення про весь набір документів шляхом агрегування вихідних даних агентів в єдине представлення знань.

Скільки коштує розробка індивідуальної платформи для багатоагентного аналізу документів?

MicrocosmWorks розробляє платформи для багатоагентного аналізу документів за ціною $30-$50/год, при цьому готова до виробництва система зазвичай потребує 3-5 місяців розробки, включаючи парсинг документів, оркестрацію агентів, виявлення перехресних посилань та користувацький інтерфейс запитів. Вартість одного запиту у виробничому середовищі залежить від обсягу документів та використання токенів LLM, але багатоагентні архітектури фактично знижують витрати на LLM, направляючи лише релевантний контекст кожному агенту, замість того, щоб вкладати цілі набори документів в один промпт.

AI-Powered Spreadsheet & Document Analysis with Multi-Age...

Робота з бізнес-документами у великих масштабах була пов'язана з труднощами:

Розрізнені дані — Критична інформація була розкидана по десятках електронних таблиць, PDFs та документів Word без можливості робити запити по ним
Ручне перехресне посилання — Порівняння прейскуранта постачальника (Excel) з умовами контракту (PDF) та історією рахунків-фактур (CSV) вимагало годин ручного пошуку
Обмеження формул — Складні аналітичні питання не могли бути вирішені лише за допомогою формул електронних таблиць
Обмеження контекстного вікна — Великі електронні таблиці (50 000+ рядків) перевищували контекстні вікна LLM, що призводило до збою наївних підходів
Відсутність можливостей редагування — Існуючі інструменти AI могли аналізувати документи, але не могли записувати зміни назад у вихідні файли
Багатоетапне міркування — Питання, що вимагають послідовного аналізу кількох документів, потребували оркестрованих багатоетапних робочих процесів

Ми створили багатоагентну платформу інтелектуального аналізу документів на базі AI з вибіркою на основі векторної бази даних для великих документів, спеціалізованими агентами для різних типів документів, оркестратором для міждокументного міркування та можливостями зворотного запису для редагування електронних таблиць.

Архітектура

Оркестратор: Агент-оркестратор AI, що координує багатоетапні робочі процеси між спеціалізованими агентами
Агент електронних таблиць: Обробляє аналіз Excel/CSV/Google Sheets, генерацію формул та редагування комірок
Агент документів: Обробляє читання, вилучення та узагальнення документів PDF/Word
Агент перехресних посилань: Виконує об'єднання, порівняння та узгодження між типами документів
Векторна база даних: Milvus для семантичного індексування фрагментів документів та рядків електронних таблиць
Шар LLM: Багатомодельний підхід з викликом функцій
Бекенд: Python/FastAPI для обробки документів та оркестрації агентів
Фронтенд: React дашборд із завантаженням файлів, інтерфейсом чату та попереднім переглядом електронних таблиць у реальному часі
Сховище: S3 для оригінальних файлів, PostgreSQL для метаданих та відстеження завдань

Багатоагентна архітектура

Ролі агентів

1. Агент-оркестратор

Центральний координатор, який отримує запити користувачів, декомпозує їх на підзавдання та делегує спеціалізованим агентам. Він аналізує наміри користувача, створює плани виконання, керує потоком даних між агентами, агрегує результати та обробляє відновлення після помилок.

2. Агент електронних таблиць

Спеціалізується на операціях з табличними даними, включаючи розуміння схеми, переклад природної мови в запит, агрегації та фільтрацію, генерацію формул, редагування комірок та заповнення стовпців, пропозиції щодо діаграм та валідацію даних/виявлення аномалій.

3. Агент документів

Спеціалізується на неструктурованих та напівструктурованих документах, включаючи OCR та вилучення тексту з урахуванням макета, ідентифікацію розділів, вилучення пар ключ-значення з контрактів, узагальнення, семантичний пошук пунктів та вилучення таблиць з PDF/Word документів.

4. Агент перехресних посилань

Спеціалізується на міркуваннях між кількома документами, включаючи зіставлення сутностей між документами, узгодження даних та виявлення розбіжностей, аналіз часових шкал, вирішення залежностей для конфліктних даних та операції з'єднання, подібні до SQL, між типами документів.

Шар векторної бази даних

Чому векторна БД для документів

Великі документи та електронні таблиці не можуть поміститися в одне контекстне вікно LLM. Векторна база даних дозволяє виконувати семантичний пошук по мільйонах рядків та фрагментів документів, отримання лише відповідних частин за запитом, міждокументне зв'язування сутностей за допомогою подібності вбудовувань та постійне індексування, яке не потребує повторної обробки при кожному запиті.

Стратегія індексування

Індексування електронних таблиць:

Кожен рядок перетворюється на представлення природною мовою шляхом конкатенації значень ключових стовпців, потім вбудовується та зберігається з посиланнями на оригінальний файл, аркуш та індекс рядка для операцій зворотного запису.

Індексування документів:

Документи вилучаються з урахуванням макета, розбиваються на семантичні сегменти з перекриттям, вбудовуються та зберігаються з посиланнями на вихідний файл, розділ та номер сторінки.

Індекс сутностей між документами:

Окремий індекс пов'язує сутності (постачальники, продукти, люди, номери рахунків-фактур) між документами, дозволяючи запитам перехресних посилань швидко знаходити всі згадки сутності незалежно від вихідного файлу.

Конвеєр вибірки

Коли користувач ставить міждокументне питання, оркестратор визначає, які документи та агенти потрібні, виконує векторний пошук для знаходження відповідних даних у всіх джерелах, делегує спеціалізованим агентам для обробки та агрегує результати в зв'язну відповідь.

Двигун оркестрації

Декомпозиція запитів

Оркестратор розбиває складні запити на багатоетапні плани виконання. Наприклад, питання на кшталт "Знайти постачальників з простроченими поставками, перевірити пункти контракту про штрафні санкції та розрахувати можливі штрафи" буде декомпозовано на послідовні кроки: запит даних про доставку через Агента електронних таблиць, пошук контрактів через Агента документів та об'єднання результатів через Агента перехресних посилань.

Комунікація агентів

Агенти спілкуються через структуровані повідомлення з типізованими корисними навантаженнями
Оркестратор підтримує контекст виконання з проміжними результатами
Невдалі кроки запускають стратегії повторної спроби або відкату
Часткові результати повертаються, якщо деякі кроки виконані, а інші — ні

Редагування електронних таблиць та зворотний запис

Можливості редагування

Платформа підтримує оновлення комірок, заповнення стовпців, вставлення рядків, умовне форматування, створення нових аркушів та впровадження формул — все це пропонується агентами AI та застосовується за згодою користувача.

Конвеєр зворотного запису

Агент визначає операцію редагування (які комірки, які значення)
Користувачеві показується попередній перегляд редагування з виділенням відмінностей (старі проти нових значень)
Користувач затверджує або змінює запропоновані зміни
Бекенд застосовує зміни до файлу, використовуючи відповідні бібліотеки для кожного формату
Змінений файл зберігається як нова версія з журналом аудиту редагування
Векторний індекс оновлюється для змінених рядків

Контроль версій

Кожне редагування створює нову версію файлу (оригінал зберігається)
Журнал відмінностей показує, що саме змінилося, коли і чому
Відкат до будь-якої попередньої версії одним кліком
Атрибуція редагування: який агент або користувач зробив кожну зміну

Конвеєр обробки нових документів

Потік завантаження файлів

Користувач завантажує файли (перетягуванням або через API)
Тип файлу виявляється та направляється відповідному процесору
Електронні таблиці: Розбираються, схема виводиться, рядки вбудовуються та індексуються
PDFs: OCR (якщо відскановано) → вилучення макета → розділення на фрагменти → вбудовування → індексування
Word Docs: Вилучення тексту → парсинг розділів → розділення на фрагменти → вбудовування → індексування
Вилучення сутностей: NER ідентифікує людей, організації, дати, суми в усіх документах
Міждокументне зв'язування: Індекс сутностей оновлюється новими згадками
Метадані файлів зберігаються в PostgreSQL, вбудовування у векторній БД, оригінали в S3

Підтримувані формати

Платформа підтримує Excel, CSV та Google Sheets (з повним зворотним записом), нативні та відскановані PDFs (лише для читання), а також Word docs та Google Docs (з обмеженим зворотним записом).

Ключові особливості

Багатоагентна архітектура — Спеціалізовані агенти для електронних таблиць, документів та перехресних посилань
Оркестратор AI — Декомпозує складні запити на багатоетапні плани виконання
Перехресне посилання між документами — Зв'язування сутностей та узгодження даних між типами файлів
Вибірка на основі векторів — Семантичний пошук обробляє набори даних за межами контекстних обмежень LLM
Зворотний запис електронних таблиць — AI редагує комірки, заповнює стовпці та впроваджує формули за згодою користувача
Підтримка великих наборів даних — Електронні таблиці з 50 000+ рядками індексуються та доступні для запитів за допомогою векторного пошуку
Контроль версій — Кожне редагування версіонується з журналом відмінностей та можливістю відкату
Запити природною мовою — Ставте складні аналітичні питання простою англійською мовою
Підтримка багатьох форматів — Excel, CSV, Google Sheets, PDF, Word, Google Docs
Попередній перегляд змін — Попередній перегляд із виділенням відмінностей перед застосуванням будь-яких змін

Аналіз електронних таблиць та документів за допомогою AI з багатоагентною оркестрацією та перехресним посиланням між документами

Виклик

Наше Рішення

Архітектура

Багатоагентна архітектура

Ролі агентів

Шар векторної бази даних

Чому векторна БД для документів

Стратегія індексування

Конвеєр вибірки

Двигун оркестрації

Декомпозиція запитів

Комунікація агентів

Редагування електронних таблиць та зворотний запис

Можливості редагування

Конвеєр зворотного запису

Контроль версій

Конвеєр обробки нових документів

Потік завантаження файлів

Підтримувані формати

Ключові особливості

Результати

Технологічний Стек

caseStudyDetail.more Кейси

Система RAG для документів з локальним зберіганням, гібридним пошуком та підтримкою різних форматів

Обробка рахунків-фактур за допомогою AI, OCR та інтеграції з QuickBooks

Вставка реклами на стороні клієнта (CSAI) з парсингом маркерів SCTE-35 та інтеграцією багатоплатформного плеєра

Часті запитання

Готові Трансформувати Свій Бізнес?