Construimos una plataforma de inteligencia documental AI multi-agente con recuperación respaldada por una base de datos vectorial para documentos grandes, agentes especializados para diferentes tipos de documentos, un orquestador para el razonamiento entre documentos y capacidades de escritura de vuelta para la edición de hojas de cálculo.
Arquitectura
- Orquestador: Agente orquestador de AI que coordina flujos de trabajo multi-paso entre agentes especializados.
- Agente de Hojas de Cálculo: Maneja el análisis de Excel/CSV/Google Sheets, la generación de fórmulas y la edición de celdas.
- Agente de Documentos: Maneja la lectura, extracción y resumen de documentos PDF/Word.
- Agente de Referencia Cruzada: Realiza uniones, comparaciones y reconciliación entre tipos de documentos.
- Base de Datos Vectorial: Milvus para la indexación semántica de fragmentos de documentos y filas de hojas de cálculo.
- Capa LLM: Enfoque multi-modelo con llamada a funciones.
- Backend: Python/FastAPI para el procesamiento de documentos y la orquestación de agentes.
- Frontend: Panel de control en React con carga de archivos, interfaz de chat y vista previa de hojas de cálculo en vivo.
- Almacenamiento: S3 para archivos originales, PostgreSQL para metadatos y seguimiento de tareas.
Arquitectura Multi-Agente
Roles de los Agentes
1. Agente Orquestador
El coordinador central que recibe las consultas del usuario, las descompone en subtareas y las delega a agentes especializados. Analiza la intención del usuario, crea planes de ejecución, gestiona el flujo de datos entre agentes, agrega los resultados y maneja la recuperación de errores.
2. Agente de Hojas de Cálculo
Especializado en operaciones con datos tabulares, incluyendo la comprensión de esquemas, la traducción de lenguaje natural a consultas, agregaciones y filtrado, generación de fórmulas, edición de celdas y relleno de columnas, sugerencias de gráficos y validación de datos/detección de anomalías.
3. Agente de Documentos
Especializado en documentos no estructurados y semi-estructurados, incluyendo OCR y extracción de texto consciente del diseño, identificación de secciones, extracción de pares clave-valor de contratos, resumen, búsqueda semántica de cláusulas y extracción de tablas de PDFs/Word docs.
4. Agente de Referencia Cruzada
Especializado en el razonamiento multi-documento, incluyendo la coincidencia de entidades entre documentos, la reconciliación de datos y la identificación de discrepancias, el análisis de líneas de tiempo, la resolución de dependencias para datos conflictivos y operaciones de unión similares a SQL entre tipos de documentos.
Capa de Base de Datos Vectorial
Por qué una Base de Datos Vectorial para Documentos
Documentos y hojas de cálculo grandes no caben en una única ventana de contexto de un LLM. La base de datos vectorial permite la búsqueda semántica en millones de filas y fragmentos de documentos, la recuperación solo de las porciones relevantes por consulta, la vinculación de entidades entre documentos mediante la similitud de embeddings, y una indexación persistente que no necesita ser reprocesada en cada consulta.
Estrategia de Indexación
Indexación de Hojas de Cálculo:
Cada fila se convierte en una representación en lenguaje natural concatenando los valores de las columnas clave, luego se embebe y se almacena con referencias al archivo original, hoja e índice de fila para operaciones de escritura de vuelta.
Indexación de Documentos:
Los documentos se extraen con conciencia del diseño, se dividen en segmentos semánticos con solapamiento, se embeben y se almacenan con referencias al archivo fuente, sección y número de página.
Índice de Entidades entre Documentos:
Un índice separado vincula entidades (proveedores, productos, personas, números de factura) entre documentos, permitiendo que las consultas de referencia cruzada encuentren rápidamente todas las menciones de una entidad, independientemente del archivo de origen.
Pipeline de Recuperación
Cuando un usuario realiza una pregunta que abarca varios documentos, el orquestador identifica qué documentos y agentes son necesarios, realiza búsquedas vectoriales para encontrar datos relevantes en todas las fuentes, delega a agentes especializados para el procesamiento y agrega los resultados en una respuesta coherente.
Motor de Orquestación
Descomposición de Consultas
El orquestador descompone consultas complejas en planes de ejecución de varios pasos. Por ejemplo, una pregunta como "Encontrar proveedores con entregas tardías, verificar las cláusulas de penalización del contrato y calcular las penalizaciones reclamables" se descompondría en pasos secuenciales: consultar datos de entrega a través del Agente de Hojas de Cálculo, buscar contratos a través del Agente de Documentos y unir los resultados a través del Agente de Referencia Cruzada.
Comunicación entre Agentes
- Los agentes se comunican a través de mensajes estructurados con cargas útiles tipadas.
- El orquestador mantiene el contexto de ejecución con resultados intermedios.
- Los pasos fallidos activan estrategias de reintento o de respaldo.
- Se devuelven resultados parciales si algunos pasos se completan pero otros fallan.
Edición y Escritura de Vuelta en Hojas de Cálculo
Capacidades de Edición
La plataforma soporta actualizaciones de celdas, rellenos de columnas, inserción de filas, formato condicional, creación de nuevas hojas e inyección de fórmulas — todo propuesto por agentes de AI y aplicado con la aprobación del usuario.
Pipeline de Escritura de Vuelta
- El agente determina la operación de edición (qué celdas, qué valores).
- Se muestra una vista previa de la edición al usuario con resaltado de diferencias (valores antiguos vs. nuevos).
- El usuario aprueba o modifica los cambios propuestos.
- El backend aplica los cambios al archivo utilizando las bibliotecas apropiadas según el formato.
- El archivo modificado se guarda como una nueva versión con un registro de auditoría de edición.
- El índice vectorial se actualiza para las filas modificadas.
Control de Versiones
- Cada edición crea una nueva versión del archivo (la original se conserva).
- El registro de diferencias muestra exactamente qué cambió, cuándo y por qué.
- Reversión a cualquier versión anterior con un solo clic.
- Atribución de edición: qué agente o usuario realizó cada cambio.
Pipeline de Procesamiento para Nuevos Documentos
Flujo de Carga de Archivos
- El usuario carga archivos (arrastrar y soltar o API).
- El tipo de archivo se detecta y se dirige al procesador adecuado.
- Hojas de Cálculo: Analizadas, esquema inferido, filas incrustadas e indexadas.
- PDFs: OCR (si está escaneado) → extracción de diseño → fragmentación → incrustación → indexación.
- Documentos Word: Extracción de texto → análisis de secciones → fragmentación → incrustación → indexación.
- Extracción de Entidades: NER identifica personas, organizaciones, fechas, cantidades en todos los documentos.
- Vinculación entre Documentos: El índice de entidades se actualiza con nuevas menciones.
- Los metadatos del archivo se almacenan en PostgreSQL, los embeddings en la base de datos vectorial, los originales en S3.
Formatos Soportados
La plataforma soporta Excel, CSV y Google Sheets (con escritura de vuelta completa), PDFs nativos y escaneados (solo lectura), y documentos Word y Google Docs (escritura de vuelta limitada).
Características Clave
- Arquitectura Multi-Agente — Agentes especializados para hojas de cálculo, documentos y referencia cruzada.
- Orquestador de AI — Descompone consultas complejas en planes de ejecución de múltiples pasos.
- Referencia Cruzada entre Documentos — Vinculación de entidades y reconciliación de datos entre tipos de archivos.
- Recuperación Impulsada por Vectores — La búsqueda semántica maneja conjuntos de datos más allá de los límites de contexto de los LLM.
- Escritura de Vuelta en Hojas de Cálculo — La AI edita celdas, rellena columnas e inyecta fórmulas con la aprobación del usuario.
- Soporte para Grandes Conjuntos de Datos — Hojas de cálculo de más de 50,000 filas indexadas y consultables mediante búsqueda vectorial.
- Control de Versiones — Cada edición versionada con registro de diferencias y capacidad de reversión.
- Consultas en Lenguaje Natural — Haga preguntas analíticas complejas en inglés sencillo.
- Soporte Multi-Formato — Excel, CSV, Google Sheets, PDF, Word, Google Docs.
- Vista Previa de Edición — Vista previa resaltada con diferencias antes de aplicar cualquier cambio.