MicrocosmWorksInnover et Architecturer le Cosmos Numérique
Ă€ proposContact
MicrocosmWorksInnover et architecturer des cosmos numériques

Fournir des solutions informatiques qui comptent. Nous sommes passionnés par la technologie, la sécurité et aidons les entreprises à croître grâce à une infrastructure informatique fiable et innovante.

[email protected]
+91 7011868196
New Delhi, India

Hub de Croissance IA

Hub IAInnovation pour les startupsAccélérateur d'entreprise

Solutions

Toutes les solutionsApplications de bien-être et de fitnessPlateforme vidéo IADéveloppement d'agents IA

Ressources

PerspectivesGuides de l'industriePlans d'utilisationModèles d'architectureÉtudes de cas

Entreprise

Ă€ propos de nousContactNotre travail

Services

Consultation numériqueInfrastructure cloudDéveloppement SaaSDéveloppement IATechnologie vidéo
Développement ERPPersonnalisation ZohoDéveloppement OdooIntégration SalesforceDéveloppement CRM personnalisé
Intégration QuickBooksSolutions IoTDéveloppement Blockchain
Consultation en cybersécuritéSupport IT - L3

© 2026 MicrocosmWorks. Tous droits réservés.

Politique de confidentialitéConditions d'utilisation
Retour aux Études de Cas
Document IntelligencePublié June 18, 2026 · Mis à jour May 25, 2026

Système RAG de documents "local-first" avec recherche hybride et support multi-formats

Une équipe développant des outils pour développeurs avait besoin d'un système d'intelligence documentaire entièrement local et respectueux de la vie privée, capable d'ingérer plusieurs formats de fichiers, de construire des bases de connaissances interrogeables et de répondre à des requêtes en langage naturel en utilisant la Génération Augmentée par Récupération (RAG) — sans envoyer aucune donnée à des API externes.

Discutez de Votre Projet
local-rag-hybrid-search-pipeline.webp
Document Intelligence
Domain
8
Technologies
5
Key Results
Delivered
Status

Le Défi

Les solutions RAG existantes présentaient des limitations importantes pour les cas d'utilisation soucieux de la confidentialité et axés sur les développeurs :

  • DĂ©pendance aux API externes — La plupart des outils RAG nĂ©cessitaient l'envoi du contenu des documents Ă  des API d'embedding basĂ©es sur le cloud, violant les exigences de confidentialitĂ©
  • Support de formats limitĂ© — Les solutions ne gĂ©raient gĂ©nĂ©ralement que le texte brut ou les PDF, ignorant les feuilles de calcul, les documents Word, HTML et Markdown
  • DĂ©coupage ("Chunking") insuffisant — Le dĂ©coupage de texte naĂŻf ignorait la structure du document (pages, feuilles, titres), crĂ©ant des "chunks" (morceaux) pauvres en contexte
  • Lacunes de mots-clĂ©s — La recherche purement basĂ©e sur les embeddings manquait les correspondances exactes de mots-clĂ©s que la recherche lexicale aurait dĂ©tectĂ©es
  • Angle mort des feuilles de calcul — Les systèmes RAG ne pouvaient pas gĂ©rer les donnĂ©es tabulaires structurĂ©es ni rĂ©pondre aux requĂŞtes de filtrage/agrĂ©gation
  • Pas de reranking — La rĂ©cupĂ©ration du premier passage ne produisait souvent que des rĂ©sultats partiellement pertinents sans un filtre de qualitĂ© de second passage

Notre Solution

Nous avons construit un système RAG "local-first" complet avec ingestion de documents multi-formats, découpage ("chunking") conscient de la structure, génération d'embeddings locaux, un pipeline de recherche hybride (sémantique + texte intégral + récence), un reranking par cross-encoder et une interface utilisateur web — le tout fonctionnant entièrement sur la machine de l'utilisateur.

Architecture

  • Chargeurs de documents : Parseurs spĂ©cifiques aux formats pour PDF, DOCX, XLSX, CSV, HTML, Markdown et texte brut
  • Chunker : DĂ©coupage ("splitting") conscient de la structure qui prĂ©serve les limites des pages, des feuilles et des titres
  • Embeddings : Modèle d'embedding local via Transformers.js (pas d'appels API externes)
  • Base de donnĂ©es vectorielle : LanceDB (serverless, basĂ©e sur fichiers) pour le stockage des embeddings et la recherche de similaritĂ©
  • Recherche en texte intĂ©gral : Indexation basĂ©e sur les trigrammes pour la correspondance lexicale
  • Reranker : Modèle cross-encoder pour la notation des rĂ©sultats en fonction du contexte
  • Analyseur de requĂŞtes : Routage de la dĂ©tection d'intention entre les requĂŞtes sĂ©mantiques et structurĂ©es
  • Serveur Web : API Express.js avec des endpoints de gestion de projet et de recherche
  • Frontend : Interface utilisateur web pour le tĂ©lĂ©chargement, la gestion et la recherche interactive de documents

Pipeline de traitement de documents

Chargeurs multi-formats

Un modèle de registre détecte automatiquement le type de fichier et le dirige vers le parseur approprié :

  • PDF — Extraction de texte avec segmentation au niveau de la page
  • Word (.docx/.doc) — Parsing conscient des titres, prĂ©servant la hiĂ©rarchie du document
  • Excel/CSV — Parsing feuille par feuille avec dĂ©tection d'en-tĂŞte et contenu au niveau des lignes
  • HTML — Extraction consciente des balises avec prĂ©servation de la structure
  • Markdown — Parsing de sections basĂ© sur les titres
  • Texte brut — Segmentation basĂ©e sur les lignes

Chaque chargeur extrait les métadonnées (titre, auteur, date de création, nombre de pages/feuilles, nombre de mots) en plus du contenu, produisant des sections structurées avec des références de source.

Découpage ("Chunking") conscient de la structure

Contrairement au découpage de texte naïf, le chunker respecte les limites du document :

  • PrĂ©serve les sauts de page (PDF), les limites de feuille (tableurs) et la hiĂ©rarchie des titres (Word/Markdown)
  • Dimensionnement basĂ© sur les tokens avec taille de chunk et chevauchement configurables
  • Retour hiĂ©rarchique : divise d'abord par sections, puis par paragraphes, puis par phrases
  • Chaque chunk conserve les mĂ©tadonnĂ©es de source (numĂ©ro de page, nom de feuille, titre) pour l'attribution

Embedding et Indexation

Modèle d'embedding local

  • Fonctionne entièrement localement via Transformers.js — aucune donnĂ©e ne quitte la machine
  • Modèle quantifiĂ© pour l'optimisation des performances
  • Embedding par lot pour un traitement de masse efficace
  • Troncation automatique aux limites des mots avec normalisation L2

Stockage vectoriel

LanceDB offre un stockage vectoriel serverless :

  • BasĂ© sur fichiers (aucun serveur de base de donnĂ©es sĂ©parĂ© nĂ©cessaire)
  • Isolation par projet avec des index indĂ©pendants
  • ClĂ©s de cache basĂ©es sur SHA256 pour la dĂ©duplication
  • MĂ©tadonnĂ©es stockĂ©es avec les vecteurs pour une rĂ©cupĂ©ration filtrĂ©e

Pipeline de recherche hybride

Le pipeline de récupération combine trois signaux de classement pour de meilleurs résultats que toute approche unique :

Signal 1 : Recherche par Embedding (Sémantique)

La recherche de similarité vectorielle trouve des chunks (morceaux) avec un sens similaire même lorsque des mots différents sont utilisés. Gère la paraphrase, les synonymes et les requêtes conceptuelles.

Signal 2 : Recherche en Texte Intégral (Lexicale)

L'indexation basée sur les trigrammes avec la similarité de Jaccard détecte les correspondances exactes de mots-clés que la recherche par embedding pourrait manquer — important pour les termes techniques, les noms et les identifiants.

Signal 3 : Boost de récence

La pondération par décroissance exponentielle favorise les documents récemment consultés ou modifiés, garantissant que les informations à jour apparaissent en premier.

Combinaison des scores

Les signaux sont combinés avec des poids configurables (par défaut : 50% sémantique, 25% lexical, 25% récence), normalisés et filtrés par un seuil de score minimum.

Reranking par Cross-Encoder

Après la récupération initiale, un modèle cross-encoder re-évalue les meilleurs candidats :

  • Notation consciente du contexte qui considère les paires requĂŞte-document ensemble (pas indĂ©pendamment)
  • Calcul du boost de mots-clĂ©s pour le chevauchement de termes
  • Notation combinĂ©e (cross-encoder + signaux de mots-clĂ©s)
  • Produit une liste classĂ©e finale avec une prĂ©cision supĂ©rieure Ă  celle de la rĂ©cupĂ©ration du premier passage seule

Support des données structurées

Pour le contenu des feuilles de calcul, le système offre des capacités supplémentaires :

  • Auto-dĂ©tection des types de colonnes (numĂ©rique, date, boolĂ©en, chaĂ®ne de caractères)
  • Filtrage en langage naturel (par exemple, "employĂ©s en ingĂ©nierie avec un salaire supĂ©rieur au seuil")
  • Support de l'agrĂ©gation (compte, somme, moyenne, min, max)
  • L'analyseur de requĂŞtes route les requĂŞtes structurĂ©es vers un moteur dĂ©diĂ© plutĂ´t que vers la recherche d'embedding

Interface Web

  • Gestion de projet — CrĂ©er, mettre Ă  jour et supprimer des projets de base de connaissances
  • TĂ©lĂ©chargement de documents — TĂ©lĂ©chargement de fichiers par glisser-dĂ©poser avec auto-dĂ©tection du format
  • CrĂ©ation de documents — CrĂ©er des documents Ă  partir de texte directement dans l'interface utilisateur
  • Recherche interactive — Interface de requĂŞte en langage naturel avec rĂ©sultats classĂ©s
  • Statistiques — Taille de l'index, nombre de documents et distribution des formats par projet

Fonctionnalités clés

  1. Entièrement local — Tout le traitement est effectué sur l'appareil ; pas d'appels API externes pour les embeddings ou la recherche
  2. 9 formats d'entrée — PDF, DOCX, DOC, XLSX, XLS, CSV, HTML, Markdown, texte brut
  3. Découpage ("Chunking") conscient de la structure — Préserve les pages, les feuilles et les titres comme limites de "chunk"
  4. Recherche hybride — Combine les signaux sémantiques, lexicaux et de récence pour une meilleure récupération
  5. Reranking par Cross-Encoder — Notation de second passage pour des résultats de plus haute précision
  6. Requêtes structurées — Filtrage et agrégation en langage naturel sur les données de feuilles de calcul
  7. Base de données vectorielle serverless — Stockage basé sur fichiers LanceDB sans surcharge d'infrastructure
  8. Écriture de documents — Capacités d'exportation pour la création de PDF, DOCX et XLSX
  9. Isolation de projet — Bases de connaissances indépendantes avec des index séparés
  10. Interface utilisateur Web — Interface complète pour la gestion de documents et la recherche interactive

Résultats

Latence de recherche : ~60ms pour le pipeline complet de recherche hybride (sémantique + FTS + reranking)
Vitesse d'embedding : ~50ms par chunk (lot : ~2s pour 100 chunks)
Couverture des formats : 9 formats d'entrée gérés nativement sans convertisseurs externes
Confidentialité : Aucune donnée transmise à l'extérieur — traitement local complet
Empreinte mémoire : ~100MB pour le modèle d'embedding, ~1MB pour 1 000 chunks indexés

Stack Technologique

TypeScriptNode.jsExpress.jsTransformers.jsLanceDBVitestpnpmHTML/CSS/JS Frontend

caseStudyDetail.more Études de Cas

Découvrez plus de nos implémentations techniques

Document Intelligence

Analyse de feuilles de calcul et de documents assistée par l'AI avec orchestration multi-agents et référencement inter-documents

Une équipe de données d'entreprise avait besoin d'analyser, d'interroger et de modifier de vastes collections de feuilles de calcul et de documents (Excel, CSV, Google Sheets, PDFs, Word docs) en utilisant le langage naturel — avec la capacité de référencer des données entre plusieurs fichiers et d'exécuter des flux de travail analytiques multi-étapes sans manipulation manuelle des données.

Lire l'Étude de Cas
AI Accounting

Traitement de factures assisté par l'IA avec OCR et intégration QuickBooks

Une entreprise de taille moyenne, traitant des centaines de factures fournisseurs chaque mois, devait éliminer la saisie manuelle des données en extrayant automatiquement les données des factures à l'aide de l'IA/OCR et en les synchronisant directement dans QuickBooks pour la tenue de livres et le suivi des paiements.

Lire l'Étude de Cas
Video Encoding

Insertion d'annonces côté client (CSAI) avec analyse des marqueurs SCTE-35 et intégration de lecteurs multiplateformes

Une plateforme de streaming vidéo devait implémenter l'insertion d'annonces côté client (CSAI) sur les applications web, mobiles et de télévision connectée — permettant des expériences publicitaires personnalisées au niveau de l'appareil avec un support complet d'interaction publicitaire (superpositions cliquables, bannières complémentaires, boutons de saut) que l'insertion côté serveur ne peut pas offrir.

Lire l'Étude de Cas

Questions fréquemment posées

MicrocosmWorks a développé un système RAG local-first où toute l'ingestion de documents, la génération d'embeddings, le stockage vectoriel et l'inférence LLM s'exécutent entièrement sur votre infrastructure sans envoyer de données à des APIs cloud externes. Cette architecture est essentielle pour les organisations manipulant des documents classifiés, des documents sous privilège avocat-client ou de la propriété intellectuelle sensible, où les exigences de souveraineté des données interdisent tout traitement cloud, même avec chiffrement.

MicrocosmWorks implemented a hybrid retrieval pipeline that runs BM25 keyword search and dense vector semantic search in parallel, then uses reciprocal rank fusion to merge and re-rank the combined results before passing them to the LLM as context. This approach catches exact-match queries like product codes and legal citations that semantic search misses, while also retrieving conceptually related content that keyword search would never find.

MicrocosmWorks built format-specific parsers for PDF, DOCX, XLSX, PPTX, HTML, Markdown, and plain text, with an OCR pipeline using Tesseract for scanned PDFs and image-based documents. The system automatically detects whether a PDF contains selectable text or requires OCR, applies layout analysis to preserve table structures and reading order, and chunks documents using semantic boundaries rather than arbitrary character limits to improve retrieval quality.

MicrocosmWorks implemented incremental indexing that tracks document checksums and only re-processes files that have changed since the last ingestion run. Updated documents have their old chunks removed and new chunks inserted atomically, so the search index is never in an inconsistent state. The system also supports versioned document retrieval, allowing users to query against historical versions of documents when needed for audit or compliance purposes.

MicrocosmWorks optimized the local RAG pipeline to run on modest hardware, with the minimum recommended configuration being a machine with 32GB RAM, 8 CPU cores, and optionally a mid-range GPU for accelerated embedding generation. For organizations without GPU hardware, the system falls back to CPU-based embedding models with slightly higher latency, and the vector database is tuned for SSD storage to keep query response times under 200ms for corpora up to 1 million document chunks.

PrĂŞt Ă  Transformer Votre Entreprise ?

Discutons de la façon dont nous pouvons appliquer des solutions similaires à vos défis.

Contactez-NouscaseStudyDetail.viewAllCaseStudies