MicrocosmWorksInnover et Architecturer le Cosmos Numérique
Ă€ proposContact
MicrocosmWorksInnover et architecturer des cosmos numériques

Fournir des solutions informatiques qui comptent. Nous sommes passionnés par la technologie, la sécurité et aidons les entreprises à croître grâce à une infrastructure informatique fiable et innovante.

[email protected]
+91 7011868196
New Delhi, India

Hub de Croissance IA

Hub IAInnovation pour les startupsAccélérateur d'entreprise

Solutions

Toutes les solutionsApplications de bien-être et de fitnessPlateforme vidéo IADéveloppement d'agents IA

Ressources

PerspectivesGuides de l'industriePlans d'utilisationModèles d'architectureÉtudes de cas

Entreprise

Ă€ propos de nousContactNotre travail

Services

Consultation numériqueInfrastructure cloudDéveloppement SaaSDéveloppement IATechnologie vidéo
Développement ERPPersonnalisation ZohoDéveloppement OdooIntégration SalesforceDéveloppement CRM personnalisé
Intégration QuickBooksSolutions IoTDéveloppement Blockchain
Consultation en cybersécuritéSupport IT - L3

© 2026 MicrocosmWorks. Tous droits réservés.

Politique de confidentialitéConditions d'utilisation
Retour aux Études de Cas
Document IntelligencePublié June 22, 2026 · Mis à jour June 22, 2026

Système RAG de documents local d'abord avec recherche hybride et prise en charge multi-formats

Une équipe développant des outils pour développeurs avait besoin d'un système d'intelligence documentaire entièrement local et respectueux de la vie privée, capable d'ingérer plusieurs formats de fichiers, de construire des bases de connaissances interrogeables et de répondre à des requêtes en langage naturel en utilisant le RAG — sans envoyer aucune donnée à des API externes.

Discutez de Votre Projet
local-rag-hybrid-search-pipeline.webp
Document Intelligence
Domain
8
Technologies
5
Key Results
Delivered
Status

Le Défi

Les solutions RAG existantes présentaient des limitations significatives pour les cas d'utilisation soucieux de la vie privée et axés sur les développeurs :

  • DĂ©pendance aux API externes — La plupart des outils RAG nĂ©cessitaient l'envoi du contenu des documents Ă  des API d'embedding basĂ©es sur le cloud, violant ainsi les exigences de confidentialitĂ©
  • Prise en charge limitĂ©e des formats — Les solutions ne gĂ©raient gĂ©nĂ©ralement que le texte brut ou le PDF, ignorant les feuilles de calcul, les documents Word, le HTML et le Markdown
  • Chunking inefficace — Le dĂ©coupage de texte naĂŻf ignorait la structure du document (pages, feuilles, titres), crĂ©ant des chunks pauvres en contexte
  • Lacunes de mots-clĂ©s — La recherche purement basĂ©e sur l'embedding manquait les correspondances exactes de mots-clĂ©s que la recherche lexicale aurait dĂ©tectĂ©es
  • CĂ©citĂ© aux feuilles de calcul — Les systèmes RAG ne pouvaient pas gĂ©rer les donnĂ©es tabulaires structurĂ©es ni rĂ©pondre aux requĂŞtes de filtrage/agrĂ©gation
  • Pas de Reranking — La rĂ©cupĂ©ration de premier passage ne faisait souvent apparaĂ®tre que des rĂ©sultats partiellement pertinents sans un filtre de qualitĂ© de second passage

Notre Solution

Nous avons construit un système RAG local d'abord complet avec ingestion de documents multi-formats, chunking respectueux de la structure, génération d'embeddings locaux, un pipeline de recherche hybride (sémantique + texte intégral + récence), reranking par cross-encoder, et une UI web — le tout fonctionnant entièrement sur la machine de l'utilisateur.

Architecture

  • Chargeurs de documents : Parseurs spĂ©cifiques au format pour PDF, DOCX, XLSX, CSV, HTML, Markdown et texte brut
  • Chunker : DĂ©coupage respectueux de la structure qui prĂ©serve les limites des pages, des feuilles et des titres
  • Embeddings : Modèle d'embedding local via Transformers.js (aucun appel API externe)
  • Base de donnĂ©es vectorielle : LanceDB (serverless, basĂ© sur des fichiers) pour le stockage d'embeddings et la recherche de similaritĂ©
  • Recherche en texte intĂ©gral : Indexation basĂ©e sur les trigrammes pour la correspondance lexicale
  • Reranker : Modèle cross-encoder pour la notation des rĂ©sultats sensible au contexte
  • Analyseur de requĂŞtes : Routage par dĂ©tection d'intention entre les requĂŞtes sĂ©mantiques et structurĂ©es
  • Serveur web : API Express.js avec gestion de projet et endpoints de recherche
  • Frontend : UI web pour le tĂ©lĂ©chargement, la gestion et la recherche interactive de documents

Pipeline de traitement de documents

Chargeurs multi-formats

Un pattern de registre détecte automatiquement le type de fichier et le route vers le parseur approprié :

  • PDF — Extraction de texte avec segmentation au niveau de la page
  • Word (.docx/.doc) — Analyse sensible aux titres prĂ©servant la hiĂ©rarchie du document
  • Excel/CSV — Analyse feuille par feuille avec dĂ©tection d'en-tĂŞte et contenu au niveau de la ligne
  • HTML — Extraction sensible aux balises avec prĂ©servation de la structure
  • Markdown — Analyse de sections basĂ©e sur les titres
  • Texte brut — Segmentation basĂ©e sur les lignes

Chaque chargeur extrait des métadonnées (titre, auteur, date de création, nombre de pages/feuilles, nombre de mots) parallèlement au contenu, produisant des sections structurées avec des références de source.

Chunking respectueux de la structure

Contrairement au découpage de texte naïf, le chunker respecte les limites du document :

  • PrĂ©serve les sauts de page (PDF), les limites de feuille (feuilles de calcul) et la hiĂ©rarchie des titres (Word/Markdown)
  • Dimensionnement basĂ© sur les tokens avec taille de chunk et chevauchement configurables
  • Repli hiĂ©rarchique : dĂ©coupe d'abord par sections, puis par paragraphes, puis par phrases
  • Chaque chunk conserve les mĂ©tadonnĂ©es de source (numĂ©ro de page, nom de feuille, titre) pour l'attribution

Embedding et indexation

Modèle d'embedding local

  • Fonctionne entièrement localement via Transformers.js — aucune donnĂ©e ne quitte la machine
  • Modèle quantifiĂ© pour l'optimisation des performances
  • Embedding par lots pour un traitement en masse efficace
  • Troncation automatique aux limites des mots avec normalisation L2

Stockage vectoriel

LanceDB fournit un stockage vectoriel serverless :

  • BasĂ© sur des fichiers (aucun serveur de base de donnĂ©es sĂ©parĂ© n'est nĂ©cessaire)
  • Isolation par projet avec des indices indĂ©pendants
  • ClĂ©s de cache basĂ©es sur SHA256 pour la dĂ©duplication
  • MĂ©tadonnĂ©es stockĂ©es Ă  cĂ´tĂ© des vecteurs pour la rĂ©cupĂ©ration filtrĂ©e

Pipeline de recherche hybride

Le pipeline de récupération combine trois signaux de classement pour de meilleurs résultats que toute approche unique :

Signal 1 : Recherche d'embedding (sémantique)

La recherche de similarité vectorielle trouve des chunks avec un sens lié même lorsque des mots différents sont utilisés. Gère la paraphrase, les synonymes et les requêtes conceptuelles.

Signal 2 : Recherche en texte intégral (lexicale)

L'indexation basée sur les trigrammes avec la similarité de Jaccard saisit les correspondances exactes de mots-clés que la recherche d'embedding pourrait manquer — important pour les termes techniques, les noms et les identifiants.

Signal 3 : Accent sur la récence

La pondération par déclin exponentiel privilégie les documents récemment consultés ou modifiés, garantissant que les informations à jour apparaissent en premier.

Combinaison des scores

Les signaux sont combinés avec des poids configurables (par défaut : 50% sémantique, 25% lexical, 25% récence), normalisés et filtrés par un seuil de score minimum.

Reranking par Cross-Encoder

Après la récupération initiale, un modèle cross-encoder re-note les principaux candidats :

  • La notation sensible au contexte considère les paires requĂŞte-document ensemble (pas indĂ©pendamment)
  • Calcul d'amplification par mot-clĂ© pour le chevauchement de termes
  • Notation combinĂ©e (cross-encoder + signaux de mots-clĂ©s)
  • Produit une liste classĂ©e finale avec une prĂ©cision plus Ă©levĂ©e que la rĂ©cupĂ©ration de premier passage seule

Prise en charge des données structurées

Pour le contenu des feuilles de calcul, le système offre des capacités supplémentaires :

  • DĂ©tection automatique des types de colonnes (numĂ©rique, date, boolĂ©en, chaĂ®ne de caractères)
  • Filtrage en langage naturel (par exemple, "employĂ©s en ingĂ©nierie avec un salaire supĂ©rieur au seuil")
  • Prise en charge de l'agrĂ©gation (nombre, somme, moyenne, min, max)
  • L'analyseur de requĂŞtes route les requĂŞtes structurĂ©es vers un moteur dĂ©diĂ© plutĂ´t que vers la recherche d'embedding

Interface web

  • Gestion de projet — CrĂ©er, mettre Ă  jour et supprimer des projets de base de connaissances
  • TĂ©lĂ©chargement de documents — TĂ©lĂ©chargement de fichiers par glisser-dĂ©poser avec autodĂ©tection du format
  • CrĂ©ation de documents — CrĂ©er des documents Ă  partir de texte directement dans l'UI
  • Recherche interactive — Interface de requĂŞte en langage naturel avec des rĂ©sultats classĂ©s
  • Statistiques — Taille de l'index, nombre de documents et distribution des formats par projet

Fonctionnalités clés

  1. Entièrement local — Tout le traitement sur l'appareil ; aucun appel API externe pour les embeddings ou la recherche
  2. 9 formats d'entrée — PDF, DOCX, DOC, XLSX, XLS, CSV, HTML, Markdown, texte brut
  3. Chunking respectueux de la structure — Préserve les pages, les feuilles et les titres comme limites de chunk
  4. Recherche hybride — Combine les signaux sémantiques, lexicaux et de récence pour une meilleure récupération
  5. Reranking par Cross-Encoder — Notation de second passage pour des résultats de plus grande précision
  6. Requêtes structurées — Filtrage en langage naturel et agrégation sur les données de feuilles de calcul
  7. Base de données vectorielle Serverless — Stockage basé sur des fichiers LanceDB sans surcharge d'infrastructure
  8. Écriture de documents — Capacités d'exportation pour la création de PDF, DOCX et XLSX
  9. Isolation de projet — Bases de connaissances indépendantes avec des indices séparés
  10. UI Web — Interface complète pour la gestion des documents et la recherche interactive

Résultats

Latence de recherche : ~60 ms pour le pipeline de recherche hybride complet (sémantique + FTS + reranking)
Vitesse d'embedding : ~50 ms par chunk (lot : ~2 s pour 100 chunks)
Couverture des formats : 9 formats d'entrée gérés nativement sans convertisseurs externes

Stack Technologique

TypeScriptNode.jsExpress.jsTransformers.jsLanceDBVitestpnpmHTML/CSS/JS Frontend

caseStudyDetail.more Études de Cas

Découvrez plus de nos implémentations techniques

Document Intelligence

Analyse de feuilles de calcul et de documents assistée par l'AI avec orchestration multi-agents et référencement inter-documents

Une équipe de données d'entreprise avait besoin d'analyser, d'interroger et de modifier de vastes collections de feuilles de calcul et de documents (Excel, CSV, Google Sheets, PDFs, Word docs) en utilisant le langage naturel — avec la capacité de référencer des données entre plusieurs fichiers et d'exécuter des flux de travail analytiques multi-étapes sans manipulation manuelle des données.

Lire l'Étude de Cas
AI Accounting

Traitement de factures assisté par l'IA avec OCR et intégration QuickBooks

Une entreprise de taille moyenne, traitant des centaines de factures fournisseurs chaque mois, devait éliminer la saisie manuelle des données en extrayant automatiquement les données des factures à l'aide de l'IA/OCR et en les synchronisant directement dans QuickBooks pour la tenue de livres et le suivi des paiements.

PrĂŞt Ă  Transformer Votre Entreprise ?

Discutons de la façon dont nous pouvons appliquer des solutions similaires à vos défis.

Contactez-NouscaseStudyDetail.viewAllCaseStudies
Confidentialité : Aucune donnée transmise à l'extérieur — traitement local complet
Empreinte mémoire : ~100 Mo pour le modèle d'embedding, ~1 Mo pour 1 000 chunks indexés
Lire l'Étude de Cas
Video Encoding

Insertion d'annonces côté client (CSAI) avec analyse des marqueurs SCTE-35 et intégration de lecteurs multiplateformes

Une plateforme de streaming vidéo devait implémenter l'insertion d'annonces côté client (CSAI) sur les applications web, mobiles et de télévision connectée — permettant des expériences publicitaires personnalisées au niveau de l'appareil avec un support complet d'interaction publicitaire (superpositions cliquables, bannières complémentaires, boutons de saut) que l'insertion côté serveur ne peut pas offrir.

Lire l'Étude de Cas

Questions fréquemment posées

MicrocosmWorks a construit un système RAG 'local-first' où toute l'ingestion de documents, la génération d'embeddings, le stockage vectoriel et l'inférence LLM s'exécutent entièrement sur votre infrastructure sans envoyer de données à des API cloud externes. Cette architecture est essentielle pour les organisations qui traitent des documents classifiés, des documents protégés par le secret professionnel avocat-client, ou de la propriété intellectuelle sensible, où les exigences de souveraineté des données interdisent tout traitement dans le cloud, même avec chiffrement.

MicrocosmWorks a implémenté un pipeline de récupération hybride qui exécute en parallèle le BM25 keyword search et le dense vector semantic search, puis utilise le reciprocal rank fusion pour fusionner et reclasser les résultats combinés avant de les passer au LLM comme contexte. Cette approche permet de capturer les exact-match queries comme les codes produits et les citations juridiques que le semantic search manque, tout en récupérant également du contenu conceptuellement lié que le keyword search ne trouverait jamais.

MicrocosmWorks a développé des analyseurs spécifiques à chaque format pour les PDF, DOCX, XLSX, PPTX, HTML, Markdown et le texte brut, avec un pipeline OCR utilisant Tesseract pour les PDF numérisés et les documents basés sur des images. Le système détecte automatiquement si un PDF contient du texte sélectionnable ou nécessite un OCR, applique une analyse de la mise en page pour préserver les structures de tableau et l'ordre de lecture, et fragmente les documents en utilisant des limites sémantiques plutôt que des limites de caractères arbitraires afin d'améliorer la qualité de la récupération.

MicrocosmWorks a mis en œuvre une indexation incrémentale qui suit les sommes de contrôle des documents et ne retraite que les fichiers qui ont changé depuis la dernière exécution d'ingestion. Les documents mis à jour voient leurs anciens segments supprimés et de nouveaux segments insérés atomiquement, afin que l'index de recherche ne soit jamais dans un état incohérent. Le système prend également en charge la récupération de documents versionnés, permettant aux utilisateurs d'interroger les versions historiques des documents lorsque cela est nécessaire à des fins d'audit ou de conformité.

MicrocosmWorks a optimisé le pipeline RAG local pour fonctionner sur du matériel modeste, la configuration minimale recommandée étant une machine avec 32 Go de RAM, 8 cœurs de CPU et, en option, un GPU de milieu de gamme pour la génération accélérée d'embeddings. Pour les organisations sans matériel GPU, le système utilise des modèles d'embedding basés sur le CPU avec une latence légèrement plus élevée, et la base de données vectorielle est optimisée pour le stockage SSD afin de maintenir les temps de réponse des requêtes en dessous de 200 ms pour des corpus allant jusqu'à 1 million de fragments de documents.