Qu'est-ce qu'un système RAG 'local-first', et pourquoi voudrais-je que le traitement des documents se fasse sur site plutôt que dans le cloud ?

MicrocosmWorks a construit un système RAG 'local-first' où toute l'ingestion de documents, la génération d'embeddings, le stockage vectoriel et l'inférence LLM s'exécutent entièrement sur votre infrastructure sans envoyer de données à des API cloud externes. Cette architecture est essentielle pour les organisations qui traitent des documents classifiés, des documents protégés par le secret professionnel avocat-client, ou de la propriété intellectuelle sensible, où les exigences de souveraineté des données interdisent tout traitement dans le cloud, même avec chiffrement.

Comment la recherche hybride combine-t-elle le keyword search et le semantic search pour produire de meilleurs résultats que l'une ou l'autre approche seule ?

MicrocosmWorks a implémenté un pipeline de récupération hybride qui exécute en parallèle le BM25 keyword search et le dense vector semantic search, puis utilise le reciprocal rank fusion pour fusionner et reclasser les résultats combinés avant de les passer au LLM comme contexte. Cette approche permet de capturer les exact-match queries comme les codes produits et les citations juridiques que le semantic search manque, tout en récupérant également du contenu conceptuellement lié que le keyword search ne trouverait jamais.

Quels formats de document le système RAG local prend-il en charge, et comment gère-t-il les PDF numérisés ?

MicrocosmWorks a développé des analyseurs spécifiques à chaque format pour les PDF, DOCX, XLSX, PPTX, HTML, Markdown et le texte brut, avec un pipeline OCR utilisant Tesseract pour les PDF numérisés et les documents basés sur des images. Le système détecte automatiquement si un PDF contient du texte sélectionnable ou nécessite un OCR, applique une analyse de la mise en page pour préserver les structures de tableau et l'ordre de lecture, et fragmente les documents en utilisant des limites sémantiques plutôt que des limites de caractères arbitraires afin d'améliorer la qualité de la récupération.

Comment le système gère-t-il les mises à jour de documents sans réindexer l'intégralité du corpus ?

MicrocosmWorks a mis en œuvre une indexation incrémentale qui suit les sommes de contrôle des documents et ne retraite que les fichiers qui ont changé depuis la dernière exécution d'ingestion. Les documents mis à jour voient leurs anciens segments supprimés et de nouveaux segments insérés atomiquement, afin que l'index de recherche ne soit jamais dans un état incohérent. Le système prend également en charge la récupération de documents versionnés, permettant aux utilisateurs d'interroger les versions historiques des documents lorsque cela est nécessaire à des fins d'audit ou de conformité.

Quel matériel est requis pour exécuter un système RAG local avec des performances acceptables ?

MicrocosmWorks a optimisé le pipeline RAG local pour fonctionner sur du matériel modeste, la configuration minimale recommandée étant une machine avec 32 Go de RAM, 8 cœurs de CPU et, en option, un GPU de milieu de gamme pour la génération accélérée d'embeddings. Pour les organisations sans matériel GPU, le système utilise des modèles d'embedding basés sur le CPU avec une latence légèrement plus élevée, et la base de données vectorielle est optimisée pour le stockage SSD afin de maintenir les temps de réponse des requêtes en dessous de 200 ms pour des corpus allant jusqu'à 1 million de fragments de documents.

Local-First Document RAG System with Hybrid Search & Mult...

Système RAG de documents local d'abord avec recherche hybride et prise en charge multi-formats

Une équipe développant des outils pour développeurs avait besoin d'un système d'intelligence documentaire entièrement local et respectueux de la vie privée, capable d'ingérer plusieurs formats de fichiers, de construire des bases de connaissances interrogeables et de répondre à des requêtes en langage naturel en utilisant le RAG — sans envoyer aucune donnée à des API externes.

Discutez de Votre Projet

Les solutions RAG existantes présentaient des limitations significatives pour les cas d'utilisation soucieux de la vie privée et axés sur les développeurs :

Dépendance aux API externes — La plupart des outils RAG nécessitaient l'envoi du contenu des documents à des API d'embedding basées sur le cloud, violant ainsi les exigences de confidentialité
Prise en charge limitée des formats — Les solutions ne géraient généralement que le texte brut ou le PDF, ignorant les feuilles de calcul, les documents Word, le HTML et le Markdown
Chunking inefficace — Le découpage de texte naïf ignorait la structure du document (pages, feuilles, titres), créant des chunks pauvres en contexte
Lacunes de mots-clés — La recherche purement basée sur l'embedding manquait les correspondances exactes de mots-clés que la recherche lexicale aurait détectées
Cécité aux feuilles de calcul — Les systèmes RAG ne pouvaient pas gérer les données tabulaires structurées ni répondre aux requêtes de filtrage/agrégation
Pas de Reranking — La récupération de premier passage ne faisait souvent apparaître que des résultats partiellement pertinents sans un filtre de qualité de second passage

Nous avons construit un système RAG local d'abord complet avec ingestion de documents multi-formats, chunking respectueux de la structure, génération d'embeddings locaux, un pipeline de recherche hybride (sémantique + texte intégral + récence), reranking par cross-encoder, et une UI web — le tout fonctionnant entièrement sur la machine de l'utilisateur.

Architecture

Chargeurs de documents : Parseurs spécifiques au format pour PDF, DOCX, XLSX, CSV, HTML, Markdown et texte brut
Chunker : Découpage respectueux de la structure qui préserve les limites des pages, des feuilles et des titres
Embeddings : Modèle d'embedding local via Transformers.js (aucun appel API externe)
Base de données vectorielle : LanceDB (serverless, basé sur des fichiers) pour le stockage d'embeddings et la recherche de similarité
Recherche en texte intégral : Indexation basée sur les trigrammes pour la correspondance lexicale
Reranker : Modèle cross-encoder pour la notation des résultats sensible au contexte
Analyseur de requêtes : Routage par détection d'intention entre les requêtes sémantiques et structurées
Serveur web : API Express.js avec gestion de projet et endpoints de recherche
Frontend : UI web pour le téléchargement, la gestion et la recherche interactive de documents

Pipeline de traitement de documents

Chargeurs multi-formats

Un pattern de registre détecte automatiquement le type de fichier et le route vers le parseur approprié :

PDF — Extraction de texte avec segmentation au niveau de la page
Word (.docx/.doc) — Analyse sensible aux titres préservant la hiérarchie du document
Excel/CSV — Analyse feuille par feuille avec détection d'en-tête et contenu au niveau de la ligne
HTML — Extraction sensible aux balises avec préservation de la structure
Markdown — Analyse de sections basée sur les titres
Texte brut — Segmentation basée sur les lignes

Chaque chargeur extrait des métadonnées (titre, auteur, date de création, nombre de pages/feuilles, nombre de mots) parallèlement au contenu, produisant des sections structurées avec des références de source.

Chunking respectueux de la structure

Contrairement au découpage de texte naïf, le chunker respecte les limites du document :

Préserve les sauts de page (PDF), les limites de feuille (feuilles de calcul) et la hiérarchie des titres (Word/Markdown)
Dimensionnement basé sur les tokens avec taille de chunk et chevauchement configurables
Repli hiérarchique : découpe d'abord par sections, puis par paragraphes, puis par phrases
Chaque chunk conserve les métadonnées de source (numéro de page, nom de feuille, titre) pour l'attribution

Embedding et indexation

Modèle d'embedding local

Fonctionne entièrement localement via Transformers.js — aucune donnée ne quitte la machine
Modèle quantifié pour l'optimisation des performances
Embedding par lots pour un traitement en masse efficace
Troncation automatique aux limites des mots avec normalisation L2

Stockage vectoriel

LanceDB fournit un stockage vectoriel serverless :

Basé sur des fichiers (aucun serveur de base de données séparé n'est nécessaire)
Isolation par projet avec des indices indépendants
Clés de cache basées sur SHA256 pour la déduplication
Métadonnées stockées à côté des vecteurs pour la récupération filtrée

Pipeline de recherche hybride

Le pipeline de récupération combine trois signaux de classement pour de meilleurs résultats que toute approche unique :

Signal 1 : Recherche d'embedding (sémantique)

La recherche de similarité vectorielle trouve des chunks avec un sens lié même lorsque des mots différents sont utilisés. Gère la paraphrase, les synonymes et les requêtes conceptuelles.

Signal 2 : Recherche en texte intégral (lexicale)

L'indexation basée sur les trigrammes avec la similarité de Jaccard saisit les correspondances exactes de mots-clés que la recherche d'embedding pourrait manquer — important pour les termes techniques, les noms et les identifiants.

Signal 3 : Accent sur la récence

La pondération par déclin exponentiel privilégie les documents récemment consultés ou modifiés, garantissant que les informations à jour apparaissent en premier.

Combinaison des scores

Les signaux sont combinés avec des poids configurables (par défaut : 50% sémantique, 25% lexical, 25% récence), normalisés et filtrés par un seuil de score minimum.

Reranking par Cross-Encoder

Après la récupération initiale, un modèle cross-encoder re-note les principaux candidats :

La notation sensible au contexte considère les paires requête-document ensemble (pas indépendamment)
Calcul d'amplification par mot-clé pour le chevauchement de termes
Notation combinée (cross-encoder + signaux de mots-clés)
Produit une liste classée finale avec une précision plus élevée que la récupération de premier passage seule

Prise en charge des données structurées

Pour le contenu des feuilles de calcul, le système offre des capacités supplémentaires :

Détection automatique des types de colonnes (numérique, date, booléen, chaîne de caractères)
Filtrage en langage naturel (par exemple, "employés en ingénierie avec un salaire supérieur au seuil")
Prise en charge de l'agrégation (nombre, somme, moyenne, min, max)
L'analyseur de requêtes route les requêtes structurées vers un moteur dédié plutôt que vers la recherche d'embedding

Interface web

Gestion de projet — Créer, mettre à jour et supprimer des projets de base de connaissances
Téléchargement de documents — Téléchargement de fichiers par glisser-déposer avec autodétection du format
Création de documents — Créer des documents à partir de texte directement dans l'UI
Recherche interactive — Interface de requête en langage naturel avec des résultats classés
Statistiques — Taille de l'index, nombre de documents et distribution des formats par projet

Fonctionnalités clés

Entièrement local — Tout le traitement sur l'appareil ; aucun appel API externe pour les embeddings ou la recherche
9 formats d'entrée — PDF, DOCX, DOC, XLSX, XLS, CSV, HTML, Markdown, texte brut
Chunking respectueux de la structure — Préserve les pages, les feuilles et les titres comme limites de chunk
Recherche hybride — Combine les signaux sémantiques, lexicaux et de récence pour une meilleure récupération
Reranking par Cross-Encoder — Notation de second passage pour des résultats de plus grande précision
Requêtes structurées — Filtrage en langage naturel et agrégation sur les données de feuilles de calcul
Base de données vectorielle Serverless — Stockage basé sur des fichiers LanceDB sans surcharge d'infrastructure
Écriture de documents — Capacités d'exportation pour la création de PDF, DOCX et XLSX
Isolation de projet — Bases de connaissances indépendantes avec des indices séparés
UI Web — Interface complète pour la gestion des documents et la recherche interactive

Système RAG de documents local d'abord avec recherche hybride et prise en charge multi-formats

Le Défi

Notre Solution

Architecture

Pipeline de traitement de documents

Chargeurs multi-formats

Chunking respectueux de la structure

Embedding et indexation

Modèle d'embedding local

Stockage vectoriel

Pipeline de recherche hybride

Signal 1 : Recherche d'embedding (sémantique)

Signal 2 : Recherche en texte intégral (lexicale)

Signal 3 : Accent sur la récence

Combinaison des scores

Reranking par Cross-Encoder

Prise en charge des données structurées

Interface web

Fonctionnalités clés

Résultats

Stack Technologique

caseStudyDetail.more Études de Cas

Analyse de feuilles de calcul et de documents assistée par l'AI avec orchestration multi-agents et référencement inter-documents

Traitement de factures assisté par l'IA avec OCR et intégration QuickBooks

Prêt à Transformer Votre Entreprise ?

Insertion d'annonces côté client (CSAI) avec analyse des marqueurs SCTE-35 et intégration de lecteurs multiplateformes

Questions fréquemment posées