Qu'est-ce qu'un système RAG local-first, et pourquoi voudrais-je que le traitement des documents se fasse sur site plutôt que dans le cloud ?

MicrocosmWorks a développé un système RAG local-first où toute l'ingestion de documents, la génération d'embeddings, le stockage vectoriel et l'inférence LLM s'exécutent entièrement sur votre infrastructure sans envoyer de données à des APIs cloud externes. Cette architecture est essentielle pour les organisations manipulant des documents classifiés, des documents sous privilège avocat-client ou de la propriété intellectuelle sensible, où les exigences de souveraineté des données interdisent tout traitement cloud, même avec chiffrement.

How does hybrid search combine keyword and semantic search to produce better results than either approach alone?

MicrocosmWorks implemented a hybrid retrieval pipeline that runs BM25 keyword search and dense vector semantic search in parallel, then uses reciprocal rank fusion to merge and re-rank the combined results before passing them to the LLM as context. This approach catches exact-match queries like product codes and legal citations that semantic search misses, while also retrieving conceptually related content that keyword search would never find.

What document formats does the local RAG system support, and how does it handle scanned PDFs?

MicrocosmWorks built format-specific parsers for PDF, DOCX, XLSX, PPTX, HTML, Markdown, and plain text, with an OCR pipeline using Tesseract for scanned PDFs and image-based documents. The system automatically detects whether a PDF contains selectable text or requires OCR, applies layout analysis to preserve table structures and reading order, and chunks documents using semantic boundaries rather than arbitrary character limits to improve retrieval quality.

How does the system handle document updates without re-indexing the entire corpus?

MicrocosmWorks implemented incremental indexing that tracks document checksums and only re-processes files that have changed since the last ingestion run. Updated documents have their old chunks removed and new chunks inserted atomically, so the search index is never in an inconsistent state. The system also supports versioned document retrieval, allowing users to query against historical versions of documents when needed for audit or compliance purposes.

What hardware is required to run a local RAG system with acceptable performance?

MicrocosmWorks optimized the local RAG pipeline to run on modest hardware, with the minimum recommended configuration being a machine with 32GB RAM, 8 CPU cores, and optionally a mid-range GPU for accelerated embedding generation. For organizations without GPU hardware, the system falls back to CPU-based embedding models with slightly higher latency, and the vector database is tuned for SSD storage to keep query response times under 200ms for corpora up to 1 million document chunks.

Local-First Document RAG System with Hybrid Search & Mult...

Les solutions RAG existantes présentaient des limitations importantes pour les cas d'utilisation soucieux de la confidentialité et axés sur les développeurs :

Dépendance aux API externes — La plupart des outils RAG nécessitaient l'envoi du contenu des documents à des API d'embedding basées sur le cloud, violant les exigences de confidentialité
Support de formats limité — Les solutions ne géraient généralement que le texte brut ou les PDF, ignorant les feuilles de calcul, les documents Word, HTML et Markdown
Découpage ("Chunking") insuffisant — Le découpage de texte naïf ignorait la structure du document (pages, feuilles, titres), créant des "chunks" (morceaux) pauvres en contexte
Lacunes de mots-clés — La recherche purement basée sur les embeddings manquait les correspondances exactes de mots-clés que la recherche lexicale aurait détectées
Angle mort des feuilles de calcul — Les systèmes RAG ne pouvaient pas gérer les données tabulaires structurées ni répondre aux requêtes de filtrage/agrégation
Pas de reranking — La récupération du premier passage ne produisait souvent que des résultats partiellement pertinents sans un filtre de qualité de second passage

Nous avons construit un système RAG "local-first" complet avec ingestion de documents multi-formats, découpage ("chunking") conscient de la structure, génération d'embeddings locaux, un pipeline de recherche hybride (sémantique + texte intégral + récence), un reranking par cross-encoder et une interface utilisateur web — le tout fonctionnant entièrement sur la machine de l'utilisateur.

Architecture

Chargeurs de documents : Parseurs spécifiques aux formats pour PDF, DOCX, XLSX, CSV, HTML, Markdown et texte brut
Chunker : Découpage ("splitting") conscient de la structure qui préserve les limites des pages, des feuilles et des titres
Embeddings : Modèle d'embedding local via Transformers.js (pas d'appels API externes)
Base de données vectorielle : LanceDB (serverless, basée sur fichiers) pour le stockage des embeddings et la recherche de similarité
Recherche en texte intégral : Indexation basée sur les trigrammes pour la correspondance lexicale
Reranker : Modèle cross-encoder pour la notation des résultats en fonction du contexte
Analyseur de requêtes : Routage de la détection d'intention entre les requêtes sémantiques et structurées
Serveur Web : API Express.js avec des endpoints de gestion de projet et de recherche
Frontend : Interface utilisateur web pour le téléchargement, la gestion et la recherche interactive de documents

Pipeline de traitement de documents

Chargeurs multi-formats

Un modèle de registre détecte automatiquement le type de fichier et le dirige vers le parseur approprié :

PDF — Extraction de texte avec segmentation au niveau de la page
Word (.docx/.doc) — Parsing conscient des titres, préservant la hiérarchie du document
Excel/CSV — Parsing feuille par feuille avec détection d'en-tête et contenu au niveau des lignes
HTML — Extraction consciente des balises avec préservation de la structure
Markdown — Parsing de sections basé sur les titres
Texte brut — Segmentation basée sur les lignes

Chaque chargeur extrait les métadonnées (titre, auteur, date de création, nombre de pages/feuilles, nombre de mots) en plus du contenu, produisant des sections structurées avec des références de source.

Découpage ("Chunking") conscient de la structure

Contrairement au découpage de texte naïf, le chunker respecte les limites du document :

Préserve les sauts de page (PDF), les limites de feuille (tableurs) et la hiérarchie des titres (Word/Markdown)
Dimensionnement basé sur les tokens avec taille de chunk et chevauchement configurables
Retour hiérarchique : divise d'abord par sections, puis par paragraphes, puis par phrases
Chaque chunk conserve les métadonnées de source (numéro de page, nom de feuille, titre) pour l'attribution

Embedding et Indexation

Modèle d'embedding local

Fonctionne entièrement localement via Transformers.js — aucune donnée ne quitte la machine
Modèle quantifié pour l'optimisation des performances
Embedding par lot pour un traitement de masse efficace
Troncation automatique aux limites des mots avec normalisation L2

Stockage vectoriel

LanceDB offre un stockage vectoriel serverless :

Basé sur fichiers (aucun serveur de base de données séparé nécessaire)
Isolation par projet avec des index indépendants
Clés de cache basées sur SHA256 pour la déduplication
Métadonnées stockées avec les vecteurs pour une récupération filtrée

Pipeline de recherche hybride

Le pipeline de récupération combine trois signaux de classement pour de meilleurs résultats que toute approche unique :

Signal 1 : Recherche par Embedding (Sémantique)

La recherche de similarité vectorielle trouve des chunks (morceaux) avec un sens similaire même lorsque des mots différents sont utilisés. Gère la paraphrase, les synonymes et les requêtes conceptuelles.

Signal 2 : Recherche en Texte Intégral (Lexicale)

L'indexation basée sur les trigrammes avec la similarité de Jaccard détecte les correspondances exactes de mots-clés que la recherche par embedding pourrait manquer — important pour les termes techniques, les noms et les identifiants.

Signal 3 : Boost de récence

La pondération par décroissance exponentielle favorise les documents récemment consultés ou modifiés, garantissant que les informations à jour apparaissent en premier.

Combinaison des scores

Les signaux sont combinés avec des poids configurables (par défaut : 50% sémantique, 25% lexical, 25% récence), normalisés et filtrés par un seuil de score minimum.

Reranking par Cross-Encoder

Après la récupération initiale, un modèle cross-encoder re-évalue les meilleurs candidats :

Notation consciente du contexte qui considère les paires requête-document ensemble (pas indépendamment)
Calcul du boost de mots-clés pour le chevauchement de termes
Notation combinée (cross-encoder + signaux de mots-clés)
Produit une liste classée finale avec une précision supérieure à celle de la récupération du premier passage seule

Support des données structurées

Pour le contenu des feuilles de calcul, le système offre des capacités supplémentaires :

Auto-détection des types de colonnes (numérique, date, booléen, chaîne de caractères)
Filtrage en langage naturel (par exemple, "employés en ingénierie avec un salaire supérieur au seuil")
Support de l'agrégation (compte, somme, moyenne, min, max)
L'analyseur de requêtes route les requêtes structurées vers un moteur dédié plutôt que vers la recherche d'embedding

Interface Web

Gestion de projet — Créer, mettre à jour et supprimer des projets de base de connaissances
Téléchargement de documents — Téléchargement de fichiers par glisser-déposer avec auto-détection du format
Création de documents — Créer des documents à partir de texte directement dans l'interface utilisateur
Recherche interactive — Interface de requête en langage naturel avec résultats classés
Statistiques — Taille de l'index, nombre de documents et distribution des formats par projet

Fonctionnalités clés

Entièrement local — Tout le traitement est effectué sur l'appareil ; pas d'appels API externes pour les embeddings ou la recherche
9 formats d'entrée — PDF, DOCX, DOC, XLSX, XLS, CSV, HTML, Markdown, texte brut
Découpage ("Chunking") conscient de la structure — Préserve les pages, les feuilles et les titres comme limites de "chunk"
Recherche hybride — Combine les signaux sémantiques, lexicaux et de récence pour une meilleure récupération
Reranking par Cross-Encoder — Notation de second passage pour des résultats de plus haute précision
Requêtes structurées — Filtrage et agrégation en langage naturel sur les données de feuilles de calcul
Base de données vectorielle serverless — Stockage basé sur fichiers LanceDB sans surcharge d'infrastructure
Écriture de documents — Capacités d'exportation pour la création de PDF, DOCX et XLSX
Isolation de projet — Bases de connaissances indépendantes avec des index séparés
Interface utilisateur Web — Interface complète pour la gestion de documents et la recherche interactive

Système RAG de documents "local-first" avec recherche hybride et support multi-formats

Le Défi

Notre Solution

Architecture

Pipeline de traitement de documents

Chargeurs multi-formats

Découpage ("Chunking") conscient de la structure

Embedding et Indexation

Modèle d'embedding local

Stockage vectoriel

Pipeline de recherche hybride

Signal 1 : Recherche par Embedding (Sémantique)

Signal 2 : Recherche en Texte Intégral (Lexicale)

Signal 3 : Boost de récence

Combinaison des scores

Reranking par Cross-Encoder

Support des données structurées

Interface Web

Fonctionnalités clés

Résultats

Stack Technologique

caseStudyDetail.more Études de Cas

Analyse de feuilles de calcul et de documents assistée par l'AI avec orchestration multi-agents et référencement inter-documents

Traitement de factures assisté par l'IA avec OCR et intégration QuickBooks

Insertion d'annonces côté client (CSAI) avec analyse des marqueurs SCTE-35 et intégration de lecteurs multiplateformes

Questions fréquemment posées

Prêt à Transformer Votre Entreprise ?