MicrocosmWorksInnover et Architecturer le Cosmos Numérique
À proposContact
MicrocosmWorksInnover et architecturer des cosmos numériques

Fournir des solutions informatiques qui comptent. Nous sommes passionnés par la technologie, la sécurité et aidons les entreprises à croître grâce à une infrastructure informatique fiable et innovante.

[email protected]
+91 7011868196
New Delhi, India

Hub de Croissance IA

Hub IAInnovation pour les startupsAccélérateur d'entreprise

Solutions

Toutes les solutionsApplications de bien-être et de fitnessPlateforme vidéo IADéveloppement d'agents IA

Ressources

PerspectivesGuides de l'industriePlans d'utilisationModèles d'architectureÉtudes de cas

Entreprise

À propos de nousContactNotre travail

Services

Consultation numériqueInfrastructure cloudDéveloppement SaaSDéveloppement IATechnologie vidéo
Développement ERPPersonnalisation ZohoDéveloppement OdooIntégration SalesforceDéveloppement CRM personnalisé
Intégration QuickBooksSolutions IoTDéveloppement Blockchain
Consultation en cybersécuritéSupport IT - L3

© 2026 MicrocosmWorks. Tous droits réservés.

Politique de confidentialitéConditions d'utilisation
Retour aux Études de Cas
Data SecurityPublié June 22, 2026 · Mis à jour June 22, 2026

Chiffrement contextuel pour les pipelines de LLM et de bases de données vectorielles

Une plateforme d'AI d'entreprise devait activer des fonctionnalités basées sur les LLM (chat, recherche, analyse de documents) tout en garantissant que les données sensibles — PII, dossiers financiers, informations de santé — restaient chiffrées tout au long du pipeline, y compris lorsqu'elles étaient stockées sous forme d'embeddings vectoriels dans une base de données vectorielle.

Discutez de Votre Projet
contextual-encryption-llm-vectordb.webp
Data Security
Domain
10
Technologies
5
Key Results
Delivered
Status

Le Défi

L'utilisation de LLM et de bases de données vectorielles avec des données sensibles a introduit de nouveaux risques de sécurité :

  • Attaques par inversion d'embedding — Des recherches ont montré que les embeddings vectoriels pouvaient être rétro-ingénierés pour reconstruire le texte original, exposant les PII stockées dans les bases de données vectorielles
  • Fuite de contexte des LLM — Les données sensibles envoyées aux LLM pourraient apparaître dans les réponses à d'autres utilisateurs si elles ne sont pas correctement isolées
  • Exigences de conformité — GDPR, HIPAA et SOC2 exigeaient le chiffrement au repos et en transit, mais les bases de données vectorielles stockaient des représentations mathématiques, et non des champs de texte traditionnels
  • Fonctionnalité de recherche — Le chiffrement du texte avant l'embedding détruisait la signification sémantique, rendant la recherche de similarité inutile
  • Gestion des clés — Les clés de chiffrement par tenant nécessitaient une rotation sans ré-embedding de l'ensemble des jeux de données
  • Piste d'audit — Chaque accès aux données sensibles déchiffrées devait être journalisé pour la conformité

Notre Solution

Nous avons mis en œuvre une architecture de chiffrement contextuel qui chiffre sélectivement les champs sensibles avant le stockage tout en préservant la capacité de recherche sémantique grâce à une approche en couches — en chiffrant les PII dans les métadonnées tout en conservant le contenu assaini et non sensible disponible pour l'embedding.

Architecture

  • Moteur de chiffrement : AES-256-GCM avec des clés de chiffrement par tenant
  • Gestion des clés : AWS KMS pour la génération, la rotation et le contrôle d'accès des clés
  • Détection des PII : Classificateur de PII basé sur le NER (Named Entity Recognition)
  • Base de données vectorielle : Milvus pour la recherche de similarité sur des embeddings assainis
  • Couche LLM : Contexte assaini envoyé au LLM, champs sensibles réinjectés après génération
  • Système d'audit : Chaque événement de déchiffrement est journalisé avec l'utilisateur, l'horodatage et le but
  • Base de données : PostgreSQL pour les métadonnées chiffrées

Stratégie de chiffrement contextuel

Classification des données

Avant que toute donnée n'entre dans le pipeline, un classificateur de PII catégorise chaque champ par niveau de sensibilité :

  • Hautement sensible (par exemple, identifiants gouvernementaux, numéros de compte financier, identifiants médicaux) — Chiffré, jamais intégré, jamais envoyé au LLM
  • PII sensibles (par exemple, noms complets, adresses e-mail, numéros de téléphone) — Chiffrées au repos, remplacées par des placeholders avant l'embedding
  • Contextuel (par exemple, titres de poste, noms d'entreprise) — Chiffré au repos, disponible pour l'embedding avec consentement
  • Non-sensible (par exemple, descriptions de produits, informations publiques) — Stocké et intégré tel quel

Couches de chiffrement

Couche 1 : Chiffrement au niveau du champ au repos

Les champs sensibles sont chiffrés avec AES-256-GCM avant le stockage. Chaque tenant obtient une clé de chiffrement de données (DEK) dédiée gérée via une hiérarchie de clés via AWS KMS. Les champs « shadow » stockent des hachages recherchables pour des recherches de correspondance exacte sans nécessiter de déchiffrement.

Couche 2 : Assainissement avant l'embedding

Les PII sont détectées et remplacées par des placeholders préservant le type avant que le texte ne soit envoyé au modèle d'embedding. Cela préserve la signification sémantique pour la recherche de similarité tout en supprimant les informations identifiables. Le mappage de l'original au placeholder est stocké chiffré aux côtés de l'enregistrement vectoriel.

Couche 3 : Injection de contexte après la génération par le LLM

Le LLM reçoit un contexte assaini avec des placeholders pour générer des réponses. Après la génération, le système réinjecte les valeurs réelles du stockage chiffré dans la réponse. Cela empêche les données sensibles d'entrer dans les données d'entraînement du LLM ou d'être mises en cache par le fournisseur.

Sécurité de la base de données vectorielle

Conception de la collection

Les collections de vecteurs stockent des embeddings assainis aux côtés des métadonnées originales chiffrées. L'isolation des tenants est assurée via des clés de partition, les métadonnées de chaque tenant étant chiffrées à l'aide de sa propre clé. La couche API valide la propriété du tenant avant toute opération de déchiffrement.

Gestion et rotation des clés

Hiérarchie des clés

Une hiérarchie de clés multi-niveaux est utilisée : une clé maîtresse dans AWS KMS enveloppe les clés de chiffrement de clés par tenant, qui à leur tour enveloppent les clés de chiffrement de données par tenant utilisées pour le chiffrement au niveau du champ. Cela permet une rotation efficace des clés sans rechiffrer toute la chaîne de clés.

Processus de rotation des clés

  1. Nouvelle DEK générée — Nouvelle clé de chiffrement de données créée sous la clé de chiffrement de clé existante
  2. Nouvelles écritures — Toutes les nouvelles données chiffrées avec la nouvelle clé ; l'ancienne clé reste valide pour les lectures
  3. Rechiffrement en arrière-plan — Tâche par lots rechiffrant les enregistrements existants avec la nouvelle clé
  4. Retrait de l'ancienne DEK — Une fois tous les enregistrements migrés, l'ancienne clé est marquée comme inactive
  5. Journal d'audit — Événement de rotation journalisé avec horodatages et nombre d'enregistrements affectés

Audit et conformité

Journal d'audit de déchiffrement

Chaque événement de déchiffrement enregistre qui l'a demandé, ce qui a été déchiffré, quand, pourquoi (contexte de la requête) et quelle clé a été utilisée — fournissant une piste de conformité complète.

Droit à l'effacement GDPR

Le système prend en charge la suppression complète des données à la fois dans la base de données relationnelle et dans la base de données vectorielle, avec une rotation optionnelle des clés pour garantir cryptographiquement l'absence d'accès résiduel. Toutes les opérations de suppression sont enregistrées dans une piste d'audit GDPR.

Fonctionnalités clés

  1. Chiffrement au niveau du champ — AES-256-GCM sur les champs sensibles, pas sur des enregistrements entiers
  2. Assainissement des PII — Les placeholders préservent la signification sémantique pour les embeddings
  3. Réinjection post-LLM — Les données sensibles ne sont jamais envoyées aux fournisseurs de LLM
  4. Clés par tenant — Clés de chiffrement isolées avec gestion AWS KMS
  5. Rotation des clés — Rotation sans interruption avec rechiffrement en arrière-plan
  6. Sécurité des embeddings — Les embeddings assainis empêchent les attaques par inversion sur les PII
  7. Piste d'audit — Chaque déchiffrement est journalisé pour les rapports de conformité
  8. Conformité GDPR — Effacement automatisé sur les stockages chiffrés et la base de données vectorielle

Résultats

Conformité : A satisfait aux exigences de chiffrement et d'audit GDPR, HIPAA et SOC2
Sécurité : Les PII ne sont jamais exposées dans les embeddings vectoriels ou le contexte du LLM
Qualité de recherche : Les embeddings assainis ont maintenu une pertinence de recherche sémantique de plus de 95 % par rapport aux non-assainis

Stack Technologique

AES-256-GCMAWS KMSMilvusPostgreSQLNER/PII DetectionOpenAI EmbeddingsNode.jsTypeScriptBullMQPython

caseStudyDetail.more Études de Cas

Découvrez plus de nos implémentations techniques

AI Accounting

Traitement de factures assisté par l'IA avec OCR et intégration QuickBooks

Une entreprise de taille moyenne, traitant des centaines de factures fournisseurs chaque mois, devait éliminer la saisie manuelle des données en extrayant automatiquement les données des factures à l'aide de l'IA/OCR et en les synchronisant directement dans QuickBooks pour la tenue de livres et le suivi des paiements.

Lire l'Étude de Cas
Video Encoding

Insertion d'annonces côté client (CSAI) avec analyse des marqueurs SCTE-35 et intégration de lecteurs multiplateformes

Une plateforme de streaming vidéo devait implémenter l'insertion d'annonces côté client (CSAI) sur les applications web, mobiles et de télévision connectée — permettant des expériences publicitaires personnalisées au niveau de l'appareil avec un support complet d'interaction publicitaire (superpositions cliquables, bannières complémentaires, boutons de saut) que l'insertion côté serveur ne peut pas offrir.

Prêt à Transformer Votre Entreprise ?

Discutons de la façon dont nous pouvons appliquer des solutions similaires à vos défis.

Contactez-NouscaseStudyDetail.viewAllCaseStudies
Performance : Le chiffrement au niveau du champ a ajouté un surcoût inférieur à 5 ms par opération
Rotation des clés : Rotation sans interruption terminée pour plus de 1 million d'enregistrements en arrière-plan
Lire l'Étude de Cas
Web Scraping

Plateforme de Web Scraping et de Génération de Contenu de Blog Propulsée par l'AI

Une entreprise médiatique avait besoin d'une plateforme de contenu intelligente capable d'automatiser la création de contenu de blog en récupérant du contenu web existant, en l'analysant à l'aide de l'AI et en générant des articles de blog originaux et optimisés pour le SEO à partir des données extraites.

Lire l'Étude de Cas

Questions fréquemment posées

MicrocosmWorks a développé un pipeline de chiffrement sélectif qui identifie et chiffre les entités sensibles telles que les noms, les numéros de compte et les données de santé au sein des documents avant qu'elles n'entrent dans la base de données vectorielle, tout en préservant le contexte sémantique environnant dont le LLM a besoin pour une récupération et une génération significatives. Au moment de la requête, le système déchiffre uniquement les entités spécifiques nécessaires à la réponse, limitées au niveau d'accès de l'utilisateur demandeur, ainsi le LLM ne voit jamais de données sensibles brutes qu'il n'est pas autorisé à afficher.

MicrocosmWorks a résolu ce problème en chiffrant les entités sensibles au niveau des tokens tout en calculant les embeddings sur le texte original non chiffré, puis en stockant le texte chiffré à côté des vecteurs sémantiques dans la base de données vectorielle. La recherche récupère des segments sémantiquement pertinents en utilisant les embeddings de haute qualité, et la couche de déchiffrement reconstitue le contenu original uniquement pour les utilisateurs autorisés, préservant ainsi l'intégralité de la qualité de recherche tout en protégeant les données au repos.

MicrocosmWorks a conçu l'approche de chiffrement contextuel pour répondre à des exigences spécifiques en matière de HIPAA, SOC 2, GDPR et CCPA en veillant à ce que les informations personnellement identifiables et les informations de santé protégées soient chiffrées au repos dans le magasin de vecteurs et ne soient déchiffrées qu'en mémoire pendant le traitement autorisé des requêtes. Le système génère des journaux d'audit infalsifiables de chaque événement de déchiffrement, ce qui satisfait aux exigences de surveillance des accès et de responsabilisation communes à ces cadres de conformité.

MicrocosmWorks a développé un utilitaire de migration qui traite les collections de bases de données vectorielles existantes de manière incrémentielle, en chiffrant les entités sensibles dans les morceaux de documents stockés tout en préservant leurs embeddings vectoriels. Vous n'avez donc pas besoin de recalculer les embeddings pour l'intégralité de votre corpus. La migration s'exécute comme un processus en arrière-plan qui peut être mis en pause et repris, et le pipeline de requêtes gère de manière transparente les morceaux chiffrés et ceux qui n'ont pas encore été migrés pendant la période de transition.

MicrocosmWorks a optimisé les opérations de chiffrement et de déchiffrement pour ajouter un surcoût d'environ 15 à 30 ms par requête, ce qui est négligeable comparé au temps de génération typique d'un LLM de 500 ms à 2 s. La détection d'entités et le chiffrement pendant l'ingestion ajoutent environ 100 ms par morceau de document, ce qui est également minime étant donné que l'ingestion est généralement un processus par lots. Le système utilise des opérations AES accélérées par le matériel et met en cache les clés de déchiffrement en mémoire pour minimiser le surcoût cryptographique.