Comment le chiffrement contextuel protège-t-il les données sensibles tout en permettant aux LLMs de générer des réponses utiles ?

MicrocosmWorks a développé un pipeline de chiffrement sélectif qui identifie et chiffre les entités sensibles telles que les noms, les numéros de compte et les données de santé au sein des documents avant qu'elles n'entrent dans la base de données vectorielle, tout en préservant le contexte sémantique environnant dont le LLM a besoin pour une récupération et une génération significatives. Au moment de la requête, le système déchiffre uniquement les entités spécifiques nécessaires à la réponse, limitées au niveau d'accès de l'utilisateur demandeur, ainsi le LLM ne voit jamais de données sensibles brutes qu'il n'est pas autorisé à afficher.

Le chiffrement des données dans une base de données vectorielle compromet-il la similarité de recherche sémantique, et comment y remédier ?

MicrocosmWorks a résolu ce problème en chiffrant les entités sensibles au niveau des tokens tout en calculant les embeddings sur le texte original non chiffré, puis en stockant le texte chiffré à côté des vecteurs sémantiques dans la base de données vectorielle. La recherche récupère des segments sémantiquement pertinents en utilisant les embeddings de haute qualité, et la couche de déchiffrement reconstitue le contenu original uniquement pour les utilisateurs autorisés, préservant ainsi l'intégralité de la qualité de recherche tout en protégeant les données au repos.

Quels cadres de conformité le chiffrement contextuel pour les pipelines de LLM aide-t-il à satisfaire ?

MicrocosmWorks a conçu l'approche de chiffrement contextuel pour répondre à des exigences spécifiques en matière de HIPAA, SOC 2, GDPR et CCPA en veillant à ce que les informations personnellement identifiables et les informations de santé protégées soient chiffrées au repos dans le magasin de vecteurs et ne soient déchiffrées qu'en mémoire pendant le traitement autorisé des requêtes. Le système génère des journaux d'audit infalsifiables de chaque événement de déchiffrement, ce qui satisfait aux exigences de surveillance des accès et de responsabilisation communes à ces cadres de conformité.

L'encryption contextuelle peut-elle être intégrée a posteriori dans un pipeline RAG existant sans réindexer l'intégralité du corpus de documents ?

MicrocosmWorks a développé un utilitaire de migration qui traite les collections de bases de données vectorielles existantes de manière incrémentielle, en chiffrant les entités sensibles dans les morceaux de documents stockés tout en préservant leurs embeddings vectoriels. Vous n'avez donc pas besoin de recalculer les embeddings pour l'intégralité de votre corpus. La migration s'exécute comme un processus en arrière-plan qui peut être mis en pause et repris, et le pipeline de requêtes gère de manière transparente les morceaux chiffrés et ceux qui n'ont pas encore été migrés pendant la période de transition.

Quel est le surcoût de performance du chiffrement contextuel sur la latence des requêtes RAG ?

MicrocosmWorks a optimisé les opérations de chiffrement et de déchiffrement pour ajouter un surcoût d'environ 15 à 30 ms par requête, ce qui est négligeable comparé au temps de génération typique d'un LLM de 500 ms à 2 s. La détection d'entités et le chiffrement pendant l'ingestion ajoutent environ 100 ms par morceau de document, ce qui est également minime étant donné que l'ingestion est généralement un processus par lots. Le système utilise des opérations AES accélérées par le matériel et met en cache les clés de déchiffrement en mémoire pour minimiser le surcoût cryptographique.

Contextual Encryption for LLM and Vector Database Pipelin...

Chiffrement contextuel pour les pipelines de LLM et de bases de données vectorielles

Une plateforme d'AI d'entreprise devait activer des fonctionnalités basées sur les LLM (chat, recherche, analyse de documents) tout en garantissant que les données sensibles — PII, dossiers financiers, informations de santé — restaient chiffrées tout au long du pipeline, y compris lorsqu'elles étaient stockées sous forme d'embeddings vectoriels dans une base de données vectorielle.

Discutez de Votre Projet

L'utilisation de LLM et de bases de données vectorielles avec des données sensibles a introduit de nouveaux risques de sécurité :

Attaques par inversion d'embedding — Des recherches ont montré que les embeddings vectoriels pouvaient être rétro-ingénierés pour reconstruire le texte original, exposant les PII stockées dans les bases de données vectorielles
Fuite de contexte des LLM — Les données sensibles envoyées aux LLM pourraient apparaître dans les réponses à d'autres utilisateurs si elles ne sont pas correctement isolées
Exigences de conformité — GDPR, HIPAA et SOC2 exigeaient le chiffrement au repos et en transit, mais les bases de données vectorielles stockaient des représentations mathématiques, et non des champs de texte traditionnels
Fonctionnalité de recherche — Le chiffrement du texte avant l'embedding détruisait la signification sémantique, rendant la recherche de similarité inutile
Gestion des clés — Les clés de chiffrement par tenant nécessitaient une rotation sans ré-embedding de l'ensemble des jeux de données
Piste d'audit — Chaque accès aux données sensibles déchiffrées devait être journalisé pour la conformité

Nous avons mis en œuvre une architecture de chiffrement contextuel qui chiffre sélectivement les champs sensibles avant le stockage tout en préservant la capacité de recherche sémantique grâce à une approche en couches — en chiffrant les PII dans les métadonnées tout en conservant le contenu assaini et non sensible disponible pour l'embedding.

Architecture

Moteur de chiffrement : AES-256-GCM avec des clés de chiffrement par tenant
Gestion des clés : AWS KMS pour la génération, la rotation et le contrôle d'accès des clés
Détection des PII : Classificateur de PII basé sur le NER (Named Entity Recognition)
Base de données vectorielle : Milvus pour la recherche de similarité sur des embeddings assainis
Couche LLM : Contexte assaini envoyé au LLM, champs sensibles réinjectés après génération
Système d'audit : Chaque événement de déchiffrement est journalisé avec l'utilisateur, l'horodatage et le but
Base de données : PostgreSQL pour les métadonnées chiffrées

Stratégie de chiffrement contextuel

Classification des données

Avant que toute donnée n'entre dans le pipeline, un classificateur de PII catégorise chaque champ par niveau de sensibilité :

Hautement sensible (par exemple, identifiants gouvernementaux, numéros de compte financier, identifiants médicaux) — Chiffré, jamais intégré, jamais envoyé au LLM
PII sensibles (par exemple, noms complets, adresses e-mail, numéros de téléphone) — Chiffrées au repos, remplacées par des placeholders avant l'embedding
Contextuel (par exemple, titres de poste, noms d'entreprise) — Chiffré au repos, disponible pour l'embedding avec consentement
Non-sensible (par exemple, descriptions de produits, informations publiques) — Stocké et intégré tel quel

Couches de chiffrement

Couche 1 : Chiffrement au niveau du champ au repos

Les champs sensibles sont chiffrés avec AES-256-GCM avant le stockage. Chaque tenant obtient une clé de chiffrement de données (DEK) dédiée gérée via une hiérarchie de clés via AWS KMS. Les champs « shadow » stockent des hachages recherchables pour des recherches de correspondance exacte sans nécessiter de déchiffrement.

Couche 2 : Assainissement avant l'embedding

Les PII sont détectées et remplacées par des placeholders préservant le type avant que le texte ne soit envoyé au modèle d'embedding. Cela préserve la signification sémantique pour la recherche de similarité tout en supprimant les informations identifiables. Le mappage de l'original au placeholder est stocké chiffré aux côtés de l'enregistrement vectoriel.

Couche 3 : Injection de contexte après la génération par le LLM

Le LLM reçoit un contexte assaini avec des placeholders pour générer des réponses. Après la génération, le système réinjecte les valeurs réelles du stockage chiffré dans la réponse. Cela empêche les données sensibles d'entrer dans les données d'entraînement du LLM ou d'être mises en cache par le fournisseur.

Sécurité de la base de données vectorielle

Conception de la collection

Les collections de vecteurs stockent des embeddings assainis aux côtés des métadonnées originales chiffrées. L'isolation des tenants est assurée via des clés de partition, les métadonnées de chaque tenant étant chiffrées à l'aide de sa propre clé. La couche API valide la propriété du tenant avant toute opération de déchiffrement.

Gestion et rotation des clés

Hiérarchie des clés

Une hiérarchie de clés multi-niveaux est utilisée : une clé maîtresse dans AWS KMS enveloppe les clés de chiffrement de clés par tenant, qui à leur tour enveloppent les clés de chiffrement de données par tenant utilisées pour le chiffrement au niveau du champ. Cela permet une rotation efficace des clés sans rechiffrer toute la chaîne de clés.

Processus de rotation des clés

Nouvelle DEK générée — Nouvelle clé de chiffrement de données créée sous la clé de chiffrement de clé existante
Nouvelles écritures — Toutes les nouvelles données chiffrées avec la nouvelle clé ; l'ancienne clé reste valide pour les lectures
Rechiffrement en arrière-plan — Tâche par lots rechiffrant les enregistrements existants avec la nouvelle clé
Retrait de l'ancienne DEK — Une fois tous les enregistrements migrés, l'ancienne clé est marquée comme inactive
Journal d'audit — Événement de rotation journalisé avec horodatages et nombre d'enregistrements affectés

Audit et conformité

Journal d'audit de déchiffrement

Chaque événement de déchiffrement enregistre qui l'a demandé, ce qui a été déchiffré, quand, pourquoi (contexte de la requête) et quelle clé a été utilisée — fournissant une piste de conformité complète.

Droit à l'effacement GDPR

Le système prend en charge la suppression complète des données à la fois dans la base de données relationnelle et dans la base de données vectorielle, avec une rotation optionnelle des clés pour garantir cryptographiquement l'absence d'accès résiduel. Toutes les opérations de suppression sont enregistrées dans une piste d'audit GDPR.

Fonctionnalités clés

Chiffrement au niveau du champ — AES-256-GCM sur les champs sensibles, pas sur des enregistrements entiers
Assainissement des PII — Les placeholders préservent la signification sémantique pour les embeddings
Réinjection post-LLM — Les données sensibles ne sont jamais envoyées aux fournisseurs de LLM
Clés par tenant — Clés de chiffrement isolées avec gestion AWS KMS
Rotation des clés — Rotation sans interruption avec rechiffrement en arrière-plan
Sécurité des embeddings — Les embeddings assainis empêchent les attaques par inversion sur les PII
Piste d'audit — Chaque déchiffrement est journalisé pour les rapports de conformité
Conformité GDPR — Effacement automatisé sur les stockages chiffrés et la base de données vectorielle

Chiffrement contextuel pour les pipelines de LLM et de bases de données vectorielles

Le Défi

Notre Solution

Architecture

Stratégie de chiffrement contextuel

Classification des données

Couches de chiffrement

Sécurité de la base de données vectorielle

Conception de la collection

Gestion et rotation des clés

Hiérarchie des clés

Processus de rotation des clés

Audit et conformité

Journal d'audit de déchiffrement

Droit à l'effacement GDPR

Fonctionnalités clés

Résultats

Stack Technologique

caseStudyDetail.more Études de Cas

Traitement de factures assisté par l'IA avec OCR et intégration QuickBooks

Insertion d'annonces côté client (CSAI) avec analyse des marqueurs SCTE-35 et intégration de lecteurs multiplateformes

Prêt à Transformer Votre Entreprise ?

Plateforme de Web Scraping et de Génération de Contenu de Blog Propulsée par l'AI

Questions fréquemment posées