Hvordan beskytter kontekstuel kryptering følsomme data, samtidig med at den stadig tillader LLM'er at generere brugbare svar?

MicrocosmWorks udviklede en selektiv krypteringspipeline, der identificerer og krypterer følsomme enheder såsom navne, kontonumre og sundhedsdata inden for dokumenter, før de indgår i vektordatabasen, samtidig med at den omgivende semantiske kontekst bevares, som LLM'en har brug for til meningsfuld hentning og generering. Ved forespørgselstidspunktet dekrypterer systemet kun de specifikke enheder, der er nødvendige for svaret, afgrænset til den anmodende brugers adgangsniveau, så LLM'en aldrig ser rå følsomme data, den ikke er autoriseret til at fremlægge.

Bryder kryptering af data i en vektordatabase den semantiske søgnings lighed, og hvordan omgår man det?

MicrocosmWorks løste dette ved at kryptere følsomme enheder på token-niveau, samtidig med at embeddings blev beregnet på den originale ukrypterede tekst, hvorefter den krypterede tekst blev gemt sammen med de semantiske vektorer i vektordatabasen. Søgningen henter semantisk relevante dele ved hjælp af embeddings af høj kvalitet, og dekrypteringslaget rekonstruerer det originale indhold kun for autoriserede brugere, hvilket bevarer fuld søgekvalitet, samtidig med at data beskyttes i hvile.

Hvilke compliance-rammeværker hjælper kontekstuel kryptering for LLM-pipelines med at opfylde?

MicrocosmWorks designed den kontekstuelle krypteringsmetode for at imødekomme specifikke krav i HIPAA, SOC 2, GDPR og CCPA ved at sikre, at personligt identificerbare oplysninger og beskyttede sundhedsoplysninger krypteres, når de er i ro i vektorlageret, og kun dekrypteres i hukommelsen under autoriseret forespørgselsbehandling. Systemet genererer manipulationssikre revisionslogfiler for hver dekrypteringshændelse, hvilket opfylder kravene til adgangsovervågning og ansvarlighed, som er fælles for disse compliance-rammeværker.

Kan kontekstuel kryptering eftermonteres i en eksisterende RAG pipeline uden at genindeksere hele dokument corpus?

MicrocosmWorks udviklede et migreringsværktøj, der behandler eksisterende vector database-samlinger inkrementelt, krypterer følsomme enheder i lagrede dokumentbidder, mens deres vector embeddings bevares, så du ikke behøver at genberegne embeddings for hele dit corpus. Migrationen kører som en baggrundsproces, der kan pauses og genoptages, og query pipelinen håndterer problemfrit både krypterede og endnu ikke-migrerede bidder i overgangsperioden.

Hvad er performanceomkostningen ved kontekstuel kryptering på RAG-forespørgselsforsinkelsen?

MicrocosmWorks optimerede krypterings- og dekrypteringsoperationerne for at tilføje cirka 15-30ms overhead per forespørgsel, hvilket er ubetydeligt sammenlignet med den typiske LLM-genereringstid på 500ms-2s. Entitetsdetektionen og krypteringen under indtagelse tilføjer cirka 100ms per dokumentchunk, hvilket også er minimalt, da indtagelse typisk er en batchproces. Systemet bruger hardware-accelererede AES-operationer og cacher dekrypteringsnøgler i hukommelsen for at minimere den kryptografiske overhead.

Contextual Encryption for LLM and Vector Database Pipelin...

Kontekstuel Kryptering til LLM- og Vektordatabase-pipelines

En virksomheds AI-platform skulle aktivere LLM-drevne funktioner (chat, søgning, dokumentanalyse) samtidig med at sikre, at følsomme data — PII, finansielle optegnelser, sundhedsoplysninger — forblev krypteret gennem hele pipelinen, herunder når de blev gemt som vektor-embeddings i en vektordatabase.

Diskuter Dit Projekt

Brug af LLM'er og vektordatabaser med følsomme data introducerede nye sikkerhedsrisici:

Embedding-inversionsangreb — Forskning viste, at vektor-embeddings kunne reverse-engineer'es for at rekonstruere original tekst, hvilket afslører PII gemt i vektor DB'er
LLM Kontekstlækage — Følsomme data sendt til LLM'er kunne optræde i svar til andre brugere, hvis ikke korrekt isoleret
Overholdelseskrav — GDPR, HIPAA og SOC2 krævede kryptering i hvile og under transit, men vektordatabaser gemte matematiske repræsentationer, ikke traditionelle tekstfelter
Søgefunktionalitet — Kryptering af tekst før embedding ødelagde semantisk betydning, hvilket gjorde lighedssøgning ubrugelig
Nøglehåndtering — Krypteringsnøgler pr. tenant skulle roteres uden at re-embedde hele datasæt
Revisionsspor — Hver adgang til dekrypterede følsomme data skulle logges for compliance

Vi implementerede en kontekstuel krypteringsarkitektur, der selektivt krypterer følsomme felter før lagring, samtidig med at bevare semantisk søgbarhed gennem en lagdelt tilgang — ved at kryptere PII i metadata og samtidig holde saneret, ikke-følsomt indhold tilgængeligt for embedding.

Arkitektur

Krypteringsmotor: AES-256-GCM med krypteringsnøgler pr. tenant
Nøglehåndtering: AWS KMS til nøglegenerering, rotation og adgangskontrol
PII-detektering: NER-baseret (Named Entity Recognition) PII-klassifikator
Vektordatabase: Milvus til lighedssøgning på sanerede embeddings
LLM-lag: Saneret kontekst sendt til LLM, følsomme felter genindsat efter generering
Revisionssystem: Hver dekrypteringshændelse logges med bruger, tidsstempel og formål
Database: PostgreSQL til krypterede metadata

Kontekstuel Krypteringsstrategi

Dataklassificering

Før data sendes ind i pipelinen, klassificerer en PII-klassifikator hvert felt efter følsomhedsniveau:

Meget Følsomme (f.eks. offentlige ID'er, finansielle kontonumre, medicinske ID'er) — Krypteret, aldrig embedded, aldrig sendt til LLM
Følsomme PII (f.eks. fulde navne, e-mailadresser, telefonnumre) — Krypteret i hvile, erstattet med placeholder før embedding
Kontekstuelle (f.eks. stillingsbetegnelser, firmanavne) — Krypteret i hvile, tilgængelig for embedding med samtykke
Ikke-Følsomme (f.eks. produktbeskrivelser, offentlig information) — Gemt og embedded som-er

Krypteringslag

Lag 1: Feltniveaukryptering i hvile

Følsomme felter krypteres med AES-256-GCM før lagring. Hver tenant får en dedikeret datakrypteringsnøgle (DEK) administreret gennem et nøglehierarki via AWS KMS. Skyggefælder gemmer søgbare hashes til nøjagtige matchopslag uden at kræve dekryptering.

Lag 2: Sanering før Embedding

PII detekteres og erstattes med typebevarende placeholders, før tekst sendes til embedding-modellen. Dette bevarer semantisk betydning for lighedssøgning, samtidig med at identificerbare oplysninger fjernes. Den originale-til-placeholder-mapping gemmes krypteret sammen med vektor-posten.

Lag 3: Kontekstindsprøjtning efter LLM-generering

LLM'en modtager saneret kontekst med placeholders til generering af svar. Efter generering genindsætter systemet faktiske værdier fra krypteret lager i svaret. Dette forhindrer følsomme data i at komme ind i LLM-træningsdata eller blive cachelagret af udbyderen.

Vektordatabase-Sikkerhed

Samlingsdesign

Vektorsamlinger gemmer sanerede embeddings sammen med krypterede originale metadata. Tenant-isolation håndhæves via partitionsnøgler, hvor hver tenants metadata krypteres med deres egen nøgle. API-laget validerer tenant-ejerskab før enhver dekrypteringsoperation.

Nøglehåndtering & Rotation

Nøglehierarki

Et flerlags nøglehierarki anvendes: en masternøgle i AWS KMS ombryder nøglekrypteringsnøgler pr. tenant, som igen ombryder datakrypteringsnøgler pr. tenant, der bruges til feltniveaukryptering. Dette muliggør effektiv nøglerotation uden at genkryptere hele nøglekæden.

Nøglerotationsproces

Ny DEK genereret — Ny datakrypteringsnøgle oprettet under den eksisterende nøglekrypteringsnøgle
Nye Skrivninger — Alle nye data krypteret med den nye nøgle; den gamle nøgle forbliver gyldig for læsninger
Baggrundsgenkryptering — Batchjob genkrypterer eksisterende poster med den nye nøgle
Udfasning af gammel DEK — Når alle poster er migreret, markeres den gamle nøgle som inaktiv
Revisionslog — Rotationshændelse logget med tidsstempler og antal berørte poster

Revision & Overholdelse

Dekrypterings-revisionslog

Hver dekrypteringshændelse registrerer hvem der anmodede om den, hvad der blev dekrypteret, hvornår, hvorfor (anmodningskontekst), og hvilken nøgle der blev brugt — hvilket giver et komplet compliance-spor.

GDPR Ret til Sletning

Systemet understøtter fuld datasletning på tværs af både den relationelle database og vektordatabasen, med valgfri nøglerotation for kryptografisk at sikre, at der ikke er nogen restadgang. Alle sletteoperationer logges i et GDPR-revisionsspor.

Nøglefunktioner

Feltniveaukryptering — AES-256-GCM på følsomme felter, ikke hele poster
PII-sanering — Placeholders bevarer semantisk betydning for embeddings
Post-LLM Genindsprøjtning — Følsomme data sendes aldrig til LLM-udbydere
Nøgler pr. tenant — Isolerede krypteringsnøgler med AWS KMS-håndtering
Nøglerotation — Rotation uden nedetid med baggrundsgenkryptering
Embedding-sikkerhed — Sanerede embeddings forhindrer inversionsangreb på PII
Revisionsspor — Hver dekryptering logget til compliance-rapportering
GDPR-overholdelse — Automatiseret sletning på tværs af krypterede lagre og vektor DB

Kontekstuel Kryptering til LLM- og Vektordatabase-pipelines

Udfordringen

Vores Løsning

Arkitektur

Kontekstuel Krypteringsstrategi

Dataklassificering

Krypteringslag

Vektordatabase-Sikkerhed

Samlingsdesign

Nøglehåndtering & Rotation

Nøglehierarki

Nøglerotationsproces

Revision & Overholdelse

Dekrypterings-revisionslog

GDPR Ret til Sletning

Nøglefunktioner

Resultater

Teknologistak

caseStudyDetail.more Casestudier

AI-drevet fakturabehandling med OCR og QuickBooks-integration

Klient-side annonceindsættelse (CSAI) med SCTE-35-markørparsing og integration af afspillere på flere platforme

Klar til at Transformere Din Virksomhed?

AI-drevet platform til scraping og generering af blogindhold

Ofte stillede spørgsmål