MicrocosmWorksInnovere og Arkitektere Digitale Kosmos
OmKontakt
MicrocosmWorksInnoverer og arkitekterer digitale kosmos

Leverer IT-løsninger, der betyder noget. Vi brænder for teknologi, sikkerhed og at hjælpe virksomheder med at vokse gennem pålidelig, innovativ IT-infrastruktur.

[email protected]
+91 7011868196
New Delhi, India

AI Væksthub

AI HubStartup-innovationVirksomhedsaccelerator

Løsninger

Alle løsningerSundhed & Fitness AppsAI VideoplatformAI Agentudvikling

Ressourcer

IndsigterIndustri GuiderBrugssag BlueprintsArkitektur MønstreCase Studier

Virksomhed

Om OsKontaktVores Arbejde

Tjenester

Digital RådgivningCloud InfrastrukturSaaS UdviklingAI UdviklingVideo Teknologi
ERP UdviklingZoho TilpasningOdoo UdviklingSalesforce IntegrationTilpasset CRM Udvikling
QuickBooks IntegrationIoT LøsningerBlockchain Udvikling
Cybersikkerhed RådgivningIT-support - L3

© 2026 MicrocosmWorks. Alle rettigheder forbeholdes.

PrivatlivspolitikServicevilkår
Tilbage til Casestudier
Data SecurityOffentliggjort June 22, 2026 · Opdateret June 22, 2026

Kontekstuel Kryptering til LLM- og Vektordatabase-pipelines

En virksomheds AI-platform skulle aktivere LLM-drevne funktioner (chat, søgning, dokumentanalyse) samtidig med at sikre, at følsomme data — PII, finansielle optegnelser, sundhedsoplysninger — forblev krypteret gennem hele pipelinen, herunder når de blev gemt som vektor-embeddings i en vektordatabase.

Diskuter Dit Projekt
contextual-encryption-llm-vectordb.webp
Data Security
Domain
10
Technologies
5
Key Results
Delivered
Status

Udfordringen

Brug af LLM'er og vektordatabaser med følsomme data introducerede nye sikkerhedsrisici:

  • Embedding-inversionsangreb — Forskning viste, at vektor-embeddings kunne reverse-engineer'es for at rekonstruere original tekst, hvilket afslører PII gemt i vektor DB'er
  • LLM Kontekstlækage — Følsomme data sendt til LLM'er kunne optræde i svar til andre brugere, hvis ikke korrekt isoleret
  • Overholdelseskrav — GDPR, HIPAA og SOC2 krævede kryptering i hvile og under transit, men vektordatabaser gemte matematiske repræsentationer, ikke traditionelle tekstfelter
  • Søgefunktionalitet — Kryptering af tekst før embedding ødelagde semantisk betydning, hvilket gjorde lighedssøgning ubrugelig
  • Nøglehåndtering — Krypteringsnøgler pr. tenant skulle roteres uden at re-embedde hele datasæt
  • Revisionsspor — Hver adgang til dekrypterede følsomme data skulle logges for compliance

Vores Løsning

Vi implementerede en kontekstuel krypteringsarkitektur, der selektivt krypterer følsomme felter før lagring, samtidig med at bevare semantisk søgbarhed gennem en lagdelt tilgang — ved at kryptere PII i metadata og samtidig holde saneret, ikke-følsomt indhold tilgængeligt for embedding.

Arkitektur

  • Krypteringsmotor: AES-256-GCM med krypteringsnøgler pr. tenant
  • Nøglehåndtering: AWS KMS til nøglegenerering, rotation og adgangskontrol
  • PII-detektering: NER-baseret (Named Entity Recognition) PII-klassifikator
  • Vektordatabase: Milvus til lighedssøgning på sanerede embeddings
  • LLM-lag: Saneret kontekst sendt til LLM, følsomme felter genindsat efter generering
  • Revisionssystem: Hver dekrypteringshændelse logges med bruger, tidsstempel og formål
  • Database: PostgreSQL til krypterede metadata

Kontekstuel Krypteringsstrategi

Dataklassificering

Før data sendes ind i pipelinen, klassificerer en PII-klassifikator hvert felt efter følsomhedsniveau:

  • Meget Følsomme (f.eks. offentlige ID'er, finansielle kontonumre, medicinske ID'er) — Krypteret, aldrig embedded, aldrig sendt til LLM
  • Følsomme PII (f.eks. fulde navne, e-mailadresser, telefonnumre) — Krypteret i hvile, erstattet med placeholder før embedding
  • Kontekstuelle (f.eks. stillingsbetegnelser, firmanavne) — Krypteret i hvile, tilgængelig for embedding med samtykke
  • Ikke-Følsomme (f.eks. produktbeskrivelser, offentlig information) — Gemt og embedded som-er

Krypteringslag

Lag 1: Feltniveaukryptering i hvile

Følsomme felter krypteres med AES-256-GCM før lagring. Hver tenant får en dedikeret datakrypteringsnøgle (DEK) administreret gennem et nøglehierarki via AWS KMS. Skyggefælder gemmer søgbare hashes til nøjagtige matchopslag uden at kræve dekryptering.

Lag 2: Sanering før Embedding

PII detekteres og erstattes med typebevarende placeholders, før tekst sendes til embedding-modellen. Dette bevarer semantisk betydning for lighedssøgning, samtidig med at identificerbare oplysninger fjernes. Den originale-til-placeholder-mapping gemmes krypteret sammen med vektor-posten.

Lag 3: Kontekstindsprøjtning efter LLM-generering

LLM'en modtager saneret kontekst med placeholders til generering af svar. Efter generering genindsætter systemet faktiske værdier fra krypteret lager i svaret. Dette forhindrer følsomme data i at komme ind i LLM-træningsdata eller blive cachelagret af udbyderen.

Vektordatabase-Sikkerhed

Samlingsdesign

Vektorsamlinger gemmer sanerede embeddings sammen med krypterede originale metadata. Tenant-isolation håndhæves via partitionsnøgler, hvor hver tenants metadata krypteres med deres egen nøgle. API-laget validerer tenant-ejerskab før enhver dekrypteringsoperation.

Nøglehåndtering & Rotation

Nøglehierarki

Et flerlags nøglehierarki anvendes: en masternøgle i AWS KMS ombryder nøglekrypteringsnøgler pr. tenant, som igen ombryder datakrypteringsnøgler pr. tenant, der bruges til feltniveaukryptering. Dette muliggør effektiv nøglerotation uden at genkryptere hele nøglekæden.

Nøglerotationsproces

  1. Ny DEK genereret — Ny datakrypteringsnøgle oprettet under den eksisterende nøglekrypteringsnøgle
  2. Nye Skrivninger — Alle nye data krypteret med den nye nøgle; den gamle nøgle forbliver gyldig for læsninger
  3. Baggrundsgenkryptering — Batchjob genkrypterer eksisterende poster med den nye nøgle
  4. Udfasning af gammel DEK — Når alle poster er migreret, markeres den gamle nøgle som inaktiv
  5. Revisionslog — Rotationshændelse logget med tidsstempler og antal berørte poster

Revision & Overholdelse

Dekrypterings-revisionslog

Hver dekrypteringshændelse registrerer hvem der anmodede om den, hvad der blev dekrypteret, hvornår, hvorfor (anmodningskontekst), og hvilken nøgle der blev brugt — hvilket giver et komplet compliance-spor.

GDPR Ret til Sletning

Systemet understøtter fuld datasletning på tværs af både den relationelle database og vektordatabasen, med valgfri nøglerotation for kryptografisk at sikre, at der ikke er nogen restadgang. Alle sletteoperationer logges i et GDPR-revisionsspor.

Nøglefunktioner

  1. Feltniveaukryptering — AES-256-GCM på følsomme felter, ikke hele poster
  2. PII-sanering — Placeholders bevarer semantisk betydning for embeddings
  3. Post-LLM Genindsprøjtning — Følsomme data sendes aldrig til LLM-udbydere
  4. Nøgler pr. tenant — Isolerede krypteringsnøgler med AWS KMS-håndtering
  5. Nøglerotation — Rotation uden nedetid med baggrundsgenkryptering
  6. Embedding-sikkerhed — Sanerede embeddings forhindrer inversionsangreb på PII
  7. Revisionsspor — Hver dekryptering logget til compliance-rapportering
  8. GDPR-overholdelse — Automatiseret sletning på tværs af krypterede lagre og vektor DB

Resultater

Overholdelse: Opfyldte GDPR, HIPAA og SOC2 krypterings- og revisionskrav
Sikkerhed: PII aldrig eksponeret i vektor-embeddings eller LLM-kontekst
Søgekvalitet: Sanerede embeddings opretholdt 95%+ semantisk søgerelevans sammenlignet med usanererede

Teknologistak

AES-256-GCMAWS KMSMilvusPostgreSQLNER/PII DetectionOpenAI EmbeddingsNode.jsTypeScriptBullMQPython

caseStudyDetail.more Casestudier

Udforsk flere af vores tekniske implementeringer

AI Accounting

AI-drevet fakturabehandling med OCR og QuickBooks-integration

En mellemstor virksomhed, der månedligt behandler hundredvis af leverandørfakturaer, havde brug for at eliminere manuel dataindtastning ved automatisk at udtrække fakturadata ved hjælp af AI/OCR og synkronisere dem direkte til QuickBooks for bogføring og sporing af betalinger.

Læs Casestudie
Video Encoding

Klient-side annonceindsættelse (CSAI) med SCTE-35-markørparsing og integration af afspillere på flere platforme

En videostreamingplatform skulle implementere klient-side annonceindsættelse (CSAI) på tværs af web-, mobil- og connected TV-apps – hvilket muliggjorde personaliserede annonceringer på enhedsniveau med fuld support for annonceinteraktion (klikbare overlays, følgebannere, skip-knapper), som server-side indsættelse ikke kan tilbyde.

Læs Casestudie

Klar til at Transformere Din Virksomhed?

Lad os drøfte, hvordan vi kan anvende lignende løsninger til dine udfordringer.

Kontakt OscaseStudyDetail.viewAllCaseStudies
Ydeevne: Feltniveaukryptering tilføjede < 5ms overhead pr. operation
Nøglerotation: Rotation uden nedetid fuldført for 1M+ poster i baggrunden
Web Scraping

AI-drevet platform til scraping og generering af blogindhold

Et mediefirma havde brug for en intelligent indholdsplatform, der kunne automatisere oprettelsen af blogindhold ved at scrape eksisterende webindhold, analysere det ved hjælp af AI og generere originale, SEO-optimerede blogindlæg fra de udvundne data.

Læs Casestudie

Ofte stillede spørgsmål

MicrocosmWorks udviklede en selektiv krypteringspipeline, der identificerer og krypterer følsomme enheder såsom navne, kontonumre og sundhedsdata inden for dokumenter, før de indgår i vektordatabasen, samtidig med at den omgivende semantiske kontekst bevares, som LLM'en har brug for til meningsfuld hentning og generering. Ved forespørgselstidspunktet dekrypterer systemet kun de specifikke enheder, der er nødvendige for svaret, afgrænset til den anmodende brugers adgangsniveau, så LLM'en aldrig ser rå følsomme data, den ikke er autoriseret til at fremlægge.

MicrocosmWorks løste dette ved at kryptere følsomme enheder på token-niveau, samtidig med at embeddings blev beregnet på den originale ukrypterede tekst, hvorefter den krypterede tekst blev gemt sammen med de semantiske vektorer i vektordatabasen. Søgningen henter semantisk relevante dele ved hjælp af embeddings af høj kvalitet, og dekrypteringslaget rekonstruerer det originale indhold kun for autoriserede brugere, hvilket bevarer fuld søgekvalitet, samtidig med at data beskyttes i hvile.

MicrocosmWorks designed den kontekstuelle krypteringsmetode for at imødekomme specifikke krav i HIPAA, SOC 2, GDPR og CCPA ved at sikre, at personligt identificerbare oplysninger og beskyttede sundhedsoplysninger krypteres, når de er i ro i vektorlageret, og kun dekrypteres i hukommelsen under autoriseret forespørgselsbehandling. Systemet genererer manipulationssikre revisionslogfiler for hver dekrypteringshændelse, hvilket opfylder kravene til adgangsovervågning og ansvarlighed, som er fælles for disse compliance-rammeværker.

MicrocosmWorks udviklede et migreringsværktøj, der behandler eksisterende vector database-samlinger inkrementelt, krypterer følsomme enheder i lagrede dokumentbidder, mens deres vector embeddings bevares, så du ikke behøver at genberegne embeddings for hele dit corpus. Migrationen kører som en baggrundsproces, der kan pauses og genoptages, og query pipelinen håndterer problemfrit både krypterede og endnu ikke-migrerede bidder i overgangsperioden.

MicrocosmWorks optimerede krypterings- og dekrypteringsoperationerne for at tilføje cirka 15-30ms overhead per forespørgsel, hvilket er ubetydeligt sammenlignet med den typiske LLM-genereringstid på 500ms-2s. Entitetsdetektionen og krypteringen under indtagelse tilføjer cirka 100ms per dokumentchunk, hvilket også er minimalt, da indtagelse typisk er en batchproces. Systemet bruger hardware-accelererede AES-operationer og cacher dekrypteringsnøgler i hukommelsen for at minimere den kryptografiske overhead.