Miten kontekstuaalinen salaus suojaa arkaluonteista dataa samalla kun se sallii LLM:ien tuottaa hyödyllisiä vastauksia?

MicrocosmWorks kehitti selektiivisen salausputken, joka tunnistaa ja salaa arkaluonteisia entiteettejä, kuten nimet, tilinumerot ja terveystiedot dokumenttien sisällä ennen kuin ne syötetään vektoritietokantaan, samalla säilyttäen ympäröivän semanttisen kontekstin, jonka LLM tarvitsee mielekkääseen hakuun ja generointiin. Kyselyhetkellä järjestelmä purkaa salauksen vain tietyiltä entiteeteiltä, jotka tarvitaan vastaukseen, pyynnön esittäneen käyttäjän käyttöoikeustason mukaisesti, joten LLM ei koskaan näe raakaa arkaluonteista dataa, jota sillä ei ole valtuuksia näyttää.

Rikkooko datan salaaminen vektoritietokannassa semanttisen haun samankaltaisuutta, ja miten ongelman voi kiertää?

MicrocosmWorks ratkaisi tämän salaamalla arkaluontoiset entiteetit token-tasolla laskiessaan embeddingsit alkuperäisestä salaamattomasta tekstistä ja tallentamalla sitten salatun tekstin semanttisten vektorien rinnalle vektoritietokantaan. Haku noutaa semanttisesti relevantit osat käyttäen korkealaatuisia embeddingejä, ja purkukerros rekonstruoi alkuperäisen sisällön vain valtuutetuille käyttäjille, säilyttäen täyden haun laadun suojaten samalla levossa olevan datan.

Mitä vaatimustenmukaisuuskehyksiä LLM-putkilinjojen kontekstuaalinen salaus auttaa täyttämään?

MicrocosmWorks suunnitteli kontekstuaalisen salauksen lähestymistavan täyttääkseen HIPAA:n, SOC 2:n, GDPR:n ja CCPA:n erityisvaatimukset. Tämä tapahtuu varmistamalla, että henkilökohtaisesti tunnistettavat tiedot ja suojatut terveystiedot salataan levossa vektorivarastossa ja salaus puretaan muistissa vain valtuutetun kyselykäsittelyn aikana. Järjestelmä luo peukaloimattomat auditointilokit jokaisesta salauksen purkamistapahtumasta, mikä täyttää näille vaatimustenmukaisuuskehyksille yhteiset pääsynvalvonnan ja vastuullisuuden vaatimukset.

Voiko kontekstuaalisen salauksen jälkiasentaa olemassa olevaan RAG-pipelineen ilman koko dokumenttikorpuksen uudelleenindeksointia?

MicrocosmWorks rakensi siirtotyökalun, joka käsittelee olemassa olevia vector database -kokoelmia vaiheittain, salaten arkaluonteisia entiteettejä tallennetuissa dokumenttipalasissa säilyttäen samalla niiden vector embeddings -upotukset, joten sinun ei tarvitse laskea upotuksia uudelleen koko korpuksellesi. Siirto tapahtuu taustaprosessina, jonka voi keskeyttää ja jatkaa, ja query pipeline käsittelee saumattomasti sekä salattuja että vielä siirtämättömiä palasia siirtymäkauden aikana.

Mikä on kontekstuaalisen salauksen suorituskyvyn lisäkuormitus RAG-kyselyn viiveeseen?

MicrocosmWorks optimoi salaus- ja salauksenpurkuoperaatiot lisäämään noin 15-30 ms lisäkuormitusta kyselyä kohden, mikä on merkityksetöntä verrattuna tyypilliseen 500 ms – 2 s LLM-generointiaikaan. Entiteettien tunnistus ja salaus sisäänluvun aikana lisää noin 100 ms asiakirjalohkoa kohden, mikä on myös minimaalista, sillä sisäänluku on tyypillisesti eräprosessi. Järjestelmä käyttää laitteistokiihdytettyjä AES-toimintoja ja tallentaa salauksenpurkuavaimet välimuistiin minimoidakseen kryptografisen lisäkuormituksen.

Contextual Encryption for LLM and Vector Database Pipelin...

Kontekstisidonnainen salaus LLM- ja vektoritietokantaputkiin

Yrityksen AI-alusta tarvitsi mahdollistaa LLM-pohjaisia ominaisuuksia (chat, haku, dokumenttien analysointi) varmistaen samalla, että arkaluonteinen data – PII, taloustiedot, terveydenhuollon tiedot – pysyi salattuna koko putkessa, myös silloin, kun se tallennettiin vektoritietokantaan vektoriupotuksina.

Keskustele Projektistasi

LLM:ien ja vektoritietokantojen käyttö arkaluonteisen datan kanssa toi mukanaan uusia tietoturvariskejä:

Upotusten kääntöhyökkäykset (Embedding Inversion Attacks) – Tutkimukset osoittivat, että vektoriupotukset voitiin kääntää takaisin alkuperäiseksi tekstiksi, paljastaen PII:n, joka oli tallennettu vektoritietokantoihin
LLM-kontekstin vuotaminen – LLM:ille lähetetty arkaluonteinen data saattoi ilmestyä muiden käyttäjien vastauksiin, ellei sitä ollut asianmukaisesti eristetty
Vaatimustenmukaisuusvaatimukset – GDPR, HIPAA ja SOC2 edellyttivät salausta levossa ja siirron aikana, mutta vektoritietokannat tallensivat matemaattisia esityksiä, eivät perinteisiä tekstikenttiä
Hakutoiminnallisuus – Tekstin salaaminen ennen upotusta tuhosi semanttisen merkityksen, tehden samankaltaisuushausta hyödyttömän
Avaintenhallinta – Vuokralaiskohtaiset salausavaimet vaativat kierrätystä ilman koko tietojoukkojen uudelleenupotusta
Tarkastuspolku – Jokainen pääsy purettuun arkaluonteiseen dataan oli kirjattava vaatimustenmukaisuuden vuoksi

Toteutimme kontekstisidonnaisen salausarkkitehtuurin, joka salaa valikoivasti arkaluonteiset kentät ennen tallennusta samalla säilyttäen semanttisen haettavuuden kerroksellisen lähestymistavan avulla – salaamalla PII:n metadatassa ja pitämällä puhdistetun, ei-arkaluonteisen sisällön saatavilla upotusta varten.

Arkkitehtuuri

Salausmoottori: AES-256-GCM vuokralaiskohtaisilla salausavaimilla
Avaintenhallinta: AWS KMS avainten luomiseen, kierrätykseen ja pääsynhallintaan
PII:n tunnistus: NER-pohjainen (Named Entity Recognition) PII-luokittelija
Vektoritietokanta: Milvus samankaltaisuushakuun puhdistetuilla upotuksilla
LLM-kerros: Puhdistettu konteksti lähetetään LLM:lle, arkaluonteiset kentät ruiskutetaan takaisin generoinnin jälkeen
Tarkastusjärjestelmä: Jokainen salauksenpurkutapahtuma kirjataan käyttäjän, aikaleiman ja tarkoituksen kera
Tietokanta: PostgreSQL salatulle metadatatietojen tallennukseen

Kontekstisidonnainen salausstrategia

Datan luokittelu

Ennen kuin dataa syötetään putkeen, PII-luokittelija luokittelee kunkin kentän arkaluonteisuustason mukaan:

Erittäin arkaluonteinen (esim. valtion henkilötunnukset, tilinumerot, lääketieteelliset tunnisteet) – Salattu, ei koskaan upotettu, ei koskaan lähetetty LLM:lle
Arkaluonteinen PII (esim. koko nimet, sähköpostiosoitteet, puhelinnumerot) – Salattu levossa, korvattu paikkamerkillä ennen upotusta
Kontekstisidonnainen (esim. ammattinimikkeet, yritysten nimet) – Salattu levossa, saatavilla upotusta varten suostumuksella
Ei-arkaluonteinen (esim. tuotekuvaukset, julkinen tieto) – Tallennetaan ja upotetaan sellaisenaan

Salauskerrokset

Kerros 1: Kenttätason salaus levossa

Arkaluonteiset kentät salataan AES-256-GCM:llä ennen tallennusta. Jokainen vuokralainen saa oman data encryption keyn (DEK), jota hallitaan avainhierarkian kautta AWS KMS:n avulla. Varjokentät tallentavat haettavissa olevia hajautuksia tarkkoja hakuja varten ilman salauksen purkua.

Kerros 2: Puhdistus ennen upotusta

PII tunnistetaan ja korvataan tyyppiä säilyttävillä paikkamerkeillä ennen tekstin lähettämistä upotusmalliin. Tämä säilyttää semanttisen merkityksen samankaltaisuushaussa poistaen samalla tunnistettavat tiedot. Alkuperäisen ja paikkamerkin välinen yhdistelmä tallennetaan salattuna vektoritietueen rinnalle.

Kerros 3: Kontekstin lisäys LLM-generoinnin jälkeen

LLM vastaanottaa puhdistetun kontekstin paikkamerkkien kanssa vastausten generointia varten. Generoinnin jälkeen järjestelmä ruiskuttaa todelliset arvot salatusta tallennustilasta takaisin vastaukseen. Tämä estää arkaluonteisten tietojen päätymisen LLM:n harjoitusdataan tai palveluntarjoajan välimuistiin.

Vektoritietokannan tietoturva

Kokoelman suunnittelu

Vektorikokoelmat tallentavat puhdistetut upotukset salatun alkuperäisen metadatan rinnalle. Vuokralaisen eristys varmistetaan osiointiavaimilla, ja jokaisen vuokralaisen metadata salataan heidän omalla avaimellaan. API-kerros validioi vuokralaisen omistajuuden ennen salauksenpurkutoimenpiteitä.

Avaintenhallinta ja kierrätys

Avainhierarkia

Käytössä on monitasoinen avainhierarkia: AWS KMS:ssä oleva pääavain käärii vuokralaiskohtaiset avainsalausavaimet, jotka puolestaan käärivät vuokralaiskohtaiset data encryption keyt (DEK) kenttätason salaukseen. Tämä mahdollistaa tehokkaan avainten kierrätyksen ilman koko avainketjun uudelleensalausta.

Avainten kierrätysprosessi

Uusi DEK luotu – Uusi data encryption key luotu olemassa olevan avainsalausavaimen alle
Uudet kirjoitukset – Kaikki uusi data salataan uudella avaimella; vanha avain pysyy voimassa lukuja varten
Taustalla tapahtuva uudelleensalaus – Eräajo salaa olemassa olevat tietueet uudelleen uudella avaimella
Vanhan DEK:n poistaminen käytöstä – Kun kaikki tietueet on siirretty, vanha avain merkitään passiiviseksi
Tarkastusloki – Kierrätystapahtuma kirjataan aikaleimojen ja vaikuttaneiden tietuemäärien kera

Tarkastus ja vaatimustenmukaisuus

Salauksen purun tarkastusloki

Jokainen salauksen purkutapahtuma tallentaa tiedot siitä, kuka sen pyysi, mitä purettiin, milloin, miksi (pyynnön konteksti) ja mitä avainta käytettiin – tarjoten täydellisen vaatimustenmukaisuuden seurantapolun.

GDPR:n oikeus tulla unohdetuksi

Järjestelmä tukee täydellistä tietojen poistoa sekä relaatiotietokannasta että vektoritietokannasta, valinnaisella avainten kierrätyksellä varmistaen kryptografisesti, ettei jäännöspääsyä jää. Kaikki poistotoimenpiteet kirjataan GDPR-tarkastuspolkuun.

Avainominaisuudet

Kenttätason salaus – AES-256-GCM arkaluonteisille kentille, ei kokonaisille tietueille
PII:n puhdistus – Paikkamerkit säilyttävät semanttisen merkityksen upotuksia varten
LLM-generoinnin jälkeinen takaisinruiskutus – Arkaluonteista dataa ei koskaan lähetetä LLM-palveluntarjoajille
Vuokralaiskohtaiset avaimet – Eristetyt salausavaimet AWS KMS -hallinnalla
Avainten kierrätys – Nolla-katkosaikainen kierrätys taustalla tapahtuvan uudelleensalauksen kera
Upotusten turvallisuus – Puhdistetut upotukset estävät PII:hin kohdistuvia kääntöhyökkäyksiä
Tarkastuspolku – Jokainen salauksenpurku kirjataan vaatimustenmukaisuuden raportointia varten
GDPR-vaatimustenmukaisuus – Automaattinen poisto salatuista tallennuspaikoista ja vektoritietokannasta

Kontekstisidonnainen salaus LLM- ja vektoritietokantaputkiin

Haaste

Meidän Ratkaisumme

Arkkitehtuuri

Kontekstisidonnainen salausstrategia

Datan luokittelu

Salauskerrokset

Vektoritietokannan tietoturva

Kokoelman suunnittelu

Avaintenhallinta ja kierrätys

Avainhierarkia

Avainten kierrätysprosessi

Tarkastus ja vaatimustenmukaisuus

Salauksen purun tarkastusloki

GDPR:n oikeus tulla unohdetuksi

Avainominaisuudet

Tulokset

Teknologiapino

caseStudyDetail.more Tapaustutkimukset

AI-pohjainen laskujen käsittely OCR:n ja QuickBooks-integraation avulla

Asiakaspuolen mainosten upotus (CSAI) SCTE-35-merkkien jäsennyksellä ja monialustaisen soittimen integroinnilla

Valmis Muuttamaan Liiketoimintaasi?

Tekoälykäyttöinen blogisisällön kaavinta- ja generointialusta

Usein kysytyt kysymykset