Kontekstisidonnainen salaus LLM- ja vektoritietokantaputkiin
Yrityksen AI-alusta tarvitsi mahdollistaa LLM-pohjaisia ominaisuuksia (chat, haku, dokumenttien analysointi) varmistaen samalla, että arkaluonteinen data – PII, taloustiedot, terveydenhuollon tiedot – pysyi salattuna koko putkessa, myös silloin, kun se tallennettiin vektoritietokantaan vektoriupotuksina.
Keskustele Projektistasi
Haaste
LLM:ien ja vektoritietokantojen käyttö arkaluonteisen datan kanssa toi mukanaan uusia tietoturvariskejä:
- Upotusten kääntöhyökkäykset (Embedding Inversion Attacks) – Tutkimukset osoittivat, että vektoriupotukset voitiin kääntää takaisin alkuperäiseksi tekstiksi, paljastaen PII:n, joka oli tallennettu vektoritietokantoihin
- LLM-kontekstin vuotaminen – LLM:ille lähetetty arkaluonteinen data saattoi ilmestyä muiden käyttäjien vastauksiin, ellei sitä ollut asianmukaisesti eristetty
- Vaatimustenmukaisuusvaatimukset – GDPR, HIPAA ja SOC2 edellyttivät salausta levossa ja siirron aikana, mutta vektoritietokannat tallensivat matemaattisia esityksiä, eivät perinteisiä tekstikenttiä
- Hakutoiminnallisuus – Tekstin salaaminen ennen upotusta tuhosi semanttisen merkityksen, tehden samankaltaisuushausta hyödyttömän
- Avaintenhallinta – Vuokralaiskohtaiset salausavaimet vaativat kierrätystä ilman koko tietojoukkojen uudelleenupotusta
- Tarkastuspolku – Jokainen pääsy purettuun arkaluonteiseen dataan oli kirjattava vaatimustenmukaisuuden vuoksi
Meidän Ratkaisumme
Toteutimme kontekstisidonnaisen salausarkkitehtuurin, joka salaa valikoivasti arkaluonteiset kentät ennen tallennusta samalla säilyttäen semanttisen haettavuuden kerroksellisen lähestymistavan avulla – salaamalla PII:n metadatassa ja pitämällä puhdistetun, ei-arkaluonteisen sisällön saatavilla upotusta varten.
Arkkitehtuuri
- Salausmoottori: AES-256-GCM vuokralaiskohtaisilla salausavaimilla
- Avaintenhallinta: AWS KMS avainten luomiseen, kierrätykseen ja pääsynhallintaan
- PII:n tunnistus: NER-pohjainen (Named Entity Recognition) PII-luokittelija
- Vektoritietokanta: Milvus samankaltaisuushakuun puhdistetuilla upotuksilla
- LLM-kerros: Puhdistettu konteksti lähetetään LLM:lle, arkaluonteiset kentät ruiskutetaan takaisin generoinnin jälkeen
- Tarkastusjärjestelmä: Jokainen salauksenpurkutapahtuma kirjataan käyttäjän, aikaleiman ja tarkoituksen kera
- Tietokanta: PostgreSQL salatulle metadatatietojen tallennukseen
Kontekstisidonnainen salausstrategia
Datan luokittelu
Ennen kuin dataa syötetään putkeen, PII-luokittelija luokittelee kunkin kentän arkaluonteisuustason mukaan:
- Erittäin arkaluonteinen (esim. valtion henkilötunnukset, tilinumerot, lääketieteelliset tunnisteet) – Salattu, ei koskaan upotettu, ei koskaan lähetetty LLM:lle
- Arkaluonteinen PII (esim. koko nimet, sähköpostiosoitteet, puhelinnumerot) – Salattu levossa, korvattu paikkamerkillä ennen upotusta
- Kontekstisidonnainen (esim. ammattinimikkeet, yritysten nimet) – Salattu levossa, saatavilla upotusta varten suostumuksella
- Ei-arkaluonteinen (esim. tuotekuvaukset, julkinen tieto) – Tallennetaan ja upotetaan sellaisenaan
Salauskerrokset
Kerros 1: Kenttätason salaus levossaArkaluonteiset kentät salataan AES-256-GCM:llä ennen tallennusta. Jokainen vuokralainen saa oman data encryption keyn (DEK), jota hallitaan avainhierarkian kautta AWS KMS:n avulla. Varjokentät tallentavat haettavissa olevia hajautuksia tarkkoja hakuja varten ilman salauksen purkua.
Kerros 2: Puhdistus ennen upotustaPII tunnistetaan ja korvataan tyyppiä säilyttävillä paikkamerkeillä ennen tekstin lähettämistä upotusmalliin. Tämä säilyttää semanttisen merkityksen samankaltaisuushaussa poistaen samalla tunnistettavat tiedot. Alkuperäisen ja paikkamerkin välinen yhdistelmä tallennetaan salattuna vektoritietueen rinnalle.
Kerros 3: Kontekstin lisäys LLM-generoinnin jälkeenLLM vastaanottaa puhdistetun kontekstin paikkamerkkien kanssa vastausten generointia varten. Generoinnin jälkeen järjestelmä ruiskuttaa todelliset arvot salatusta tallennustilasta takaisin vastaukseen. Tämä estää arkaluonteisten tietojen päätymisen LLM:n harjoitusdataan tai palveluntarjoajan välimuistiin.
Vektoritietokannan tietoturva
Kokoelman suunnittelu
Vektorikokoelmat tallentavat puhdistetut upotukset salatun alkuperäisen metadatan rinnalle. Vuokralaisen eristys varmistetaan osiointiavaimilla, ja jokaisen vuokralaisen metadata salataan heidän omalla avaimellaan. API-kerros validioi vuokralaisen omistajuuden ennen salauksenpurkutoimenpiteitä.
Avaintenhallinta ja kierrätys
Avainhierarkia
Käytössä on monitasoinen avainhierarkia: AWS KMS:ssä oleva pääavain käärii vuokralaiskohtaiset avainsalausavaimet, jotka puolestaan käärivät vuokralaiskohtaiset data encryption keyt (DEK) kenttätason salaukseen. Tämä mahdollistaa tehokkaan avainten kierrätyksen ilman koko avainketjun uudelleensalausta.
Avainten kierrätysprosessi
- Uusi DEK luotu – Uusi data encryption key luotu olemassa olevan avainsalausavaimen alle
- Uudet kirjoitukset – Kaikki uusi data salataan uudella avaimella; vanha avain pysyy voimassa lukuja varten
- Taustalla tapahtuva uudelleensalaus – Eräajo salaa olemassa olevat tietueet uudelleen uudella avaimella
- Vanhan DEK:n poistaminen käytöstä – Kun kaikki tietueet on siirretty, vanha avain merkitään passiiviseksi
- Tarkastusloki – Kierrätystapahtuma kirjataan aikaleimojen ja vaikuttaneiden tietuemäärien kera
Tarkastus ja vaatimustenmukaisuus
Salauksen purun tarkastusloki
Jokainen salauksen purkutapahtuma tallentaa tiedot siitä, kuka sen pyysi, mitä purettiin, milloin, miksi (pyynnön konteksti) ja mitä avainta käytettiin – tarjoten täydellisen vaatimustenmukaisuuden seurantapolun.
GDPR:n oikeus tulla unohdetuksi
Järjestelmä tukee täydellistä tietojen poistoa sekä relaatiotietokannasta että vektoritietokannasta, valinnaisella avainten kierrätyksellä varmistaen kryptografisesti, ettei jäännöspääsyä jää. Kaikki poistotoimenpiteet kirjataan GDPR-tarkastuspolkuun.
Avainominaisuudet
- Kenttätason salaus – AES-256-GCM arkaluonteisille kentille, ei kokonaisille tietueille
- PII:n puhdistus – Paikkamerkit säilyttävät semanttisen merkityksen upotuksia varten
- LLM-generoinnin jälkeinen takaisinruiskutus – Arkaluonteista dataa ei koskaan lähetetä LLM-palveluntarjoajille
- Vuokralaiskohtaiset avaimet – Eristetyt salausavaimet AWS KMS -hallinnalla
- Avainten kierrätys – Nolla-katkosaikainen kierrätys taustalla tapahtuvan uudelleensalauksen kera
- Upotusten turvallisuus – Puhdistetut upotukset estävät PII:hin kohdistuvia kääntöhyökkäyksiä
- Tarkastuspolku – Jokainen salauksenpurku kirjataan vaatimustenmukaisuuden raportointia varten
- GDPR-vaatimustenmukaisuus – Automaattinen poisto salatuista tallennuspaikoista ja vektoritietokannasta
Tulokset
Teknologiapino
caseStudyDetail.more Tapaustutkimukset
Tutustu lisää teknisiin toteutuksiimme
AI-pohjainen laskujen käsittely OCR:n ja QuickBooks-integraation avulla
Keskisuuri yritys, joka käsitteli satoja toimittajalaskuja kuukausittain, halusi poistaa manuaalisen tiedonsyötön poimimalla laskutiedot automaattisesti AI/OCR:n avulla ja synkronoimalla ne suoraan QuickBooks-järjestelmään kirjanpitoa ja maksujen seurantaa varten.
Asiakaspuolen mainosten upotus (CSAI) SCTE-35-merkkien jäsennyksellä ja monialustaisen soittimen integroinnilla
Videoiden suoratoistoalustan piti toteuttaa Client-Side Ad Insertion (CSAI) verkko-, mobiili- ja Connected TV -sovellusten yli — mahdollistaen personoidut, laitekohtaiset mainoskokemukset täydellä mainosinteraktion tuella (klikkaavat peittokuvat, kumppanibannerit, ohituspainikkeet), joita server-side insertion ei voi tarjota.
Valmis Muuttamaan Liiketoimintaasi?
Keskustellaan siitä, miten voimme soveltaa vastaavia ratkaisuja haasteisiisi.