MicrocosmWorksInnovoimassa ja Arkkitehtuuria Digitaalisessa Kosmoksessa
TietoaYhteystiedot
MicrocosmWorksInnovoimassa ja suunnittelemassa digitaalista kosmosta

Toimitamme IT-ratkaisuja, joilla on merkitystä. Olemme intohimoisia teknologiasta, turvallisuudesta ja autamme yrityksiä kasvamaan luotettavan, innovatiivisen IT-infrastruktuurin kautta.

[email protected]
+91 7011868196
New Delhi, India

AI Kasvuhubi

AI HubStartup-innovaatiotYrityskiihdyttämö

Ratkaisut

Kaikki ratkaisutHyvinvointi- ja kuntoilusovelluksetAI-videoplatformiAI-agenttikehitys

Resurssit

OivalluksetToimialan oppaatKäyttötapausmallitArkkitehtuurimallitTapaustutkimukset

Yritys

Tietoa meistäYhteystiedotTyömme

Palvelut

Digitaalinen konsultointiPilvi-infrastruktuuriSaaS-kehitysAI-kehitysVideoteknologia
ERP-kehitysZoho-mukautusOdoo-kehitysSalesforce-integraatioMukautettu CRM-kehitys
QuickBooks-integraatioIoT-ratkaisutLohkoketjukehitys
KyberturvallisuuskonsultointiIT-tuki - L3

© 2026 MicrocosmWorks. Kaikki oikeudet pidätetään.

TietosuojakäytäntöKäyttöehdot
Takaisin Tapaustutkimuksiin
Data SecurityJulkaistu June 22, 2026 · Päivitetty June 22, 2026

Kontekstisidonnainen salaus LLM- ja vektoritietokantaputkiin

Yrityksen AI-alusta tarvitsi mahdollistaa LLM-pohjaisia ominaisuuksia (chat, haku, dokumenttien analysointi) varmistaen samalla, että arkaluonteinen data – PII, taloustiedot, terveydenhuollon tiedot – pysyi salattuna koko putkessa, myös silloin, kun se tallennettiin vektoritietokantaan vektoriupotuksina.

Keskustele Projektistasi
contextual-encryption-llm-vectordb.webp
Data Security
Domain
10
Technologies
5
Key Results
Delivered
Status

Haaste

LLM:ien ja vektoritietokantojen käyttö arkaluonteisen datan kanssa toi mukanaan uusia tietoturvariskejä:

  • Upotusten kääntöhyökkäykset (Embedding Inversion Attacks) – Tutkimukset osoittivat, että vektoriupotukset voitiin kääntää takaisin alkuperäiseksi tekstiksi, paljastaen PII:n, joka oli tallennettu vektoritietokantoihin
  • LLM-kontekstin vuotaminen – LLM:ille lähetetty arkaluonteinen data saattoi ilmestyä muiden käyttäjien vastauksiin, ellei sitä ollut asianmukaisesti eristetty
  • Vaatimustenmukaisuusvaatimukset – GDPR, HIPAA ja SOC2 edellyttivät salausta levossa ja siirron aikana, mutta vektoritietokannat tallensivat matemaattisia esityksiä, eivät perinteisiä tekstikenttiä
  • Hakutoiminnallisuus – Tekstin salaaminen ennen upotusta tuhosi semanttisen merkityksen, tehden samankaltaisuushausta hyödyttömän
  • Avaintenhallinta – Vuokralaiskohtaiset salausavaimet vaativat kierrätystä ilman koko tietojoukkojen uudelleenupotusta
  • Tarkastuspolku – Jokainen pääsy purettuun arkaluonteiseen dataan oli kirjattava vaatimustenmukaisuuden vuoksi

Meidän Ratkaisumme

Toteutimme kontekstisidonnaisen salausarkkitehtuurin, joka salaa valikoivasti arkaluonteiset kentät ennen tallennusta samalla säilyttäen semanttisen haettavuuden kerroksellisen lähestymistavan avulla – salaamalla PII:n metadatassa ja pitämällä puhdistetun, ei-arkaluonteisen sisällön saatavilla upotusta varten.

Arkkitehtuuri

  • Salausmoottori: AES-256-GCM vuokralaiskohtaisilla salausavaimilla
  • Avaintenhallinta: AWS KMS avainten luomiseen, kierrätykseen ja pääsynhallintaan
  • PII:n tunnistus: NER-pohjainen (Named Entity Recognition) PII-luokittelija
  • Vektoritietokanta: Milvus samankaltaisuushakuun puhdistetuilla upotuksilla
  • LLM-kerros: Puhdistettu konteksti lähetetään LLM:lle, arkaluonteiset kentät ruiskutetaan takaisin generoinnin jälkeen
  • Tarkastusjärjestelmä: Jokainen salauksenpurkutapahtuma kirjataan käyttäjän, aikaleiman ja tarkoituksen kera
  • Tietokanta: PostgreSQL salatulle metadatatietojen tallennukseen

Kontekstisidonnainen salausstrategia

Datan luokittelu

Ennen kuin dataa syötetään putkeen, PII-luokittelija luokittelee kunkin kentän arkaluonteisuustason mukaan:

  • Erittäin arkaluonteinen (esim. valtion henkilötunnukset, tilinumerot, lääketieteelliset tunnisteet) – Salattu, ei koskaan upotettu, ei koskaan lähetetty LLM:lle
  • Arkaluonteinen PII (esim. koko nimet, sähköpostiosoitteet, puhelinnumerot) – Salattu levossa, korvattu paikkamerkillä ennen upotusta
  • Kontekstisidonnainen (esim. ammattinimikkeet, yritysten nimet) – Salattu levossa, saatavilla upotusta varten suostumuksella
  • Ei-arkaluonteinen (esim. tuotekuvaukset, julkinen tieto) – Tallennetaan ja upotetaan sellaisenaan

Salauskerrokset

Kerros 1: Kenttätason salaus levossa

Arkaluonteiset kentät salataan AES-256-GCM:llä ennen tallennusta. Jokainen vuokralainen saa oman data encryption keyn (DEK), jota hallitaan avainhierarkian kautta AWS KMS:n avulla. Varjokentät tallentavat haettavissa olevia hajautuksia tarkkoja hakuja varten ilman salauksen purkua.

Kerros 2: Puhdistus ennen upotusta

PII tunnistetaan ja korvataan tyyppiä säilyttävillä paikkamerkeillä ennen tekstin lähettämistä upotusmalliin. Tämä säilyttää semanttisen merkityksen samankaltaisuushaussa poistaen samalla tunnistettavat tiedot. Alkuperäisen ja paikkamerkin välinen yhdistelmä tallennetaan salattuna vektoritietueen rinnalle.

Kerros 3: Kontekstin lisäys LLM-generoinnin jälkeen

LLM vastaanottaa puhdistetun kontekstin paikkamerkkien kanssa vastausten generointia varten. Generoinnin jälkeen järjestelmä ruiskuttaa todelliset arvot salatusta tallennustilasta takaisin vastaukseen. Tämä estää arkaluonteisten tietojen päätymisen LLM:n harjoitusdataan tai palveluntarjoajan välimuistiin.

Vektoritietokannan tietoturva

Kokoelman suunnittelu

Vektorikokoelmat tallentavat puhdistetut upotukset salatun alkuperäisen metadatan rinnalle. Vuokralaisen eristys varmistetaan osiointiavaimilla, ja jokaisen vuokralaisen metadata salataan heidän omalla avaimellaan. API-kerros validioi vuokralaisen omistajuuden ennen salauksenpurkutoimenpiteitä.

Avaintenhallinta ja kierrätys

Avainhierarkia

Käytössä on monitasoinen avainhierarkia: AWS KMS:ssä oleva pääavain käärii vuokralaiskohtaiset avainsalausavaimet, jotka puolestaan käärivät vuokralaiskohtaiset data encryption keyt (DEK) kenttätason salaukseen. Tämä mahdollistaa tehokkaan avainten kierrätyksen ilman koko avainketjun uudelleensalausta.

Avainten kierrätysprosessi

  1. Uusi DEK luotu – Uusi data encryption key luotu olemassa olevan avainsalausavaimen alle
  2. Uudet kirjoitukset – Kaikki uusi data salataan uudella avaimella; vanha avain pysyy voimassa lukuja varten
  3. Taustalla tapahtuva uudelleensalaus – Eräajo salaa olemassa olevat tietueet uudelleen uudella avaimella
  4. Vanhan DEK:n poistaminen käytöstä – Kun kaikki tietueet on siirretty, vanha avain merkitään passiiviseksi
  5. Tarkastusloki – Kierrätystapahtuma kirjataan aikaleimojen ja vaikuttaneiden tietuemäärien kera

Tarkastus ja vaatimustenmukaisuus

Salauksen purun tarkastusloki

Jokainen salauksen purkutapahtuma tallentaa tiedot siitä, kuka sen pyysi, mitä purettiin, milloin, miksi (pyynnön konteksti) ja mitä avainta käytettiin – tarjoten täydellisen vaatimustenmukaisuuden seurantapolun.

GDPR:n oikeus tulla unohdetuksi

Järjestelmä tukee täydellistä tietojen poistoa sekä relaatiotietokannasta että vektoritietokannasta, valinnaisella avainten kierrätyksellä varmistaen kryptografisesti, ettei jäännöspääsyä jää. Kaikki poistotoimenpiteet kirjataan GDPR-tarkastuspolkuun.

Avainominaisuudet

  1. Kenttätason salaus – AES-256-GCM arkaluonteisille kentille, ei kokonaisille tietueille
  2. PII:n puhdistus – Paikkamerkit säilyttävät semanttisen merkityksen upotuksia varten
  3. LLM-generoinnin jälkeinen takaisinruiskutus – Arkaluonteista dataa ei koskaan lähetetä LLM-palveluntarjoajille
  4. Vuokralaiskohtaiset avaimet – Eristetyt salausavaimet AWS KMS -hallinnalla
  5. Avainten kierrätys – Nolla-katkosaikainen kierrätys taustalla tapahtuvan uudelleensalauksen kera
  6. Upotusten turvallisuus – Puhdistetut upotukset estävät PII:hin kohdistuvia kääntöhyökkäyksiä
  7. Tarkastuspolku – Jokainen salauksenpurku kirjataan vaatimustenmukaisuuden raportointia varten
  8. GDPR-vaatimustenmukaisuus – Automaattinen poisto salatuista tallennuspaikoista ja vektoritietokannasta

Tulokset

Vaatimustenmukaisuus: Täytti GDPR:n, HIPAA:n ja SOC2:n salaus- ja tarkastusvaatimukset
Tietoturva: PII ei koskaan altistunut vektoriupotuksissa tai LLM-kontekstissa
Haun laatu: Puhdistetut upotukset säilyttivät yli 95 % semanttisen haun relevanssin verrattuna puhdistamattomiin

Teknologiapino

AES-256-GCMAWS KMSMilvusPostgreSQLNER/PII DetectionOpenAI EmbeddingsNode.jsTypeScriptBullMQPython

caseStudyDetail.more Tapaustutkimukset

Tutustu lisää teknisiin toteutuksiimme

AI Accounting

AI-pohjainen laskujen käsittely OCR:n ja QuickBooks-integraation avulla

Keskisuuri yritys, joka käsitteli satoja toimittajalaskuja kuukausittain, halusi poistaa manuaalisen tiedonsyötön poimimalla laskutiedot automaattisesti AI/OCR:n avulla ja synkronoimalla ne suoraan QuickBooks-järjestelmään kirjanpitoa ja maksujen seurantaa varten.

Lue Tapaustutkimus
Video Encoding

Asiakaspuolen mainosten upotus (CSAI) SCTE-35-merkkien jäsennyksellä ja monialustaisen soittimen integroinnilla

Videoiden suoratoistoalustan piti toteuttaa Client-Side Ad Insertion (CSAI) verkko-, mobiili- ja Connected TV -sovellusten yli — mahdollistaen personoidut, laitekohtaiset mainoskokemukset täydellä mainosinteraktion tuella (klikkaavat peittokuvat, kumppanibannerit, ohituspainikkeet), joita server-side insertion ei voi tarjota.

Lue Tapaustutkimus

Valmis Muuttamaan Liiketoimintaasi?

Keskustellaan siitä, miten voimme soveltaa vastaavia ratkaisuja haasteisiisi.

Ota YhteyttäcaseStudyDetail.viewAllCaseStudies
Suorituskyky: Kenttätason salaus lisäsi < 5 ms ylimääräistä viivettä per toimenpide
Avainten kierrätys: Nolla-katkosaikainen kierrätys suoritettu yli miljoonalle tietueelle taustalla
Web Scraping

Tekoälykäyttöinen blogisisällön kaavinta- ja generointialusta

Mediakonserni tarvitsi älykkään sisältöalustan, joka voisi automatisoida blogisisällön luomisen kaapimalla olemassa olevaa verkkosisältöä, analysoimalla sitä AI:lla ja luomalla alkuperäisiä, SEO-optimoituja blogikirjoituksia poimitusta tiedosta.

Lue Tapaustutkimus

Usein kysytyt kysymykset

MicrocosmWorks kehitti selektiivisen salausputken, joka tunnistaa ja salaa arkaluonteisia entiteettejä, kuten nimet, tilinumerot ja terveystiedot dokumenttien sisällä ennen kuin ne syötetään vektoritietokantaan, samalla säilyttäen ympäröivän semanttisen kontekstin, jonka LLM tarvitsee mielekkääseen hakuun ja generointiin. Kyselyhetkellä järjestelmä purkaa salauksen vain tietyiltä entiteeteiltä, jotka tarvitaan vastaukseen, pyynnön esittäneen käyttäjän käyttöoikeustason mukaisesti, joten LLM ei koskaan näe raakaa arkaluonteista dataa, jota sillä ei ole valtuuksia näyttää.

MicrocosmWorks ratkaisi tämän salaamalla arkaluontoiset entiteetit token-tasolla laskiessaan embeddingsit alkuperäisestä salaamattomasta tekstistä ja tallentamalla sitten salatun tekstin semanttisten vektorien rinnalle vektoritietokantaan. Haku noutaa semanttisesti relevantit osat käyttäen korkealaatuisia embeddingejä, ja purkukerros rekonstruoi alkuperäisen sisällön vain valtuutetuille käyttäjille, säilyttäen täyden haun laadun suojaten samalla levossa olevan datan.

MicrocosmWorks suunnitteli kontekstuaalisen salauksen lähestymistavan täyttääkseen HIPAA:n, SOC 2:n, GDPR:n ja CCPA:n erityisvaatimukset. Tämä tapahtuu varmistamalla, että henkilökohtaisesti tunnistettavat tiedot ja suojatut terveystiedot salataan levossa vektorivarastossa ja salaus puretaan muistissa vain valtuutetun kyselykäsittelyn aikana. Järjestelmä luo peukaloimattomat auditointilokit jokaisesta salauksen purkamistapahtumasta, mikä täyttää näille vaatimustenmukaisuuskehyksille yhteiset pääsynvalvonnan ja vastuullisuuden vaatimukset.

MicrocosmWorks rakensi siirtotyökalun, joka käsittelee olemassa olevia vector database -kokoelmia vaiheittain, salaten arkaluonteisia entiteettejä tallennetuissa dokumenttipalasissa säilyttäen samalla niiden vector embeddings -upotukset, joten sinun ei tarvitse laskea upotuksia uudelleen koko korpuksellesi. Siirto tapahtuu taustaprosessina, jonka voi keskeyttää ja jatkaa, ja query pipeline käsittelee saumattomasti sekä salattuja että vielä siirtämättömiä palasia siirtymäkauden aikana.

MicrocosmWorks optimoi salaus- ja salauksenpurkuoperaatiot lisäämään noin 15-30 ms lisäkuormitusta kyselyä kohden, mikä on merkityksetöntä verrattuna tyypilliseen 500 ms – 2 s LLM-generointiaikaan. Entiteettien tunnistus ja salaus sisäänluvun aikana lisää noin 100 ms asiakirjalohkoa kohden, mikä on myös minimaalista, sillä sisäänluku on tyypillisesti eräprosessi. Järjestelmä käyttää laitteistokiihdytettyjä AES-toimintoja ja tallentaa salauksenpurkuavaimet välimuistiin minimoidakseen kryptografisen lisäkuormituksen.