MicrocosmWorksNag-iinobasyon at Nagdidisenyo ng Digital Cosmos
Tungkol Sa AminMakipag-ugnayan
MicrocosmWorksNagpapabago at Nagdidisenyo ng Digital Cosmos

Nagbibigay ng mga solusyong IT na mahalaga. Kami ay masigasig sa teknolohiya, seguridad, at pagtulong sa mga negosyo na lumago sa pamamagitan ng maaasahan, makabagong IT infrastructure.

[email protected]
+91 7011868196
New Delhi, India

Sentro ng Paglago ng AI

AI HubInobasyon ng StartupPampabilis ng Negosyo

Mga Solusyon

Lahat ng SolusyonMga Wellness at Fitness AppsAI Video PlatformPag-unlad ng AI Agent

Mga Mapagkukunan

Mga PananawMga Gabay sa IndustriyaMga Plano ng PaggamitMga Pattern ng ArkitekturaMga Pag-aaral ng Kaso

Kumpanya

Tungkol sa AminMakipag-ugnayanAng Aming Gawain

Mga Serbisyo

Digital na PagkonsultaImprastraktura ng CloudPag-unlad ng SaaSPag-unlad ng AITeknolohiya ng Video
Pag-unlad ng ERPPagpapasadya ng ZohoPag-unlad ng OdooPagsasama ng SalesforcePag-unlad ng Custom na CRM
Pagsasama ng QuickBooksMga Solusyon sa IoTPag-unlad ng Blockchain
Pagkonsulta sa CybersecuritySuporta sa IT - L3

ยฉ 2026 MicrocosmWorks. Lahat ng karapatan ay nakalaan.

Patakaran sa PagkapribadoMga Tuntunin ng Serbisyo
Bumalik sa mga Case Study
Data SecurityNa-publish June 22, 2026 ยท Na-update June 22, 2026

Kontekstwal na Pag-encrypt para sa Mga Pipeline ng LLM at Vector Database

Isang platform ng AI para sa enterprise ang kinailangang paganahin ang mga feature na pinapagana ng LLM (chat, search, pagsusuri ng dokumento) habang tinitiyak na ang sensitibong data โ€” PII, financial records, healthcare information โ€” ay nanatiling naka-encrypt sa buong pipeline, kasama na kapag nakaimbak bilang vector embeddings sa isang vector database.

Pag-usapan ang Iyong Proyekto
contextual-encryption-llm-vectordb.webp
Data Security
Domain
10
Technologies
5
Key Results
Delivered
Status

Ang Hamon

Ang paggamit ng LLMs at vector databases na may sensitibong data ay nagpakilala ng mga bagong panganib sa seguridad:

  • Mga Embedding Inversion Attack โ€” Ipinakita ng pananaliksik na ang vector embeddings ay maaaring baligtarin upang buuin muli ang orihinal na teksto, na naglalantad ng PII na nakaimbak sa vector DBs
  • LLM Context Leakage โ€” Ang sensitibong data na ipinadala sa LLMs ay maaaring lumabas sa mga tugon sa ibang user kung hindi maayos na naihihiwalay
  • Mga Kinakailangan sa Pagsunod โ€” Ang GDPR, HIPAA, at SOC2 ay humihingi ng encryption at rest at in transit, ngunit ang vector databases ay nag-iimbak ng mga representasyong matematikal, hindi tradisyonal na text fields
  • Functionality ng Paghahanap โ€” Ang pag-encrypt ng teksto bago mag-embedding ay sumira sa semantic meaning, na nagpapawalang-silbi sa similarity search
  • Pamamahala ng Key โ€” Ang per-tenant encryption keys ay kinailangan ng rotation nang hindi muling nag-e-embed ng buong datasets
  • Audit Trail โ€” Ang bawat pag-access sa na-decrypt na sensitibong data ay kinailangan ng logging para sa pagsunod

Ang Aming Solusyon

Nagpatupad kami ng isang arkitektura ng kontekstwal na pag-encrypt na selektibong nag-e-encrypt ng mga sensitibong field bago imbakin habang pinapanatili ang semantic searchability sa pamamagitan ng isang layered approach โ€” nag-e-encrypt ng PII sa metadata habang pinapanatili ang nalinis, hindi sensitibong content na available para sa embedding.

Arkitektura

  • Encryption Engine: AES-256-GCM na may per-tenant encryption keys
  • Pamamahala ng Key: AWS KMS para sa key generation, rotation, at access control
  • PII Detection: NER-based (Named Entity Recognition) PII classifier
  • Vector Database: Milvus para sa similarity search sa mga nalinis na embeddings
  • LLM Layer: Ang nalinis na konteksto ay ipinadala sa LLM, ang mga sensitibong field ay muling ipinasok pagkatapos ng generation
  • Audit System: Ang bawat decryption event ay na-log na may user, timestamp, at layunin
  • Database: PostgreSQL para sa encrypted metadata

Estratehiya ng Kontekstwal na Pag-encrypt

Klasipikasyon ng Data

Bago pumasok ang anumang data sa pipeline, isang PII classifier ang nagkakategorya sa bawat field ayon sa sensitivity level:

  • Lubhang Sensitibo (hal., government IDs, financial account numbers, medical IDs) โ€” Naka-encrypt, hindi kailanman na-embed, hindi kailanman ipinadala sa LLM
  • Sensitibong PII (hal., full names, email addresses, phone numbers) โ€” Naka-encrypt at rest, pinalitan ng placeholder bago mag-embedding
  • Kontekstwal (hal., job titles, company names) โ€” Naka-encrypt at rest, available para sa embedding na may pahintulot
  • Hindi Sensitibo (hal., product descriptions, public information) โ€” Nakaimbak at na-embed nang ganoon

Mga Layer ng Encryption

Layer 1: Field-Level Encryption at Rest

Ang mga sensitibong field ay naka-encrypt na may AES-256-GCM bago imbakin. Ang bawat tenant ay nakakakuha ng nakatalagang data encryption key (DEK) na pinamamahalaan sa pamamagitan ng key hierarchy sa AWS KMS. Nag-iimbak ang mga shadow field ng mga searchable hash para sa exact-match lookups nang hindi nangangailangan ng decryption.

Layer 2: Sanitization Bago Mag-Embedding

Ang PII ay nade-detect at pinalitan ng type-preserving placeholders bago ipadala ang teksto sa embedding model. Pinapanatili nito ang semantic meaning para sa similarity search habang tinatanggal ang makikilalang impormasyon. Ang original-to-placeholder mapping ay nakaimbak na naka-encrypt kasama ng vector record.

Layer 3: Context Injection Pagkatapos ng LLM Generation

Ang LLM ay tumatanggap ng nalinis na konteksto na may placeholders para sa pagbuo ng mga tugon. Pagkatapos ng generation, muling ipinasok ng system ang aktwal na values mula sa encrypted storage sa tugon. Pinipigilan nito ang sensitibong data na pumasok sa LLM training data o ma-cache ng provider.

Seguridad ng Vector Database

Disenyo ng Koleksyon

Nag-iimbak ang mga vector collection ng nalinis na embeddings kasama ng naka-encrypt na orihinal na metadata. Ang paghihiwalay ng tenant ay ipinapatupad sa pamamagitan ng partition keys, kung saan ang metadata ng bawat tenant ay naka-encrypt gamit ang sarili nitong key. Bine-validate ng API layer ang pagmamay-ari ng tenant bago ang anumang operasyon ng decryption.

Pamamahala at Pag-ikot ng Key

Hierarchy ng Key

Isang multi-level key hierarchy ang ginagamit: isang master key sa AWS KMS ang nagwa-wrap ng per-tenant key encryption keys, na siya namang nagwa-wrap ng per-tenant data encryption keys na ginagamit para sa field-level encryption. Nagbibigay-daan ito sa mahusay na key rotation nang hindi muling nag-e-encrypt ng buong key chain.

Proseso ng Pag-ikot ng Key

  1. Bagong DEK Nabuod โ€” Bagong data encryption key na ginawa sa ilalim ng umiiral na key encryption key
  2. Mga Bagong Pagsusulat โ€” Lahat ng bagong data ay naka-encrypt gamit ang bagong key; ang lumang key ay nananatiling valid para sa reads
  3. Background Re-encryption โ€” Ang batch job ay muling nag-e-encrypt ng umiiral na records gamit ang bagong key
  4. Pagre-retiro ng Lumang DEK โ€” Kapag nailipat na ang lahat ng records, ang lumang key ay mamarkahang inactive
  5. Audit Log โ€” Ang rotation event ay na-log na may timestamps at affected record counts

Audit at Pagsunod

Decryption Audit Log

Ang bawat decryption event ay kinukuha kung sino ang nag-request nito, ano ang na-decrypt, kailan, bakit (request context), at anong key ang ginamit โ€” nagbibigay ng kumpletong compliance trail.

Karapatan ng GDPR sa Pagbubura

Sinusuportahan ng system ang buong data deletion sa relational database at vector database, na may opsyonal na key rotation upang cryptographically tiyakin na walang natitirang access. Ang lahat ng deletion operation ay na-log sa isang GDPR audit trail.

Mga Pangunahing Feature

  1. Field-Level Encryption โ€” AES-256-GCM sa mga sensitibong field, hindi sa buong records
  2. PII Sanitization โ€” Ang mga placeholder ay nagpapanatili ng semantic meaning para sa embeddings
  3. Post-LLM Re-injection โ€” Ang sensitibong data ay hindi kailanman ipinadala sa mga LLM provider
  4. Per-Tenant Keys โ€” Nakahiwalay na encryption keys na may pamamahala ng AWS KMS
  5. Key Rotation โ€” Zero-downtime rotation na may background re-encryption
  6. Embedding Safety โ€” Ang nalinis na embeddings ay pumipigil sa inversion attacks sa PII
  7. Audit Trail โ€” Ang bawat decryption ay na-log para sa compliance reporting
  8. Pagsunod sa GDPR โ€” Awtomatikong pagbubura sa buong encrypted stores at vector DB

Mga Resulta

Pagsunod: Natugunan ang GDPR, HIPAA, at SOC2 na mga kinakailangan sa encryption at audit
Seguridad: Ang PII ay hindi kailanman nalantad sa vector embeddings o LLM context
Kalidad ng Paghahanap: Ang nalinis na embeddings ay nagpapanatili ng 95%+ semantic search relevance kumpara sa hindi nalinis

Technology Stack

AES-256-GCMAWS KMSMilvusPostgreSQLNER/PII DetectionOpenAI EmbeddingsNode.jsTypeScriptBullMQPython

caseStudyDetail.more Mga Case Study

Tuklasin ang higit pa sa aming mga teknikal na implementasyon

AI Accounting

Pagpoproseso ng Invoice na Pinapagana ng AI gamit ang OCR at Integrasyon ng QuickBooks

Isang katamtamang laking negosyo na nagpoproseso ng daan-daang invoice ng vendor buwan-buwan ang kinailangan alisin ang manu-manong pagpasok ng data sa pamamagitan ng awtomatikong pagkuha ng data ng invoice gamit ang AI/OCR at direktang i-sync ito sa QuickBooks para sa bookkeeping at pagsubaybay sa pagbabayad.

Basahin ang Case Study
Video Encoding

Client-Side Ad Insertion (CSAI) na may pag-parse ng SCTE-35 Marker at Integrasyon ng Multi-Platform Player

Isang platform para sa video streaming ay nangangailangan na magpatupad ng Client-Side Ad Insertion (CSAI) sa mga web, mobile, at connected TV apps โ€” na nagbibigay-daan sa mga personalized, device-level na karanasan sa ad na may buong suporta sa interaksyon ng ad (mga clickable overlay, companion banner, skip button) na hindi kayang ibigay ng server-side insertion.

Handa nang Baguhin ang Iyong Negosyo?

Pag-usapan natin kung paano namin mailalapat ang katulad na mga solusyon sa iyong mga hamon.

Makipag-ugnayancaseStudyDetail.viewAllCaseStudies
Pagganap: Ang field-level encryption ay nagdagdag ng < 5ms na overhead bawat operasyon
Pag-ikot ng Key: Nakumpleto ang zero-downtime rotation para sa 1M+ records sa background
Basahin ang Case Study
Web Scraping

Platform sa Pag-scrape at Pagbuo ng Nilalaman ng Blog na Pinapagana ng AI

Isang kumpanya ng media ang nangailangan ng matalinong platform ng nilalaman na kayang i-automate ang paggawa ng nilalaman ng blog sa pamamagitan ng pag-scrape ng kasalukuyang nilalaman ng web, pagsusuri nito gamit ang AI, at pagbuo ng orihinal, naka-optimize para sa SEO na mga post sa blog mula sa nakuha na datos.

Basahin ang Case Study

Mga Madalas Itanong

Ang MicrocosmWorks ay nakabuo ng isang selective encryption pipeline na kumikilala at nag-e-encrypt ng mga sensitibong entidad tulad ng mga pangalan, numero ng account, at data ng kalusugan sa loob ng mga dokumento bago sila pumasok sa vector database, habang pinapanatili ang nakapaligid na semantic context na kailangan ng LLM para sa makabuluhang pagkuha at pagbuo. Sa panahon ng query, dine-decrypt ng system ang mga partikular na entidad lamang na kailangan para sa tugon, na naaayon sa antas ng access ng humihiling na user, kaya hindi kailanman nakikita ng LLM ang raw na sensitibong data na hindi nito awtorisadong ipakita.

Nilutas ito ng MicrocosmWorks sa pamamagitan ng pag-encrypt ng sensitibong entity sa antas ng token habang kinakalkula ang embeddings sa orihinal na hindi naka-encrypt na teksto, pagkatapos ay iimbak ang naka-encrypt na teksto kasama ng mga semantic vector sa vector database. Kinukuha ng paghahanap ang mga semantically relevant na bahagi gamit ang mga high-quality na embeddings, at ang decryption layer ay bumubuo muli sa orihinal na nilalaman para lamang sa mga awtorisadong user, pinapanatili ang buong kalidad ng paghahanap habang pinoprotektahan ang data at rest.

Idinisenyo ng MicrocosmWorks ang diskarte sa contextual encryption upang tugunan ang mga tiyak na kinakailangan sa HIPAA, SOC 2, GDPR, at CCPA sa pamamagitan ng pagtiyak na ang personally identifiable information at protected health information ay naka-encrypt habang walang ginagawa sa vector store at tanging dina-decrypt lamang sa loob ng memory sa panahon ng awtorisadong query processing. Ang sistema ay bumubuo ng tamper-proof na mga audit log ng bawat decryption event, na nakakatugon sa mga kinakailangan sa access monitoring at accountability na karaniwan sa lahat ng mga compliance framework na ito.

Nagtayo ang *MicrocosmWorks* ng isang *migration utility* na nagpoproseso ng mga kasalukuyang *vector database collection* nang *incrementally*, ini-encrypt ang mga sensitibong *entity* sa mga nakaimbak na *document chunk* habang pinapanatili ang kanilang mga *vector embedding*, kaya hindi mo na kailangang muling i-compute ang mga *embedding* para sa iyong buong *corpus*. Ang *migration* ay tumatakbo bilang isang *background process* na maaaring i-pause at ipagpatuloy, at ang *query pipeline* ay walang putol na humahawak sa parehong naka-encrypt at hindi pa na-migrate na mga *chunk* sa panahon ng *transition period*.

In-optimize ng MicrocosmWorks ang mga operasyon ng encryption at decryption upang magdagdag ng humigit-kumulang 15-30ms na dagdag na oras sa bawat query, na bale-wala kumpara sa karaniwang 500ms-2s na oras ng pagbuo ng LLM. Ang entity detection at encryption sa panahon ng ingestion ay nagdaragdag ng humigit-kumulang 100ms sa bawat chunk ng dokumento, na minimal din dahil ang ingestion ay karaniwang isang batch process. Gumagamit ang system ng hardware-accelerated na mga operasyon ng AES at nagke-cache ng decryption keys sa memorya upang mabawasan ang cryptographic overhead.