Bağlamsal şifreleme, hassas verileri LLM'lerin faydalı yanıtlar üretmesine olanak tanırken nasıl korur?

MicrocosmWorks, belgelerdeki adlar, hesap numaraları ve sağlık verileri gibi hassas varlıkları vektör veritabanına girmeden önce tanımlayan ve şifreleyen seçici bir şifreleme işlem hattı geliştirdi; bunu yaparken LLM'in anlamlı alma ve üretme için ihtiyaç duyduğu çevresel semantik bağlamı korudu. Sorgulama sırasında sistem, yanıt için gereken yalnızca belirli varlıkların şifresini, istekte bulunan kullanıcının erişim düzeyine göre sınırlandırılmış olarak çözer; böylece LLM, yüzeye çıkarmaya yetkili olmadığı ham hassas verileri asla görmez.

Bir vektör veritabanında verileri şifrelemek anlamsal arama benzerliğini bozar mı ve bunun üstesinden nasıl gelirsiniz?

MicrocosmWorks bunu, orijinal şifrelenmemiş metin üzerinde embeddings hesaplarken hassas varlıkları token düzeyinde şifreleyerek, ardından şifrelenmiş metni anlamsal vektörlerle birlikte vektör veritabanında saklayarak çözdü. Arama, yüksek kaliteli embeddings kullanarak anlamsal olarak ilgili parçaları getirir ve şifre çözme katmanı, yalnızca yetkili kullanıcılar için orijinal içeriği yeniden oluşturarak, beklemedeki verileri korurken tam arama kalitesini muhafaza eder.

LLM işlem hatları için bağlamsal şifreleme hangi uyumluluk çerçevelerini karşılamaya yardımcı olur?

MicrocosmWorks, kişisel olarak tanımlanabilir bilgilerin ve korunan sağlık bilgilerinin vector store'da beklemedeyken şifrelenmesini ve yalnızca yetkili sorgu işleme sırasında bellekte çözülmesini sağlayarak HIPAA, SOC 2, GDPR ve CCPA'daki belirli gereksinimleri karşılamak üzere bağlamsal şifreleme yaklaşımını tasarladı. Sistem, her şifre çözme olayının kurcalamaya karşı dayanıklı denetim kayıtlarını oluşturur; bu da bu uyumluluk çerçevelerinin tamamında ortak olan erişim izleme ve hesap verebilirlik gereksinimlerini karşılar.

Mevcut bir RAG pipeline'ına, tüm belge külliyatını yeniden indekslemeden bağlamsal şifreleme sonradan eklenebilir mi?

MicrocosmWorks, mevcut vektör veritabanı koleksiyonlarını artımlı olarak işleyen, depolanmış belge parçalarındaki hassas varlıkları şifrelerken vektör yerleştirmelerini (vector embeddings) koruyan bir migrasyon aracı geliştirdi; böylece tüm külliyatınız için yerleştirmeleri yeniden hesaplamanıza gerek kalmaz. Migrasyon, duraklatılıp devam ettirilebilen bir arka plan süreci olarak çalışır ve sorgu pipeline'ı geçiş dönemi boyunca hem şifrelenmiş hem de henüz taşınmamış parçaları sorunsuz bir şekilde ele alır.

Bağlamsal şifrelemenin RAG sorgu gecikmesi üzerindeki performans yükü nedir?

MicrocosmWorks, şifreleme ve şifre çözme işlemlerini optimize ederek sorgu başına yaklaşık 15-30 ms ek yük ekledi; bu, tipik 500 ms-2 s LLM üretim süresiyle karşılaştırıldığında ihmal edilebilir düzeydedir. Ingestion sırasındaki varlık tespiti ve şifreleme, belge öbeği başına yaklaşık 100 ms ekler; bu da ingestion'ın genellikle bir toplu işlem süreci olması nedeniyle minimaldir. Sistem, kriptografik yükü en aza indirmek için donanım hızlandırmalı AES operasyonlarını kullanır ve şifre çözme anahtarlarını bellekte önbelleğe alır.

Contextual Encryption for LLM and Vector Database Pipelin...

LLM ve Vektör Veritabanı Boru Hatları için Bağlamsal Şifreleme

Kurumsal bir AI platformu, LLM destekli özellikler (sohbet, arama, belge analizi) sağlamanın yanı sıra hassas verilerin — PII, finansal kayıtlar, sağlık bilgileri — boru hattı boyunca, vektör veritabanında vektör gömümleri olarak depolandığında bile şifreli kalmasını sağlamak zorundaydı.

Projenizi Tartışın

LLM'leri ve vektör veritabanlarını hassas verilerle kullanmak yeni güvenlik riskleri ortaya çıkardı:

Gömülü Veri Tersine Çevirme Saldırıları — Araştırmalar, vektör gömülü verilerin orijinal metni yeniden oluşturmak için tersine mühendislikle çözülebileceğini ve vektör DB'lerde depolanan PII'nin açığa çıkmasına neden olabileceğini gösterdi
LLM Bağlam Sızıntısı — LLM'lere gönderilen hassas veriler, düzgün bir şekilde izole edilmezse diğer kullanıcılara verilen yanıtlarda görünebilir
Uyum Gereksinimleri — GDPR, HIPAA ve SOC2, depolanan ve aktarılan verilerde şifreleme talep ediyordu, ancak vektör veritabanları geleneksel metin alanları yerine matematiksel gösterimler depoluyordu
Arama İşlevselliği — Metni gömmeden önce şifrelemek, anlamsal anlamı yok ederek benzerlik aramasını işe yaramaz hale getiriyordu
Anahtar Yönetimi — Kiracı başına şifreleme anahtarlarının, tüm veri kümelerini yeniden gömmeden döndürülmesi gerekiyordu
Denetim Kaydı — Şifresi çözülmüş hassas verilere yapılan her erişimin uyumluluk için kaydedilmesi gerekiyordu

Hassas alanları depolamadan önce seçici olarak şifrelerken, anlamsal aranabilirliği katmanlı bir yaklaşımla koruyan bağlamsal bir şifreleme mimarisi uyguladık — PII'yi meta verilerde şifrelerken, temizlenmiş, hassas olmayan içeriği gömme için kullanılabilir tuttuk.

Mimari

Şifreleme Motoru: Kiracı başına şifreleme anahtarlarıyla AES-256-GCM
Anahtar Yönetimi: Anahtar oluşturma, döndürme ve erişim kontrolü için AWS KMS
PII Algılama: NER tabanlı (Named Entity Recognition) PII sınıflandırıcısı
Vektör Veritabanı: Temizlenmiş gömülü veriler üzerinde benzerlik araması için Milvus
LLM Katmanı: Temizlenmiş bağlam LLM'ye gönderilir, hassas alanlar üretim sonrası yeniden enjekte edilir
Denetim Sistemi: Her şifre çözme olayı kullanıcı, zaman damgası ve amaç ile kaydedilir
Veritabanı: Şifreli meta veriler için PostgreSQL

Bağlamsal Şifreleme Stratejisi

Veri Sınıflandırması

Herhangi bir veri boru hattına girmeden önce, bir PII sınıflandırıcısı her alanı hassasiyet düzeyine göre kategorize eder:

Yüksek Hassasiyetli (örn. devlet kimlikleri, finansal hesap numaraları, tıbbi kimlikler) — Şifreli, asla gömülmez, asla LLM'ye gönderilmez
Hassas PII (örn. tam adlar, e-posta adresleri, telefon numaraları) — Depoda şifreli, gömme öncesinde yer tutucu ile değiştirilir
Bağlamsal (örn. iş unvanları, şirket adları) — Depoda şifreli, onay ile gömme için kullanılabilir
Hassas Olmayan (örn. ürün açıklamaları, kamuya açık bilgiler) — Olduğu gibi depolanır ve gömülür

Şifreleme Katmanları

Katman 1: Depoda Alan Düzeyinde Şifreleme

Hassas alanlar, depolamadan önce AES-256-GCM ile şifrelenir. Her kiracı, AWS KMS aracılığıyla bir anahtar hiyerarşisi üzerinden yönetilen özel bir veri şifreleme anahtarına (DEK) sahiptir. Gölge alanlar, şifre çözmeyi gerektirmeden tam eşleşme aramaları için aranabilir hash'ler depolar.

Katman 2: Gömmeden Önce Temizleme

Metin gömme modeline gönderilmeden önce PII algılanır ve türü koruyan yer tutucularla değiştirilir. Bu, tanımlanabilir bilgileri kaldırırken benzerlik araması için anlamsal anlamı korur. Orijinalden yer tutucuya eşlemesi, vektör kaydının yanında şifreli olarak saklanır.

Katman 3: LLM Üretimi Sonrası Bağlam Enjeksiyonu

LLM, yanıtları oluşturmak için yer tutucular içeren temizlenmiş bağlamı alır. Üretimden sonra sistem, şifreli depolamadan gerçek değerleri yanıta yeniden enjekte eder. Bu, hassas verilerin LLM eğitim verilerine girmesini veya sağlayıcı tarafından önbelleğe alınmasını önler.

Vektör Veritabanı Güvenliği

Koleksiyon Tasarımı

Vektör koleksiyonları, temizlenmiş gömülü verileri şifreli orijinal meta verilerle birlikte depolar. Kiracı izolasyonu, bölüm anahtarları aracılığıyla uygulanır ve her kiracının meta verileri kendi anahtarları kullanılarak şifrelenir. API katmanı, herhangi bir şifre çözme işleminden önce kiracı sahipliğini doğrular.

Anahtar Yönetimi ve Döndürme

Anahtar Hiyerarşisi

Çok seviyeli bir anahtar hiyerarşisi kullanılır: AWS KMS'deki bir ana anahtar, kiracı başına anahtar şifreleme anahtarlarını sarmalar; bunlar da alan düzeyinde şifreleme için kullanılan kiracı başına veri şifreleme anahtarlarını sarmalar. Bu, tüm anahtar zincirini yeniden şifrelemeye gerek kalmadan verimli anahtar döndürme olanağı sağlar.

Anahtar Döndürme Süreci

Yeni DEK Oluşturuldu — Mevcut anahtar şifreleme anahtarının altında yeni bir veri şifreleme anahtarı oluşturuldu
Yeni Yazımlar — Tüm yeni veriler yeni anahtarla şifrelenir; eski anahtar okumalar için geçerliliğini korur
Arka Plan Yeniden Şifrelemesi — Toplu iş, mevcut kayıtları yeni anahtarla yeniden şifreler
Eski DEK'in Kullanımdan Kaldırılması — Tüm kayıtlar taşındıktan sonra, eski anahtar pasif olarak işaretlenir
Denetim Kaydı — Döndürme olayı, zaman damgaları ve etkilenen kayıt sayılarıyla günlüğe kaydedilir

Denetim ve Uyum

Şifre Çözme Denetim Kaydı

Her şifre çözme olayı, kimin talep ettiğini, neyin şifresinin çözüldüğünü, ne zaman, neden (istek bağlamı) ve hangi anahtarın kullanıldığını yakalar — tam bir uyumluluk izi sağlar.

GDPR Silme Hakkı

Sistem, ilişkisel veritabanı ve vektör veritabanı genelinde tam veri silmeyi destekler ve artakalan erişimi kriptografik olarak sağlamak için isteğe bağlı anahtar döndürme sunar. Tüm silme işlemleri bir GDPR denetim kaydına kaydedilir.

Temel Özellikler

Alan Düzeyinde Şifreleme — Tüm kayıtlar yerine hassas alanlarda AES-256-GCM
PII Temizleme — Yer tutucular gömülü veriler için anlamsal anlamı korur
LLM Sonrası Yeniden Enjeksiyon — Hassas veriler asla LLM sağlayıcılarına gönderilmez
Kiracı Başına Anahtarlar — AWS KMS yönetimi ile izole şifreleme anahtarları
Anahtar Döndürme — Arka plan yeniden şifrelemesi ile sıfır kesinti süreli döndürme
Gömülü Veri Güvenliği — Temizlenmiş gömülü veriler, PII üzerinde tersine çevirme saldırılarını önler
Denetim Kaydı — Her şifre çözme, uyumluluk raporlaması için günlüğe kaydedilir
GDPR Uyumluluğu — Şifreli depolama alanları ve vektör DB genelinde otomatik silme

LLM ve Vektör Veritabanı Boru Hatları için Bağlamsal Şifreleme

Zorluk

Çözümümüz

Mimari

Bağlamsal Şifreleme Stratejisi

Veri Sınıflandırması

Şifreleme Katmanları

Vektör Veritabanı Güvenliği

Koleksiyon Tasarımı

Anahtar Yönetimi ve Döndürme

Anahtar Hiyerarşisi

Anahtar Döndürme Süreci

Denetim ve Uyum

Şifre Çözme Denetim Kaydı

GDPR Silme Hakkı

Temel Özellikler

Sonuçlar

Teknoloji Yığını

caseStudyDetail.more Vaka Çalışmaları

Kickly: Girişimler için Yapay Zeka Destekli Proje Platformu

AI Destekli Fatura İşleme (OCR ve QuickBooks Entegrasyonu ile)

İşletmenizi Dönüştürmeye Hazır mısınız?

İstemci Tarafında Reklam Ekleme (CSAI), SCTE-35 İşaretleyici Ayrıştırma ve Çok Platformlu Oynatıcı Entegrasyonu ile

Sıkça Sorulan Sorular