LLM ve Vektör Veritabanı Boru Hatları için Bağlamsal Şifreleme
Kurumsal bir AI platformu, LLM destekli özellikler (sohbet, arama, belge analizi) sağlamanın yanı sıra hassas verilerin — PII, finansal kayıtlar, sağlık bilgileri — boru hattı boyunca, vektör veritabanında vektör gömümleri olarak depolandığında bile şifreli kalmasını sağlamak zorundaydı.
Projenizi Tartışın
Zorluk
LLM'leri ve vektör veritabanlarını hassas verilerle kullanmak yeni güvenlik riskleri ortaya çıkardı:
- Gömülü Veri Tersine Çevirme Saldırıları — Araştırmalar, vektör gömülü verilerin orijinal metni yeniden oluşturmak için tersine mühendislikle çözülebileceğini ve vektör DB'lerde depolanan PII'nin açığa çıkmasına neden olabileceğini gösterdi
- LLM Bağlam Sızıntısı — LLM'lere gönderilen hassas veriler, düzgün bir şekilde izole edilmezse diğer kullanıcılara verilen yanıtlarda görünebilir
- Uyum Gereksinimleri — GDPR, HIPAA ve SOC2, depolanan ve aktarılan verilerde şifreleme talep ediyordu, ancak vektör veritabanları geleneksel metin alanları yerine matematiksel gösterimler depoluyordu
- Arama İşlevselliği — Metni gömmeden önce şifrelemek, anlamsal anlamı yok ederek benzerlik aramasını işe yaramaz hale getiriyordu
- Anahtar Yönetimi — Kiracı başına şifreleme anahtarlarının, tüm veri kümelerini yeniden gömmeden döndürülmesi gerekiyordu
- Denetim Kaydı — Şifresi çözülmüş hassas verilere yapılan her erişimin uyumluluk için kaydedilmesi gerekiyordu
Çözümümüz
Hassas alanları depolamadan önce seçici olarak şifrelerken, anlamsal aranabilirliği katmanlı bir yaklaşımla koruyan bağlamsal bir şifreleme mimarisi uyguladık — PII'yi meta verilerde şifrelerken, temizlenmiş, hassas olmayan içeriği gömme için kullanılabilir tuttuk.
Mimari
- Şifreleme Motoru: Kiracı başına şifreleme anahtarlarıyla AES-256-GCM
- Anahtar Yönetimi: Anahtar oluşturma, döndürme ve erişim kontrolü için AWS KMS
- PII Algılama: NER tabanlı (Named Entity Recognition) PII sınıflandırıcısı
- Vektör Veritabanı: Temizlenmiş gömülü veriler üzerinde benzerlik araması için Milvus
- LLM Katmanı: Temizlenmiş bağlam LLM'ye gönderilir, hassas alanlar üretim sonrası yeniden enjekte edilir
- Denetim Sistemi: Her şifre çözme olayı kullanıcı, zaman damgası ve amaç ile kaydedilir
- Veritabanı: Şifreli meta veriler için PostgreSQL
Bağlamsal Şifreleme Stratejisi
Veri Sınıflandırması
Herhangi bir veri boru hattına girmeden önce, bir PII sınıflandırıcısı her alanı hassasiyet düzeyine göre kategorize eder:
- Yüksek Hassasiyetli (örn. devlet kimlikleri, finansal hesap numaraları, tıbbi kimlikler) — Şifreli, asla gömülmez, asla LLM'ye gönderilmez
- Hassas PII (örn. tam adlar, e-posta adresleri, telefon numaraları) — Depoda şifreli, gömme öncesinde yer tutucu ile değiştirilir
- Bağlamsal (örn. iş unvanları, şirket adları) — Depoda şifreli, onay ile gömme için kullanılabilir
- Hassas Olmayan (örn. ürün açıklamaları, kamuya açık bilgiler) — Olduğu gibi depolanır ve gömülür
Şifreleme Katmanları
Katman 1: Depoda Alan Düzeyinde ŞifrelemeHassas alanlar, depolamadan önce AES-256-GCM ile şifrelenir. Her kiracı, AWS KMS aracılığıyla bir anahtar hiyerarşisi üzerinden yönetilen özel bir veri şifreleme anahtarına (DEK) sahiptir. Gölge alanlar, şifre çözmeyi gerektirmeden tam eşleşme aramaları için aranabilir hash'ler depolar.
Katman 2: Gömmeden Önce TemizlemeMetin gömme modeline gönderilmeden önce PII algılanır ve türü koruyan yer tutucularla değiştirilir. Bu, tanımlanabilir bilgileri kaldırırken benzerlik araması için anlamsal anlamı korur. Orijinalden yer tutucuya eşlemesi, vektör kaydının yanında şifreli olarak saklanır.
Katman 3: LLM Üretimi Sonrası Bağlam EnjeksiyonuLLM, yanıtları oluşturmak için yer tutucular içeren temizlenmiş bağlamı alır. Üretimden sonra sistem, şifreli depolamadan gerçek değerleri yanıta yeniden enjekte eder. Bu, hassas verilerin LLM eğitim verilerine girmesini veya sağlayıcı tarafından önbelleğe alınmasını önler.
Vektör Veritabanı Güvenliği
Koleksiyon Tasarımı
Vektör koleksiyonları, temizlenmiş gömülü verileri şifreli orijinal meta verilerle birlikte depolar. Kiracı izolasyonu, bölüm anahtarları aracılığıyla uygulanır ve her kiracının meta verileri kendi anahtarları kullanılarak şifrelenir. API katmanı, herhangi bir şifre çözme işleminden önce kiracı sahipliğini doğrular.
Anahtar Yönetimi ve Döndürme
Anahtar Hiyerarşisi
Çok seviyeli bir anahtar hiyerarşisi kullanılır: AWS KMS'deki bir ana anahtar, kiracı başına anahtar şifreleme anahtarlarını sarmalar; bunlar da alan düzeyinde şifreleme için kullanılan kiracı başına veri şifreleme anahtarlarını sarmalar. Bu, tüm anahtar zincirini yeniden şifrelemeye gerek kalmadan verimli anahtar döndürme olanağı sağlar.
Anahtar Döndürme Süreci
- Yeni DEK Oluşturuldu — Mevcut anahtar şifreleme anahtarının altında yeni bir veri şifreleme anahtarı oluşturuldu
- Yeni Yazımlar — Tüm yeni veriler yeni anahtarla şifrelenir; eski anahtar okumalar için geçerliliğini korur
- Arka Plan Yeniden Şifrelemesi — Toplu iş, mevcut kayıtları yeni anahtarla yeniden şifreler
- Eski DEK'in Kullanımdan Kaldırılması — Tüm kayıtlar taşındıktan sonra, eski anahtar pasif olarak işaretlenir
- Denetim Kaydı — Döndürme olayı, zaman damgaları ve etkilenen kayıt sayılarıyla günlüğe kaydedilir
Denetim ve Uyum
Şifre Çözme Denetim Kaydı
Her şifre çözme olayı, kimin talep ettiğini, neyin şifresinin çözüldüğünü, ne zaman, neden (istek bağlamı) ve hangi anahtarın kullanıldığını yakalar — tam bir uyumluluk izi sağlar.
GDPR Silme Hakkı
Sistem, ilişkisel veritabanı ve vektör veritabanı genelinde tam veri silmeyi destekler ve artakalan erişimi kriptografik olarak sağlamak için isteğe bağlı anahtar döndürme sunar. Tüm silme işlemleri bir GDPR denetim kaydına kaydedilir.
Temel Özellikler
- Alan Düzeyinde Şifreleme — Tüm kayıtlar yerine hassas alanlarda AES-256-GCM
- PII Temizleme — Yer tutucular gömülü veriler için anlamsal anlamı korur
- LLM Sonrası Yeniden Enjeksiyon — Hassas veriler asla LLM sağlayıcılarına gönderilmez
- Kiracı Başına Anahtarlar — AWS KMS yönetimi ile izole şifreleme anahtarları
- Anahtar Döndürme — Arka plan yeniden şifrelemesi ile sıfır kesinti süreli döndürme
- Gömülü Veri Güvenliği — Temizlenmiş gömülü veriler, PII üzerinde tersine çevirme saldırılarını önler
- Denetim Kaydı — Her şifre çözme, uyumluluk raporlaması için günlüğe kaydedilir
- GDPR Uyumluluğu — Şifreli depolama alanları ve vektör DB genelinde otomatik silme
Sonuçlar
Teknoloji Yığını
caseStudyDetail.more Vaka Çalışmaları
Daha fazla teknik uygulamamızı keşfedin
AI Destekli Fatura İşleme (OCR ve QuickBooks Entegrasyonu ile)
Ayda yüzlerce satıcı faturasını işleyen orta ölçekli bir işletme, fatura verilerini AI/OCR kullanarak otomatik olarak çıkarıp muhasebe ve ödeme takibi için doğrudan QuickBooks'a senkronize ederek manuel veri girişini ortadan kaldırmak istedi.
İstemci Tarafında Reklam Ekleme (CSAI), SCTE-35 İşaretleyici Ayrıştırma ve Çok Platformlu Oynatıcı Entegrasyonu ile
Bir video akış platformu, sunucu tarafı reklam eklemenin sağlayamadığı tam reklam etkileşimi desteğiyle (tıklanabilir katmanlar, yardımcı banner'lar, atlama düğmeleri) kişiselleştirilmiş, cihaz düzeyinde reklam deneyimleri sunarak web, mobil ve akıllı TV uygulamaları genelinde Client-Side Ad Insertion (CSAI) uygulamasına ihtiyaç duyuyordu.
İşletmenizi Dönüştürmeye Hazır mısınız?
Zorluklarınıza benzer çözümler uygulamamızın yollarını konuşalım.