Kontextuelle Verschlüsselung für LLM- und Vektordatenbank-Pipelines
Eine Unternehmens-AI-Plattform musste LLM-gestützte Funktionen (Chat, Suche, Dokumentenanalyse) ermöglichen und gleichzeitig sicherstellen, dass sensible Daten – PII, Finanzunterlagen, Gesundheitsinformationen – über die gesamte Pipeline hinweg verschlüsselt blieben, auch wenn sie als Vektor-Embeddings in einer Vektordatenbank gespeichert wurden.
Ihr Projekt besprechen
Die Herausforderung
Die Verwendung von LLMs und Vektordatenbanken mit sensiblen Daten führte zu neuen Sicherheitsrisiken:
- Embedding Inversion Attacks – Untersuchungen zeigten, dass Vektor-Embeddings rückentwickelt werden können, um den Originaltext zu rekonstruieren, wodurch in Vektor-DBs gespeicherte PII offengelegt werden.
- LLM Context Leakage – Sensible Daten, die an LLMs gesendet werden, könnten in Antworten an andere Benutzer erscheinen, wenn sie nicht ordnungsgemäß isoliert sind.
- Compliance Requirements – GDPR, HIPAA und SOC2 forderten Verschlüsselung im Ruhezustand und während der Übertragung, aber Vektordatenbanken speicherten mathematische Darstellungen, keine traditionellen Textfelder.
- Suchfunktionalität – Das Verschlüsseln von Text vor dem Embedding zerstörte die semantische Bedeutung und machte die Ähnlichkeitssuche nutzlos.
- Schlüsselverwaltung – Mandantenbezogene Verschlüsselungsschlüssel mussten ohne Neu-Embedding ganzer Datensätze rotiert werden.
- Audit Trail – Jeder Zugriff auf entschlüsselte sensible Daten musste zur Compliance-Sicherung protokolliert werden.
Unsere Lösung
Wir implementierten eine kontextuelle Verschlüsselungsarchitektur, die sensible Felder vor der Speicherung selektiv verschlüsselt, während die semantische Suchbarkeit durch einen mehrschichtigen Ansatz erhalten bleibt – PII wird in Metadaten verschlüsselt, während bereinigte, nicht-sensible Inhalte für das Embedding verfügbar bleiben.
Architektur
- Verschlüsselungs-Engine: AES-256-GCM mit mandantenbezogenen Verschlüsselungsschlüsseln
- Schlüsselverwaltung: AWS KMS für Schlüsselgenerierung, -rotation und Zugriffskontrolle
- PII-Erkennung: NER-basierter (Named Entity Recognition) PII-Klassifikator
- Vektordatenbank: Milvus für die Ähnlichkeitssuche auf bereinigten Embeddings
- LLM-Schicht: Bereinigter Kontext wird an LLM gesendet, sensible Felder werden nach der Generierung erneut injiziert.
- Auditsystem: Jedes Entschlüsselungsereignis wird mit Benutzer, Zeitstempel und Zweck protokolliert.
- Datenbank: PostgreSQL für verschlüsselte Metadaten
Kontextuelle Verschlüsselungsstrategie
Datenklassifikation
Bevor Daten in die Pipeline gelangen, kategorisiert ein PII-Klassifikator jedes Feld nach Sensibilitätsstufe:
- Hochsensibel (z.B. staatliche IDs, Finanzkontonummern, medizinische IDs) – Verschlüsselt, niemals eingebettet, niemals an LLM gesendet
- Sensible PII (z.B. vollständige Namen, E-Mail-Adressen, Telefonnummern) – Im Ruhezustand verschlüsselt, vor dem Embedding durch Platzhalter ersetzt
- Kontextuell (z.B. Berufsbezeichnungen, Firmennamen) – Im Ruhezustand verschlüsselt, mit Zustimmung für das Embedding verfügbar
- Nicht-sensibel (z.B. Produktbeschreibungen, öffentliche Informationen) – Wie vorhanden gespeichert und eingebettet
Verschlüsselungsschichten
Schicht 1: Feldweise Verschlüsselung im RuhezustandSensible Felder werden vor der Speicherung mit AES-256-GCM verschlüsselt. Jeder Mandant erhält einen dedizierten Datenverschlüsselungsschlüssel (DEK), der über eine Schlüsselhierarchie mittels AWS KMS verwaltet wird. Schattenfelder speichern durchsuchbare Hashes für genaue Übereinstimmungssuchen, ohne Entschlüsselung zu erfordern.
Schicht 2: Bereinigung vor dem EmbeddingPII wird erkannt und durch typenerhaltende Platzhalter ersetzt, bevor der Text an das Embedding-Modell gesendet wird. Dies bewahrt die semantische Bedeutung für die Ähnlichkeitssuche, während identifizierbare Informationen entfernt werden. Die Original-zu-Platzhalter-Zuordnung wird verschlüsselt zusammen mit dem Vektor-Datensatz gespeichert.
Schicht 3: Kontextinjektion nach LLM-GenerierungDas LLM erhält bereinigten Kontext mit Platzhaltern zur Generierung von Antworten. Nach der Generierung injiziert das System tatsächliche Werte aus dem verschlüsselten Speicher in die Antwort. Dies verhindert, dass sensible Daten in die LLM-Trainingsdaten gelangen oder vom Anbieter zwischengespeichert werden.
Vektordatenbank-Sicherheit
Sammlungsdesign
Vektorsammlungen speichern bereinigte Embeddings zusammen mit verschlüsselten Originalmetadaten. Die Mandantenisolation wird über Partition Keys durchgesetzt, wobei die Metadaten jedes Mandanten mit einem eigenen Schlüssel verschlüsselt werden. Die API-Schicht validiert die Mandanteneigentümerschaft vor jeder Entschlüsselungsoperation.
Schlüsselverwaltung & Rotation
Schlüsselhierarchie
Es wird eine mehrstufige Schlüsselhierarchie verwendet: Ein Hauptschlüssel in AWS KMS umschließt mandantenbezogene Schlüsselverschlüsselungsschlüssel, die wiederum mandantenbezogene Datenverschlüsselungsschlüssel umschließen, die für die feldweise Verschlüsselung verwendet werden. Dies ermöglicht eine effiziente Schlüsselrotation, ohne die gesamte Schlüsselkette neu zu verschlüsseln.
Schlüsselrotationsprozess
- Neuer DEK generiert – Neuer Datenverschlüsselungsschlüssel wird unter dem bestehenden Schlüsselverschlüsselungsschlüssel erstellt.
- Neue Schreibvorgänge – Alle neuen Daten werden mit dem neuen Schlüssel verschlüsselt; der alte Schlüssel bleibt für Lesevorgänge gültig.
- Hintergrund-Neuverschlüsselung – Batch-Job verschlüsselt bestehende Datensätze mit dem neuen Schlüssel neu.
- Alten DEK außer Dienst stellen – Sobald alle Datensätze migriert sind, wird der alte Schlüssel als inaktiv markiert.
- Audit-Protokoll – Rotationsereignis mit Zeitstempeln und betroffenen Datensatzanzahlen protokolliert.
Audit & Compliance
Entschlüsselungs-Audit-Protokoll
Jedes Entschlüsselungsereignis erfasst, wer es angefordert hat, was entschlüsselt wurde, wann, warum (Anfragekontext) und welcher Schlüssel verwendet wurde – und bietet so einen vollständigen Compliance-Pfad.
GDPR Recht auf Löschung
Das System unterstützt die vollständige Datenlöschung sowohl in der relationalen Datenbank als auch in der Vektordatenbank, mit optionaler Schlüsselrotation, um kryptographisch sicherzustellen, dass kein Restzugriff möglich ist. Alle Löschvorgänge werden in einem GDPR-Audit-Protokoll erfasst.
Schlüsselfunktionen
- Feldweise Verschlüsselung – AES-256-GCM auf sensiblen Feldern, nicht auf gesamten Datensätzen
- PII-Bereinigung – Platzhalter erhalten die semantische Bedeutung für Embeddings
- Post-LLM-Re-Injektion – Sensible Daten werden niemals an LLM-Anbieter gesendet
- Mandantenbezogene Schlüssel – Isolierte Verschlüsselungsschlüssel mit AWS KMS-Verwaltung
- Schlüsselrotation – Unterbrechungsfreie Rotation mit Hintergrund-Neuverschlüsselung
- Embedding-Sicherheit – Bereinigte Embeddings verhindern Inversionsangriffe auf PII
- Audit Trail – Jede Entschlüsselung wird für Compliance-Berichte protokolliert
- GDPR-Compliance – Automatische Löschung über verschlüsselte Speicher und Vektor-DB hinweg
Ergebnisse
Technologie-Stack
caseStudyDetail.more Fallstudien
Entdecken Sie mehr unserer technischen Implementierungen
KI-gestützte Rechnungsverarbeitung mit OCR und QuickBooks-Integration
Ein mittelständisches Unternehmen, das monatlich Hunderte von Lieferantenrechnungen verarbeitete, musste die manuelle Dateneingabe eliminieren, indem es Rechnungsdaten automatisch mithilfe von AI/OCR extrahierte und diese direkt mit QuickBooks für die Buchhaltung und Zahlungsverfolgung synchronisierte.
Clientseitige Anzeigeninsertion (CSAI) mit SCTE-35 Marker-Parsing & Multi-Plattform-Player-Integration
Eine Video-Streaming-Plattform musste die Clientseitige Anzeigeninsertion (CSAI) über Web-, Mobil- und Connected TV-Apps hinweg implementieren – was personalisierte, gerätespezifische Anzeigenerlebnisse mit vollständiger Unterstützung der Anzeigeninteraktion (anklickbare Overlays, Companion-Banner, Skip-Buttons) ermöglicht, die serverseitige Insertion nicht bieten kann.
Bereit, Ihr Unternehmen zu transformieren?
Lassen Sie uns besprechen, wie wir ähnliche Lösungen für Ihre Herausforderungen anwenden können.