Wie schützt kontextuelle Verschlüsselung sensible Daten, während sie es LLMs dennoch ermöglicht, nützliche Antworten zu generieren?

MicrocosmWorks entwickelte eine selektive Verschlüsselungspipeline, die sensible Entitäten wie Namen, Kontonummern und Gesundheitsdaten innerhalb von Dokumenten identifiziert und verschlüsselt, bevor diese in die Vektordatenbank gelangen. Dabei bleibt der umliegende semantische Kontext erhalten, den das LLM für einen aussagekräftigen Abruf und eine sinnvolle Generierung benötigt. Bei der Abfrage entschlüsselt das System nur die spezifischen Entitäten, die für die Antwort benötigt werden, begrenzt auf das Zugriffslevel des anfragenden Benutzers. So sieht das LLM niemals rohe sensible Daten, die es nicht anzeigen darf.

Beeinträchtigt die Verschlüsselung von Daten in einer Vector Database die Semantic Search Ähnlichkeit, und wie kann man das umgehen?

MicrocosmWorks hat dies gelöst, indem es sensible Entitäten auf Token Level verschlüsselt und gleichzeitig Embeddings auf dem originalen unverschlüsselten Text berechnet. Anschließend wird der verschlüsselte Text zusammen mit den Semantic Vectors in der Vector Database gespeichert. Die Suche ruft semantisch relevante Chunks mithilfe der qualitativ hochwertigen Embeddings ab, und die Decryption Layer rekonstruiert den ursprünglichen Inhalt nur für autorisierte Benutzer. Dadurch bleibt die volle Suchqualität erhalten, während Daten im Ruhezustand geschützt werden.

Welche Compliance-Frameworks hilft kontextbezogene Verschlüsselung für LLM-Pipelines zu erfüllen?

MicrocosmWorks hat den Ansatz der kontextbezogenen Verschlüsselung entwickelt, um spezifische Anforderungen in HIPAA, SOC 2, GDPR und CCPA zu erfüllen, indem sichergestellt wird, dass persönlich identifizierbare Informationen und Protected Health Information im Ruhezustand in der Vektordatenbank verschlüsselt und nur im Arbeitsspeicher während der autorisierten Abfrageverarbeitung entschlüsselt werden. Das System generiert manipulationssichere Audit-Logs jedes Entschlüsselungsereignisses, was die Anforderungen an Zugriffsüberwachung und Rechenschaftspflicht erfüllt, die in diesen Compliance-Frameworks üblich sind.

Kann kontextuelle Verschlüsselung in eine bestehende RAG-Pipeline nachgerüstet werden, ohne den gesamten Dokumentenkorpus neu zu indizieren?

MicrocosmWorks hat ein Migrationstool entwickelt, das bestehende Vektordatenbank-Sammlungen inkrementell verarbeitet, indem es sensible Entitäten in gespeicherten Dokumenten-Chunks verschlüsselt, während deren Vektor-Embeddings erhalten bleiben, sodass Sie die Embeddings für Ihren gesamten Korpus nicht neu berechnen müssen. Die Migration läuft als Hintergrundprozess, der angehalten und fortgesetzt werden kann, und die Abfrage-Pipeline verarbeitet während der Übergangszeit nahtlos sowohl verschlüsselte als auch noch nicht migrierte Chunks.

Wie hoch ist der Leistungs-Overhead der kontextuellen Verschlüsselung auf die RAG-Abfragelatenz?

MicrocosmWorks optimierte die Ver- und Entschlüsselungsvorgänge, um einen Overhead von etwa 15-30ms pro Abfrage hinzuzufügen, was vernachlässigbar ist im Vergleich zur typischen LLM-Generierungszeit von 500ms-2s. Die Entitätserkennung und Verschlüsselung während der Aufnahme fügt etwa 100ms pro Dokumenten-Chunk hinzu, was ebenfalls minimal ist, da die Aufnahme typischerweise ein Batch-Prozess ist. Das System verwendet hardwarebeschleunigte AES-Operationen und speichert Entschlüsselungsschlüssel im Arbeitsspeicher, um den kryptografischen Overhead zu minimieren.

Contextual Encryption for LLM and Vector Database Pipelin...

Kontextuelle Verschlüsselung für LLM- und Vektordatenbank-Pipelines

Eine Unternehmens-AI-Plattform musste LLM-gestützte Funktionen (Chat, Suche, Dokumentenanalyse) ermöglichen und gleichzeitig sicherstellen, dass sensible Daten – PII, Finanzunterlagen, Gesundheitsinformationen – über die gesamte Pipeline hinweg verschlüsselt blieben, auch wenn sie als Vektor-Embeddings in einer Vektordatenbank gespeichert wurden.

Ihr Projekt besprechen

Die Verwendung von LLMs und Vektordatenbanken mit sensiblen Daten führte zu neuen Sicherheitsrisiken:

Embedding Inversion Attacks – Untersuchungen zeigten, dass Vektor-Embeddings rückentwickelt werden können, um den Originaltext zu rekonstruieren, wodurch in Vektor-DBs gespeicherte PII offengelegt werden.
LLM Context Leakage – Sensible Daten, die an LLMs gesendet werden, könnten in Antworten an andere Benutzer erscheinen, wenn sie nicht ordnungsgemäß isoliert sind.
Compliance Requirements – GDPR, HIPAA und SOC2 forderten Verschlüsselung im Ruhezustand und während der Übertragung, aber Vektordatenbanken speicherten mathematische Darstellungen, keine traditionellen Textfelder.
Suchfunktionalität – Das Verschlüsseln von Text vor dem Embedding zerstörte die semantische Bedeutung und machte die Ähnlichkeitssuche nutzlos.
Schlüsselverwaltung – Mandantenbezogene Verschlüsselungsschlüssel mussten ohne Neu-Embedding ganzer Datensätze rotiert werden.
Audit Trail – Jeder Zugriff auf entschlüsselte sensible Daten musste zur Compliance-Sicherung protokolliert werden.

Wir implementierten eine kontextuelle Verschlüsselungsarchitektur, die sensible Felder vor der Speicherung selektiv verschlüsselt, während die semantische Suchbarkeit durch einen mehrschichtigen Ansatz erhalten bleibt – PII wird in Metadaten verschlüsselt, während bereinigte, nicht-sensible Inhalte für das Embedding verfügbar bleiben.

Architektur

Verschlüsselungs-Engine: AES-256-GCM mit mandantenbezogenen Verschlüsselungsschlüsseln
Schlüsselverwaltung: AWS KMS für Schlüsselgenerierung, -rotation und Zugriffskontrolle
PII-Erkennung: NER-basierter (Named Entity Recognition) PII-Klassifikator
Vektordatenbank: Milvus für die Ähnlichkeitssuche auf bereinigten Embeddings
LLM-Schicht: Bereinigter Kontext wird an LLM gesendet, sensible Felder werden nach der Generierung erneut injiziert.
Auditsystem: Jedes Entschlüsselungsereignis wird mit Benutzer, Zeitstempel und Zweck protokolliert.
Datenbank: PostgreSQL für verschlüsselte Metadaten

Kontextuelle Verschlüsselungsstrategie

Datenklassifikation

Bevor Daten in die Pipeline gelangen, kategorisiert ein PII-Klassifikator jedes Feld nach Sensibilitätsstufe:

Hochsensibel (z.B. staatliche IDs, Finanzkontonummern, medizinische IDs) – Verschlüsselt, niemals eingebettet, niemals an LLM gesendet
Sensible PII (z.B. vollständige Namen, E-Mail-Adressen, Telefonnummern) – Im Ruhezustand verschlüsselt, vor dem Embedding durch Platzhalter ersetzt
Kontextuell (z.B. Berufsbezeichnungen, Firmennamen) – Im Ruhezustand verschlüsselt, mit Zustimmung für das Embedding verfügbar
Nicht-sensibel (z.B. Produktbeschreibungen, öffentliche Informationen) – Wie vorhanden gespeichert und eingebettet

Verschlüsselungsschichten

Schicht 1: Feldweise Verschlüsselung im Ruhezustand

Sensible Felder werden vor der Speicherung mit AES-256-GCM verschlüsselt. Jeder Mandant erhält einen dedizierten Datenverschlüsselungsschlüssel (DEK), der über eine Schlüsselhierarchie mittels AWS KMS verwaltet wird. Schattenfelder speichern durchsuchbare Hashes für genaue Übereinstimmungssuchen, ohne Entschlüsselung zu erfordern.

Schicht 2: Bereinigung vor dem Embedding

PII wird erkannt und durch typenerhaltende Platzhalter ersetzt, bevor der Text an das Embedding-Modell gesendet wird. Dies bewahrt die semantische Bedeutung für die Ähnlichkeitssuche, während identifizierbare Informationen entfernt werden. Die Original-zu-Platzhalter-Zuordnung wird verschlüsselt zusammen mit dem Vektor-Datensatz gespeichert.

Schicht 3: Kontextinjektion nach LLM-Generierung

Das LLM erhält bereinigten Kontext mit Platzhaltern zur Generierung von Antworten. Nach der Generierung injiziert das System tatsächliche Werte aus dem verschlüsselten Speicher in die Antwort. Dies verhindert, dass sensible Daten in die LLM-Trainingsdaten gelangen oder vom Anbieter zwischengespeichert werden.

Vektordatenbank-Sicherheit

Sammlungsdesign

Vektorsammlungen speichern bereinigte Embeddings zusammen mit verschlüsselten Originalmetadaten. Die Mandantenisolation wird über Partition Keys durchgesetzt, wobei die Metadaten jedes Mandanten mit einem eigenen Schlüssel verschlüsselt werden. Die API-Schicht validiert die Mandanteneigentümerschaft vor jeder Entschlüsselungsoperation.

Schlüsselverwaltung & Rotation

Schlüsselhierarchie

Es wird eine mehrstufige Schlüsselhierarchie verwendet: Ein Hauptschlüssel in AWS KMS umschließt mandantenbezogene Schlüsselverschlüsselungsschlüssel, die wiederum mandantenbezogene Datenverschlüsselungsschlüssel umschließen, die für die feldweise Verschlüsselung verwendet werden. Dies ermöglicht eine effiziente Schlüsselrotation, ohne die gesamte Schlüsselkette neu zu verschlüsseln.

Schlüsselrotationsprozess

Neuer DEK generiert – Neuer Datenverschlüsselungsschlüssel wird unter dem bestehenden Schlüsselverschlüsselungsschlüssel erstellt.
Neue Schreibvorgänge – Alle neuen Daten werden mit dem neuen Schlüssel verschlüsselt; der alte Schlüssel bleibt für Lesevorgänge gültig.
Hintergrund-Neuverschlüsselung – Batch-Job verschlüsselt bestehende Datensätze mit dem neuen Schlüssel neu.
Alten DEK außer Dienst stellen – Sobald alle Datensätze migriert sind, wird der alte Schlüssel als inaktiv markiert.
Audit-Protokoll – Rotationsereignis mit Zeitstempeln und betroffenen Datensatzanzahlen protokolliert.

Audit & Compliance

Entschlüsselungs-Audit-Protokoll

Jedes Entschlüsselungsereignis erfasst, wer es angefordert hat, was entschlüsselt wurde, wann, warum (Anfragekontext) und welcher Schlüssel verwendet wurde – und bietet so einen vollständigen Compliance-Pfad.

GDPR Recht auf Löschung

Das System unterstützt die vollständige Datenlöschung sowohl in der relationalen Datenbank als auch in der Vektordatenbank, mit optionaler Schlüsselrotation, um kryptographisch sicherzustellen, dass kein Restzugriff möglich ist. Alle Löschvorgänge werden in einem GDPR-Audit-Protokoll erfasst.

Schlüsselfunktionen

Feldweise Verschlüsselung – AES-256-GCM auf sensiblen Feldern, nicht auf gesamten Datensätzen
PII-Bereinigung – Platzhalter erhalten die semantische Bedeutung für Embeddings
Post-LLM-Re-Injektion – Sensible Daten werden niemals an LLM-Anbieter gesendet
Mandantenbezogene Schlüssel – Isolierte Verschlüsselungsschlüssel mit AWS KMS-Verwaltung
Schlüsselrotation – Unterbrechungsfreie Rotation mit Hintergrund-Neuverschlüsselung
Embedding-Sicherheit – Bereinigte Embeddings verhindern Inversionsangriffe auf PII
Audit Trail – Jede Entschlüsselung wird für Compliance-Berichte protokolliert
GDPR-Compliance – Automatische Löschung über verschlüsselte Speicher und Vektor-DB hinweg

Kontextuelle Verschlüsselung für LLM- und Vektordatenbank-Pipelines

Die Herausforderung

Unsere Lösung

Architektur

Kontextuelle Verschlüsselungsstrategie

Datenklassifikation

Verschlüsselungsschichten

Vektordatenbank-Sicherheit

Sammlungsdesign

Schlüsselverwaltung & Rotation

Schlüsselhierarchie

Schlüsselrotationsprozess

Audit & Compliance

Entschlüsselungs-Audit-Protokoll

GDPR Recht auf Löschung

Schlüsselfunktionen

Ergebnisse

Technologie-Stack

caseStudyDetail.more Fallstudien

Kickly: KI-gestützte Projektplattform für Startups

KI-gestützte Rechnungsverarbeitung mit OCR und QuickBooks-Integration

Bereit, Ihr Unternehmen zu transformieren?

Clientseitige Anzeigeninsertion (CSAI) mit SCTE-35 Marker-Parsing & Multi-Plattform-Player-Integration

Häufig gestellte Fragen