MicrocosmWorksInnovation und Architektur digitaler Kosmen
Über unsKontakt
MicrocosmWorksInnovieren und Gestalten digitaler Kosmen

Bereitstellung von IT-Lösungen, die zählen. Wir sind leidenschaftlich für Technologie, Sicherheit und helfen Unternehmen, durch zuverlässige, innovative IT-Infrastruktur zu wachsen.

[email protected]
+91 7011868196
New Delhi, India

AI Wachstumszentrum

AI HubStartup-InnovationUnternehmensbeschleuniger

Lösungen

Alle LösungenWellness- & Fitness-AppsAI Video PlattformAI Agent Entwicklung

Ressourcen

EinblickeBranchenleitfädenAnwendungsfall-BlaupausenArchitektur-MusterFallstudien

Unternehmen

Über unsKontaktUnsere Arbeit

Dienstleistungen

Digitale BeratungCloud-InfrastrukturSaaS-EntwicklungKI-EntwicklungVideotechnologie
ERP-EntwicklungZoho-AnpassungOdoo-EntwicklungSalesforce-IntegrationBenutzerdefinierte CRM-Entwicklung
QuickBooks-IntegrationIoT-LösungenBlockchain-Entwicklung
Cybersecurity-BeratungIT-Support - L3

© 2026 MicrocosmWorks. Alle Rechte vorbehalten.

DatenschutzrichtlinieNutzungsbedingungen
Zurück zu Fallstudien
Data SecurityVeröffentlicht June 22, 2026 · Aktualisiert June 22, 2026

Kontextuelle Verschlüsselung für LLM- und Vektordatenbank-Pipelines

Eine Unternehmens-AI-Plattform musste LLM-gestützte Funktionen (Chat, Suche, Dokumentenanalyse) ermöglichen und gleichzeitig sicherstellen, dass sensible Daten – PII, Finanzunterlagen, Gesundheitsinformationen – über die gesamte Pipeline hinweg verschlüsselt blieben, auch wenn sie als Vektor-Embeddings in einer Vektordatenbank gespeichert wurden.

Ihr Projekt besprechen
contextual-encryption-llm-vectordb.webp
Data Security
Domain
10
Technologies
5
Key Results
Delivered
Status

Die Herausforderung

Die Verwendung von LLMs und Vektordatenbanken mit sensiblen Daten führte zu neuen Sicherheitsrisiken:

  • Embedding Inversion Attacks – Untersuchungen zeigten, dass Vektor-Embeddings rückentwickelt werden können, um den Originaltext zu rekonstruieren, wodurch in Vektor-DBs gespeicherte PII offengelegt werden.
  • LLM Context Leakage – Sensible Daten, die an LLMs gesendet werden, könnten in Antworten an andere Benutzer erscheinen, wenn sie nicht ordnungsgemäß isoliert sind.
  • Compliance Requirements – GDPR, HIPAA und SOC2 forderten Verschlüsselung im Ruhezustand und während der Übertragung, aber Vektordatenbanken speicherten mathematische Darstellungen, keine traditionellen Textfelder.
  • Suchfunktionalität – Das Verschlüsseln von Text vor dem Embedding zerstörte die semantische Bedeutung und machte die Ähnlichkeitssuche nutzlos.
  • Schlüsselverwaltung – Mandantenbezogene Verschlüsselungsschlüssel mussten ohne Neu-Embedding ganzer Datensätze rotiert werden.
  • Audit Trail – Jeder Zugriff auf entschlüsselte sensible Daten musste zur Compliance-Sicherung protokolliert werden.

Unsere Lösung

Wir implementierten eine kontextuelle Verschlüsselungsarchitektur, die sensible Felder vor der Speicherung selektiv verschlüsselt, während die semantische Suchbarkeit durch einen mehrschichtigen Ansatz erhalten bleibt – PII wird in Metadaten verschlüsselt, während bereinigte, nicht-sensible Inhalte für das Embedding verfügbar bleiben.

Architektur

  • Verschlüsselungs-Engine: AES-256-GCM mit mandantenbezogenen Verschlüsselungsschlüsseln
  • Schlüsselverwaltung: AWS KMS für Schlüsselgenerierung, -rotation und Zugriffskontrolle
  • PII-Erkennung: NER-basierter (Named Entity Recognition) PII-Klassifikator
  • Vektordatenbank: Milvus für die Ähnlichkeitssuche auf bereinigten Embeddings
  • LLM-Schicht: Bereinigter Kontext wird an LLM gesendet, sensible Felder werden nach der Generierung erneut injiziert.
  • Auditsystem: Jedes Entschlüsselungsereignis wird mit Benutzer, Zeitstempel und Zweck protokolliert.
  • Datenbank: PostgreSQL für verschlüsselte Metadaten

Kontextuelle Verschlüsselungsstrategie

Datenklassifikation

Bevor Daten in die Pipeline gelangen, kategorisiert ein PII-Klassifikator jedes Feld nach Sensibilitätsstufe:

  • Hochsensibel (z.B. staatliche IDs, Finanzkontonummern, medizinische IDs) – Verschlüsselt, niemals eingebettet, niemals an LLM gesendet
  • Sensible PII (z.B. vollständige Namen, E-Mail-Adressen, Telefonnummern) – Im Ruhezustand verschlüsselt, vor dem Embedding durch Platzhalter ersetzt
  • Kontextuell (z.B. Berufsbezeichnungen, Firmennamen) – Im Ruhezustand verschlüsselt, mit Zustimmung für das Embedding verfügbar
  • Nicht-sensibel (z.B. Produktbeschreibungen, öffentliche Informationen) – Wie vorhanden gespeichert und eingebettet

Verschlüsselungsschichten

Schicht 1: Feldweise Verschlüsselung im Ruhezustand

Sensible Felder werden vor der Speicherung mit AES-256-GCM verschlüsselt. Jeder Mandant erhält einen dedizierten Datenverschlüsselungsschlüssel (DEK), der über eine Schlüsselhierarchie mittels AWS KMS verwaltet wird. Schattenfelder speichern durchsuchbare Hashes für genaue Übereinstimmungssuchen, ohne Entschlüsselung zu erfordern.

Schicht 2: Bereinigung vor dem Embedding

PII wird erkannt und durch typenerhaltende Platzhalter ersetzt, bevor der Text an das Embedding-Modell gesendet wird. Dies bewahrt die semantische Bedeutung für die Ähnlichkeitssuche, während identifizierbare Informationen entfernt werden. Die Original-zu-Platzhalter-Zuordnung wird verschlüsselt zusammen mit dem Vektor-Datensatz gespeichert.

Schicht 3: Kontextinjektion nach LLM-Generierung

Das LLM erhält bereinigten Kontext mit Platzhaltern zur Generierung von Antworten. Nach der Generierung injiziert das System tatsächliche Werte aus dem verschlüsselten Speicher in die Antwort. Dies verhindert, dass sensible Daten in die LLM-Trainingsdaten gelangen oder vom Anbieter zwischengespeichert werden.

Vektordatenbank-Sicherheit

Sammlungsdesign

Vektorsammlungen speichern bereinigte Embeddings zusammen mit verschlüsselten Originalmetadaten. Die Mandantenisolation wird über Partition Keys durchgesetzt, wobei die Metadaten jedes Mandanten mit einem eigenen Schlüssel verschlüsselt werden. Die API-Schicht validiert die Mandanteneigentümerschaft vor jeder Entschlüsselungsoperation.

Schlüsselverwaltung & Rotation

Schlüsselhierarchie

Es wird eine mehrstufige Schlüsselhierarchie verwendet: Ein Hauptschlüssel in AWS KMS umschließt mandantenbezogene Schlüsselverschlüsselungsschlüssel, die wiederum mandantenbezogene Datenverschlüsselungsschlüssel umschließen, die für die feldweise Verschlüsselung verwendet werden. Dies ermöglicht eine effiziente Schlüsselrotation, ohne die gesamte Schlüsselkette neu zu verschlüsseln.

Schlüsselrotationsprozess

  1. Neuer DEK generiert – Neuer Datenverschlüsselungsschlüssel wird unter dem bestehenden Schlüsselverschlüsselungsschlüssel erstellt.
  2. Neue Schreibvorgänge – Alle neuen Daten werden mit dem neuen Schlüssel verschlüsselt; der alte Schlüssel bleibt für Lesevorgänge gültig.
  3. Hintergrund-Neuverschlüsselung – Batch-Job verschlüsselt bestehende Datensätze mit dem neuen Schlüssel neu.
  4. Alten DEK außer Dienst stellen – Sobald alle Datensätze migriert sind, wird der alte Schlüssel als inaktiv markiert.
  5. Audit-Protokoll – Rotationsereignis mit Zeitstempeln und betroffenen Datensatzanzahlen protokolliert.

Audit & Compliance

Entschlüsselungs-Audit-Protokoll

Jedes Entschlüsselungsereignis erfasst, wer es angefordert hat, was entschlüsselt wurde, wann, warum (Anfragekontext) und welcher Schlüssel verwendet wurde – und bietet so einen vollständigen Compliance-Pfad.

GDPR Recht auf Löschung

Das System unterstützt die vollständige Datenlöschung sowohl in der relationalen Datenbank als auch in der Vektordatenbank, mit optionaler Schlüsselrotation, um kryptographisch sicherzustellen, dass kein Restzugriff möglich ist. Alle Löschvorgänge werden in einem GDPR-Audit-Protokoll erfasst.

Schlüsselfunktionen

  1. Feldweise Verschlüsselung – AES-256-GCM auf sensiblen Feldern, nicht auf gesamten Datensätzen
  2. PII-Bereinigung – Platzhalter erhalten die semantische Bedeutung für Embeddings
  3. Post-LLM-Re-Injektion – Sensible Daten werden niemals an LLM-Anbieter gesendet
  4. Mandantenbezogene Schlüssel – Isolierte Verschlüsselungsschlüssel mit AWS KMS-Verwaltung
  5. Schlüsselrotation – Unterbrechungsfreie Rotation mit Hintergrund-Neuverschlüsselung
  6. Embedding-Sicherheit – Bereinigte Embeddings verhindern Inversionsangriffe auf PII
  7. Audit Trail – Jede Entschlüsselung wird für Compliance-Berichte protokolliert
  8. GDPR-Compliance – Automatische Löschung über verschlüsselte Speicher und Vektor-DB hinweg

Ergebnisse

Konformität: Erfüllte die Verschlüsselungs- und Prüfanforderungen von GDPR, HIPAA und SOC2
Sicherheit: PII wurde niemals in Vektor-Embeddings oder im LLM-Kontext offengelegt
Suchqualität: Bereinigte Embeddings behielten eine semantische Suchrelevanz von über 95 % im Vergleich zu unbereinigten

Technologie-Stack

AES-256-GCMAWS KMSMilvusPostgreSQLNER/PII DetectionOpenAI EmbeddingsNode.jsTypeScriptBullMQPython

caseStudyDetail.more Fallstudien

Entdecken Sie mehr unserer technischen Implementierungen

AI Accounting

KI-gestützte Rechnungsverarbeitung mit OCR und QuickBooks-Integration

Ein mittelständisches Unternehmen, das monatlich Hunderte von Lieferantenrechnungen verarbeitete, musste die manuelle Dateneingabe eliminieren, indem es Rechnungsdaten automatisch mithilfe von AI/OCR extrahierte und diese direkt mit QuickBooks für die Buchhaltung und Zahlungsverfolgung synchronisierte.

Fallstudie lesen
Video Encoding

Clientseitige Anzeigeninsertion (CSAI) mit SCTE-35 Marker-Parsing & Multi-Plattform-Player-Integration

Eine Video-Streaming-Plattform musste die Clientseitige Anzeigeninsertion (CSAI) über Web-, Mobil- und Connected TV-Apps hinweg implementieren – was personalisierte, gerätespezifische Anzeigenerlebnisse mit vollständiger Unterstützung der Anzeigeninteraktion (anklickbare Overlays, Companion-Banner, Skip-Buttons) ermöglicht, die serverseitige Insertion nicht bieten kann.

Bereit, Ihr Unternehmen zu transformieren?

Lassen Sie uns besprechen, wie wir ähnliche Lösungen für Ihre Herausforderungen anwenden können.

Kontakt aufnehmencaseStudyDetail.viewAllCaseStudies
Leistung: Feld-Ebene-Verschlüsselung fügte < 5 ms Overhead pro Operation hinzu
Schlüsselrotation: Die Rotation ohne Ausfallzeiten wurde für über 1 Million Datensätze im Hintergrund abgeschlossen
Fallstudie lesen
Web Scraping

KI-gestützte Plattform zum Scraping und zur Generierung von Blog-Inhalten

Ein Medienunternehmen benötigte eine intelligente Content-Plattform, die die Erstellung von Blog-Inhalten automatisieren konnte, indem sie bestehende Webinhalte scrapte, diese mithilfe von AI analysierte und originelle, SEO-optimierte Blog-Beiträge aus den extrahierten Daten generierte.

Fallstudie lesen

Häufig gestellte Fragen

MicrocosmWorks entwickelte eine selektive Verschlüsselungspipeline, die sensible Entitäten wie Namen, Kontonummern und Gesundheitsdaten innerhalb von Dokumenten identifiziert und verschlüsselt, bevor diese in die Vektordatenbank gelangen. Dabei bleibt der umliegende semantische Kontext erhalten, den das LLM für einen aussagekräftigen Abruf und eine sinnvolle Generierung benötigt. Bei der Abfrage entschlüsselt das System nur die spezifischen Entitäten, die für die Antwort benötigt werden, begrenzt auf das Zugriffslevel des anfragenden Benutzers. So sieht das LLM niemals rohe sensible Daten, die es nicht anzeigen darf.

MicrocosmWorks hat dies gelöst, indem es sensible Entitäten auf Token Level verschlüsselt und gleichzeitig Embeddings auf dem originalen unverschlüsselten Text berechnet. Anschließend wird der verschlüsselte Text zusammen mit den Semantic Vectors in der Vector Database gespeichert. Die Suche ruft semantisch relevante Chunks mithilfe der qualitativ hochwertigen Embeddings ab, und die Decryption Layer rekonstruiert den ursprünglichen Inhalt nur für autorisierte Benutzer. Dadurch bleibt die volle Suchqualität erhalten, während Daten im Ruhezustand geschützt werden.

MicrocosmWorks hat den Ansatz der kontextbezogenen Verschlüsselung entwickelt, um spezifische Anforderungen in HIPAA, SOC 2, GDPR und CCPA zu erfüllen, indem sichergestellt wird, dass persönlich identifizierbare Informationen und Protected Health Information im Ruhezustand in der Vektordatenbank verschlüsselt und nur im Arbeitsspeicher während der autorisierten Abfrageverarbeitung entschlüsselt werden. Das System generiert manipulationssichere Audit-Logs jedes Entschlüsselungsereignisses, was die Anforderungen an Zugriffsüberwachung und Rechenschaftspflicht erfüllt, die in diesen Compliance-Frameworks üblich sind.

MicrocosmWorks hat ein Migrationstool entwickelt, das bestehende Vektordatenbank-Sammlungen inkrementell verarbeitet, indem es sensible Entitäten in gespeicherten Dokumenten-Chunks verschlüsselt, während deren Vektor-Embeddings erhalten bleiben, sodass Sie die Embeddings für Ihren gesamten Korpus nicht neu berechnen müssen. Die Migration läuft als Hintergrundprozess, der angehalten und fortgesetzt werden kann, und die Abfrage-Pipeline verarbeitet während der Übergangszeit nahtlos sowohl verschlüsselte als auch noch nicht migrierte Chunks.

MicrocosmWorks optimierte die Ver- und Entschlüsselungsvorgänge, um einen Overhead von etwa 15-30ms pro Abfrage hinzuzufügen, was vernachlässigbar ist im Vergleich zur typischen LLM-Generierungszeit von 500ms-2s. Die Entitätserkennung und Verschlüsselung während der Aufnahme fügt etwa 100ms pro Dokumenten-Chunk hinzu, was ebenfalls minimal ist, da die Aufnahme typischerweise ein Batch-Prozess ist. Das System verwendet hardwarebeschleunigte AES-Operationen und speichert Entschlüsselungsschlüssel im Arbeitsspeicher, um den kryptografischen Overhead zu minimieren.