التشفير السياقي لـ LLM ومسارات قواعد بيانات المتجهات
احتاجت منصة ذكاء اصطناعي للمؤسسات إلى تمكين ميزات مدعومة بـ LLM (الدردشة، البحث، تحليل المستندات) مع ضمان بقاء البيانات الحساسة — PII، السجلات المالية، معلومات الرعاية الصحية — مشفرة طوال المسار، بما في ذلك عند تخزينها كتضمينات متجهة في قاعدة بيانات متجهات.
ناقش مشروعك
التحدي
أدى استخدام LLMs وقواعد بيانات المتجهات مع البيانات الحساسة إلى ظهور مخاطر أمنية جديدة:
- هجمات عكس التضمين — أظهرت الأبحاث أن تضمينات المتجهات يمكن عكس هندستها لإعادة بناء النص الأصلي، مما يكشف عن PII المخزنة في قواعد بيانات المتجهات
- تسرب سياق LLM — قد تظهر البيانات الحساسة المرسلة إلى LLMs في استجابات للمستخدمين الآخرين إذا لم يتم عزلها بشكل صحيح
- متطلبات الامتثال — تطلبت GDPR، HIPAA، و SOC2 التشفير في حالة السكون وأثناء النقل، لكن قواعد بيانات المتجهات خزنت تمثيلات رياضية، وليس حقول نصية تقليدية
- وظيفة البحث — أدى تشفير النص قبل التضمين إلى تدمير المعنى الدلالي، مما جعل البحث عن التشابه عديم الفائدة
- إدارة المفاتيح — احتاجت مفاتيح التشفير لكل مستأجر إلى تدوير دون إعادة تضمين مجموعات البيانات بأكملها
- مسار التدقيق — احتاج كل وصول إلى البيانات الحساسة المشفرة إلى تسجيل للامتثال
حلنا
لقد طبقنا بنية تشفير سياقية تقوم بتشفير الحقول الحساسة بشكل انتقائي قبل التخزين مع الحفاظ على قابلية البحث الدلالي من خلال نهج متعدد الطبقات — تشفير PII في البيانات الوصفية مع إبقاء المحتوى المعقم وغير الحساس متاحًا للتضمين.
البنية
- محرك التشفير: AES-256-GCM مع مفاتيح تشفير لكل مستأجر
- إدارة المفاتيح: AWS KMS لتوليد المفاتيح، تدويرها، والتحكم في الوصول
- كشف PII: مصنف PII قائم على NER (التعرف على الكيانات المسماة)
- قاعدة بيانات المتجهات: Milvus للبحث عن التشابه في التضمينات المعقمة
- طبقة LLM: يتم إرسال السياق المعقم إلى LLM، وتُعاد حقن الحقول الحساسة بعد التوليد
- نظام التدقيق: يتم تسجيل كل حدث فك تشفير مع المستخدم، الطابع الزمني، والغرض
- قاعدة البيانات: PostgreSQL للبيانات الوصفية المشفرة
استراتيجية التشفير السياقي
تصنيف البيانات
قبل دخول أي بيانات إلى المسار، يقوم مصنف PII بتصنيف كل حقل حسب مستوى الحساسية:
- شديدة الحساسية (مثل، هويات حكومية، أرقام حسابات مالية، هويات طبية) — مشفرة، لا يتم تضمينها أبدًا، ولا يتم إرسالها أبدًا إلى LLM
- PII حساسة (مثل، الأسماء الكاملة، عناوين البريد الإلكتروني، أرقام الهواتف) — مشفرة في حالة السكون، يتم استبدالها بعناصر نائبة قبل التضمين
- سياقية (مثل، المسميات الوظيفية، أسماء الشركات) — مشفرة في حالة السكون، متاحة للتضمين بموافقة
- غير حساسة (مثل، أوصاف المنتجات، المعلومات العامة) — تُخزن وتُضمّن كما هي
طبقات التشفير
الطبقة الأولى: التشفير على مستوى الحقل في حالة السكونيتم تشفير الحقول الحساسة باستخدام AES-256-GCM قبل التخزين. يحصل كل مستأجر على مفتاح تشفير بيانات مخصص (DEK) تتم إدارته عبر تسلسل هرمي للمفاتيح من خلال AWS KMS. تخزن الحقول الظلية تجزئات قابلة للبحث لعمليات البحث عن المطابقة التامة دون الحاجة إلى فك التشفير.
الطبقة الثانية: التعقيم قبل التضمينيتم اكتشاف PII واستبدالها بعناصر نائبة تحافظ على النوع قبل إرسال النص إلى نموذج التضمين. هذا يحافظ على المعنى الدلالي للبحث عن التشابه مع إزالة المعلومات التي يمكن التعرف عليها. يتم تخزين تعيين الأصل إلى العنصر النائب مشفرًا جنبًا إلى جنب مع سجل المتجهات.
الطبقة الثالثة: حقن السياق بعد توليد LLMيتلقى LLM سياقًا معقمًا مع عناصر نائبة لتوليد الاستجابات. بعد التوليد، يقوم النظام بإعادة حقن القيم الفعلية من التخزين المشفر في الاستجابة. هذا يمنع البيانات الحساسة من الدخول في بيانات تدريب LLM أو تخزينها مؤقتًا بواسطة المزود.
أمان قاعدة بيانات المتجهات
تصميم المجموعة
تخزن مجموعات المتجهات تضمينات معقمة جنبًا إلى جنب مع البيانات الوصفية الأصلية المشفرة. يتم فرض عزل المستأجرين عبر مفاتيح التقسيم، مع تشفير البيانات الوصفية لكل مستأجر باستخدام مفتاحه الخاص. تتحقق طبقة API من ملكية المستأجر قبل أي عملية فك تشفير.
إدارة المفاتيح وتدويرها
التسلسل الهرمي للمفاتيح
يتم استخدام تسلسل هرمي للمفاتيح متعدد المستويات: مفتاح رئيسي في AWS KMS يغلف مفاتيح تشفير المفاتيح لكل مستأجر، والتي بدورها تغلف مفاتيح تشفير البيانات لكل مستأجر المستخدمة للتشفير على مستوى الحقل. هذا يتيح تدوير المفاتيح بكفاءة دون إعادة تشفير سلسلة المفاتيح بأكملها.
عملية تدوير المفاتيح
- تم توليد مفتاح DEK جديد — يتم إنشاء مفتاح تشفير بيانات جديد تحت مفتاح تشفير المفاتيح الموجود
- الكتابات الجديدة — جميع البيانات الجديدة مشفرة بالمفتاح الجديد؛ يبقى المفتاح القديم صالحًا للقراءات
- إعادة التشفير في الخلفية — تقوم وظيفة دفعة بإعادة تشفير السجلات الموجودة بالمفتاح الجديد
- إيقاف مفتاح DEK القديم — بمجرد ترحيل جميع السجلات، يتم وضع علامة "غير نشط" على المفتاح القديم
- سجل التدقيق — يتم تسجيل حدث التدوير مع الطوابع الزمنية وأعداد السجلات المتأثرة
التدقيق والامتثال
سجل تدقيق فك التشفير
يسجل كل حدث فك تشفير من طلب ذلك، وما الذي تم فك تشفيره، ومتى، ولماذا (سياق الطلب)، وأي مفتاح تم استخدامه — مما يوفر مسار امتثال كاملاً.
حق GDPR في المسح
يدعم النظام حذف البيانات بالكامل عبر كل من قاعدة البيانات العلائقية وقاعدة بيانات المتجهات، مع تدوير مفتاح اختياري لضمان عدم وجود وصول متبقي بشكل مشفر. يتم تسجيل جميع عمليات الحذف في مسار تدقيق GDPR.
الميزات الرئيسية
- التشفير على مستوى الحقل — AES-256-GCM على الحقول الحساسة، وليس على السجلات بأكملها
- تعقيم PII — العناصر النائبة تحافظ على المعنى الدلالي للتضمينات
- إعادة الحقن بعد LLM — البيانات الحساسة لا تُرسل أبدًا إلى مزودي LLM
- مفاتيح لكل مستأجر — مفاتيح تشفير معزولة مع إدارة AWS KMS
- تدوير المفاتيح — تدوير بدون توقف مع إعادة التشفير في الخلفية
- أمان التضمين — التضمينات المعقمة تمنع هجمات عكس التضمين على PII
- مسار التدقيق — يتم تسجيل كل فك تشفير لتقارير الامتثال
- امتثال GDPR — مسح آلي عبر المخازن المشفرة وقاعدة بيانات المتجهات
النتائج
المكدس التقني
caseStudyDetail.more دراسات الحالة
استكشف المزيد من تطبيقاتنا التقنية
معالجة الفواتير المدعومة بـ AI باستخدام OCR ودمج QuickBooks
كانت شركة متوسطة الحجم تعالج مئات فواتير الموردين شهريًا بحاجة إلى التخلص من إدخال البيانات يدويًا عن طريق استخلاص بيانات الفاتورة تلقائيًا باستخدام AI/OCR ومزامنتها مباشرةً مع QuickBooks للمسك الدفتري وتتبع المدفوعات.
إدراج الإعلانات من جانب العميل (CSAI) مع تحليل علامات SCTE-35 وتكامل مشغلات متعددة المنصات
احتاجت منصة بث الفيديو إلى تطبيق إدراج الإعلانات من جانب العميل (CSAI) عبر تطبيقات الويب والجوال والتلفزيون الذكي المتصل – مما يتيح تجارب إعلانية مخصصة على مستوى الجهاز مع دعم كامل لتفاعل الإعلانات (تراكبات قابلة للنقر، إعلانات مصاحبة، أزرار تخطي) التي لا يمكن لتضمين الإعلانات من جانب الخادم توفيرها.
الأسئلة الشائعة
قامت MicrocosmWorks بتطوير مسار تشفير انتقائي يحدد ويشفر الكيانات الحساسة مثل الأسماء وأرقام الحسابات والبيانات الصحية داخل المستندات قبل دخولها إلى قاعدة بيانات المتجهات، مع الحفاظ على السياق الدلالي المحيط الذي تحتاجه LLM للاسترجاع والتوليد الهادف. أثناء وقت الاستعلام، يقوم النظام بفك تشفير الكيانات المحددة المطلوبة للاستجابة فقط، بما يتناسب مع مستوى وصول المستخدم الطالب، لكي لا ترى LLM أبدًا بيانات حساسة خام غير مصرح لها بعرضها.
MicrocosmWorks حلت هذه المشكلة عن طريق تشفير الكيانات الحساسة على مستوى الـ token أثناء حساب الـ embeddings على النص الأصلي غير المشفر، ثم تخزين النص المشفر جنبًا إلى جنب مع المتجهات الدلالية في قاعدة بيانات المتجهات. يسترجع البحث الأجزاء ذات الصلة دلاليًا باستخدام الـ embeddings عالية الجودة، وتُعيد طبقة فك التشفير بناء المحتوى الأصلي للمستخدمين المصرح لهم فقط، مما يحافظ على جودة البحث الكاملة مع حماية البيانات at rest.
قامت MicrocosmWorks بتصميم نهج التشفير السياقي لمعالجة متطلبات محددة في HIPAA وSOC 2 وGDPR وCCPA من خلال ضمان تشفير معلومات التعريف الشخصية ومعلومات الصحة المحمية عند السكون في الـ vector store ولا يتم فك تشفيرها إلا في الذاكرة أثناء معالجة الاستعلامات المصرح بها. يقوم النظام بإنشاء سجلات تدقيق غير قابلة للتلاعب لكل حدث فك تشفير، مما يلبي متطلبات مراقبة الوصول والمساءلة المشتركة بين أطر الامتثال هذه.
قامت MicrocosmWorks ببناء أداة ترحيل تعالج مجموعات قواعد بيانات Vector الحالية بشكل تدريجي، حيث تقوم بتشفير الكيانات الحساسة في أجزاء المستندات المخزنة مع الحفاظ على vector embeddings الخاصة بها، لذلك لا تحتاج إلى إعادة حساب الـ embeddings لمجموعة المستندات بأكملها. تعمل عملية الترحيل كعملية خلفية يمكن إيقافها مؤقتًا واستئنافها، ويتعامل الـ query pipeline بسلاسة مع كل من الأجزاء المشفرة وتلك التي لم يتم ترحيلها بعد خلال الفترة الانتقالية.
لقد قامت MicrocosmWorks بتحسين عمليات التشفير وفك التشفير لإضافة حوالي 15-30 مللي ثانية من الحِمل الإضافي لكل استعلام، وهو أمر لا يذكر مقارنة بوقت توليد LLM النموذجي الذي يتراوح من 500 مللي ثانية إلى 2 ثانية. يضيف اكتشاف الكيانات والتشفير أثناء الاستيعاب حوالي 100 مللي ثانية لكل جزء مستند، وهو أيضًا الحد الأدنى نظرًا لأن الاستيعاب عادةً ما يكون عملية دفعية. يستخدم النظام عمليات AES المسرّعة بواسطة الأجهزة ويخزّن مفاتيح فك التشفير مؤقتًا في الذاكرة لتقليل الحِمل التشفيري الإضافي.
مستعد لتحويل عملك؟
دعنا نناقش كيف يمكننا تطبيق حلول مشابهة لتحدياتك.