Data Securityنُشر في June 22, 2026 · تم التحديث June 22, 2026

التشفير السياقي لـ LLM ومسارات قواعد بيانات المتجهات

احتاجت منصة ذكاء اصطناعي للمؤسسات إلى تمكين ميزات مدعومة بـ LLM (الدردشة، البحث، تحليل المستندات) مع ضمان بقاء البيانات الحساسة — PII، السجلات المالية، معلومات الرعاية الصحية — مشفرة طوال المسار، بما في ذلك عند تخزينها كتضمينات متجهة في قاعدة بيانات متجهات.

ناقش مشروعك

Data Security

Domain

Technologies

Key Results

Delivered

Status

التحدي

أدى استخدام LLMs وقواعد بيانات المتجهات مع البيانات الحساسة إلى ظهور مخاطر أمنية جديدة:

هجمات عكس التضمين — أظهرت الأبحاث أن تضمينات المتجهات يمكن عكس هندستها لإعادة بناء النص الأصلي، مما يكشف عن PII المخزنة في قواعد بيانات المتجهات
تسرب سياق LLM — قد تظهر البيانات الحساسة المرسلة إلى LLMs في استجابات للمستخدمين الآخرين إذا لم يتم عزلها بشكل صحيح
متطلبات الامتثال — تطلبت GDPR، HIPAA، و SOC2 التشفير في حالة السكون وأثناء النقل، لكن قواعد بيانات المتجهات خزنت تمثيلات رياضية، وليس حقول نصية تقليدية
وظيفة البحث — أدى تشفير النص قبل التضمين إلى تدمير المعنى الدلالي، مما جعل البحث عن التشابه عديم الفائدة
إدارة المفاتيح — احتاجت مفاتيح التشفير لكل مستأجر إلى تدوير دون إعادة تضمين مجموعات البيانات بأكملها
مسار التدقيق — احتاج كل وصول إلى البيانات الحساسة المشفرة إلى تسجيل للامتثال

حلنا

لقد طبقنا بنية تشفير سياقية تقوم بتشفير الحقول الحساسة بشكل انتقائي قبل التخزين مع الحفاظ على قابلية البحث الدلالي من خلال نهج متعدد الطبقات — تشفير PII في البيانات الوصفية مع إبقاء المحتوى المعقم وغير الحساس متاحًا للتضمين.

البنية

محرك التشفير: AES-256-GCM مع مفاتيح تشفير لكل مستأجر
إدارة المفاتيح: AWS KMS لتوليد المفاتيح، تدويرها، والتحكم في الوصول
كشف PII: مصنف PII قائم على NER (التعرف على الكيانات المسماة)
قاعدة بيانات المتجهات: Milvus للبحث عن التشابه في التضمينات المعقمة
طبقة LLM: يتم إرسال السياق المعقم إلى LLM، وتُعاد حقن الحقول الحساسة بعد التوليد
نظام التدقيق: يتم تسجيل كل حدث فك تشفير مع المستخدم، الطابع الزمني، والغرض
قاعدة البيانات: PostgreSQL للبيانات الوصفية المشفرة

استراتيجية التشفير السياقي

تصنيف البيانات

قبل دخول أي بيانات إلى المسار، يقوم مصنف PII بتصنيف كل حقل حسب مستوى الحساسية:

شديدة الحساسية (مثل، هويات حكومية، أرقام حسابات مالية، هويات طبية) — مشفرة، لا يتم تضمينها أبدًا، ولا يتم إرسالها أبدًا إلى LLM
PII حساسة (مثل، الأسماء الكاملة، عناوين البريد الإلكتروني، أرقام الهواتف) — مشفرة في حالة السكون، يتم استبدالها بعناصر نائبة قبل التضمين
سياقية (مثل، المسميات الوظيفية، أسماء الشركات) — مشفرة في حالة السكون، متاحة للتضمين بموافقة
غير حساسة (مثل، أوصاف المنتجات، المعلومات العامة) — تُخزن وتُضمّن كما هي

طبقات التشفير

الطبقة الأولى: التشفير على مستوى الحقل في حالة السكون

يتم تشفير الحقول الحساسة باستخدام AES-256-GCM قبل التخزين. يحصل كل مستأجر على مفتاح تشفير بيانات مخصص (DEK) تتم إدارته عبر تسلسل هرمي للمفاتيح من خلال AWS KMS. تخزن الحقول الظلية تجزئات قابلة للبحث لعمليات البحث عن المطابقة التامة دون الحاجة إلى فك التشفير.

الطبقة الثانية: التعقيم قبل التضمين

يتم اكتشاف PII واستبدالها بعناصر نائبة تحافظ على النوع قبل إرسال النص إلى نموذج التضمين. هذا يحافظ على المعنى الدلالي للبحث عن التشابه مع إزالة المعلومات التي يمكن التعرف عليها. يتم تخزين تعيين الأصل إلى العنصر النائب مشفرًا جنبًا إلى جنب مع سجل المتجهات.

الطبقة الثالثة: حقن السياق بعد توليد LLM

يتلقى LLM سياقًا معقمًا مع عناصر نائبة لتوليد الاستجابات. بعد التوليد، يقوم النظام بإعادة حقن القيم الفعلية من التخزين المشفر في الاستجابة. هذا يمنع البيانات الحساسة من الدخول في بيانات تدريب LLM أو تخزينها مؤقتًا بواسطة المزود.

أمان قاعدة بيانات المتجهات

تصميم المجموعة

تخزن مجموعات المتجهات تضمينات معقمة جنبًا إلى جنب مع البيانات الوصفية الأصلية المشفرة. يتم فرض عزل المستأجرين عبر مفاتيح التقسيم، مع تشفير البيانات الوصفية لكل مستأجر باستخدام مفتاحه الخاص. تتحقق طبقة API من ملكية المستأجر قبل أي عملية فك تشفير.

إدارة المفاتيح وتدويرها

التسلسل الهرمي للمفاتيح

يتم استخدام تسلسل هرمي للمفاتيح متعدد المستويات: مفتاح رئيسي في AWS KMS يغلف مفاتيح تشفير المفاتيح لكل مستأجر، والتي بدورها تغلف مفاتيح تشفير البيانات لكل مستأجر المستخدمة للتشفير على مستوى الحقل. هذا يتيح تدوير المفاتيح بكفاءة دون إعادة تشفير سلسلة المفاتيح بأكملها.

عملية تدوير المفاتيح

تم توليد مفتاح DEK جديد — يتم إنشاء مفتاح تشفير بيانات جديد تحت مفتاح تشفير المفاتيح الموجود
الكتابات الجديدة — جميع البيانات الجديدة مشفرة بالمفتاح الجديد؛ يبقى المفتاح القديم صالحًا للقراءات
إعادة التشفير في الخلفية — تقوم وظيفة دفعة بإعادة تشفير السجلات الموجودة بالمفتاح الجديد
إيقاف مفتاح DEK القديم — بمجرد ترحيل جميع السجلات، يتم وضع علامة "غير نشط" على المفتاح القديم
سجل التدقيق — يتم تسجيل حدث التدوير مع الطوابع الزمنية وأعداد السجلات المتأثرة

التدقيق والامتثال

سجل تدقيق فك التشفير

يسجل كل حدث فك تشفير من طلب ذلك، وما الذي تم فك تشفيره، ومتى، ولماذا (سياق الطلب)، وأي مفتاح تم استخدامه — مما يوفر مسار امتثال كاملاً.

حق GDPR في المسح

يدعم النظام حذف البيانات بالكامل عبر كل من قاعدة البيانات العلائقية وقاعدة بيانات المتجهات، مع تدوير مفتاح اختياري لضمان عدم وجود وصول متبقي بشكل مشفر. يتم تسجيل جميع عمليات الحذف في مسار تدقيق GDPR.

الميزات الرئيسية

التشفير على مستوى الحقل — AES-256-GCM على الحقول الحساسة، وليس على السجلات بأكملها
تعقيم PII — العناصر النائبة تحافظ على المعنى الدلالي للتضمينات
إعادة الحقن بعد LLM — البيانات الحساسة لا تُرسل أبدًا إلى مزودي LLM
مفاتيح لكل مستأجر — مفاتيح تشفير معزولة مع إدارة AWS KMS
تدوير المفاتيح — تدوير بدون توقف مع إعادة التشفير في الخلفية
أمان التضمين — التضمينات المعقمة تمنع هجمات عكس التضمين على PII
مسار التدقيق — يتم تسجيل كل فك تشفير لتقارير الامتثال
امتثال GDPR — مسح آلي عبر المخازن المشفرة وقاعدة بيانات المتجهات

النتائج

الامتثال: استوفت متطلبات التشفير والتدقيق لـ GDPR، HIPAA، و SOC2

الأمان: لم يتم الكشف عن PII أبدًا في تضمينات المتجهات أو سياق LLM

جودة البحث: حافظت التضمينات المعقمة على أكثر من 95% من دلالة البحث الدلالي مقارنةً بالغير معقمة

المكدس التقني

AES-256-GCMAWS KMSMilvusPostgreSQLNER/PII DetectionOpenAI EmbeddingsNode.jsTypeScriptBullMQPython

caseStudyDetail.more دراسات الحالة

استكشف المزيد من تطبيقاتنا التقنية

Kickly: منصة المشاريع المدعومة بالذكاء الاصطناعي للشركات الناشئة

Kickly هي منصة لإدارة المشاريع مدعومة بالذكاء الاصطناعي مصممة للشركات الناشئة — تجمع بين أتمتة المهام الذكية، والتعاون الفريقي، وتتبع التقدم في الوقت الفعلي في منتج واحد.

اقرأ دراسة الحالة

AI Accounting

معالجة الفواتير المدعومة بـ AI باستخدام OCR ودمج QuickBooks

كانت شركة متوسطة الحجم تعالج مئات فواتير الموردين شهريًا بحاجة إلى التخلص من إدخال البيانات يدويًا عن طريق استخلاص بيانات الفاتورة تلقائيًا باستخدام AI/OCR ومزامنتها مباشرةً مع QuickBooks للمسك الدفتري وتتبع المدفوعات.

اقرأ دراسة الحالة

الأسئلة الشائعة

قامت MicrocosmWorks بتطوير مسار تشفير انتقائي يحدد ويشفر الكيانات الحساسة مثل الأسماء وأرقام الحسابات والبيانات الصحية داخل المستندات قبل دخولها إلى قاعدة بيانات المتجهات، مع الحفاظ على السياق الدلالي المحيط الذي تحتاجه LLM للاسترجاع والتوليد الهادف. أثناء وقت الاستعلام، يقوم النظام بفك تشفير الكيانات المحددة المطلوبة للاستجابة فقط، بما يتناسب مع مستوى وصول المستخدم الطالب، لكي لا ترى LLM أبدًا بيانات حساسة خام غير مصرح لها بعرضها.

MicrocosmWorks حلت هذه المشكلة عن طريق تشفير الكيانات الحساسة على مستوى الـ token أثناء حساب الـ embeddings على النص الأصلي غير المشفر، ثم تخزين النص المشفر جنبًا إلى جنب مع المتجهات الدلالية في قاعدة بيانات المتجهات. يسترجع البحث الأجزاء ذات الصلة دلاليًا باستخدام الـ embeddings عالية الجودة، وتُعيد طبقة فك التشفير بناء المحتوى الأصلي للمستخدمين المصرح لهم فقط، مما يحافظ على جودة البحث الكاملة مع حماية البيانات at rest.

قامت MicrocosmWorks بتصميم نهج التشفير السياقي لمعالجة متطلبات محددة في HIPAA وSOC 2 وGDPR وCCPA من خلال ضمان تشفير معلومات التعريف الشخصية ومعلومات الصحة المحمية عند السكون في الـ vector store ولا يتم فك تشفيرها إلا في الذاكرة أثناء معالجة الاستعلامات المصرح بها. يقوم النظام بإنشاء سجلات تدقيق غير قابلة للتلاعب لكل حدث فك تشفير، مما يلبي متطلبات مراقبة الوصول والمساءلة المشتركة بين أطر الامتثال هذه.

قامت MicrocosmWorks ببناء أداة ترحيل تعالج مجموعات قواعد بيانات Vector الحالية بشكل تدريجي، حيث تقوم بتشفير الكيانات الحساسة في أجزاء المستندات المخزنة مع الحفاظ على vector embeddings الخاصة بها، لذلك لا تحتاج إلى إعادة حساب الـ embeddings لمجموعة المستندات بأكملها. تعمل عملية الترحيل كعملية خلفية يمكن إيقافها مؤقتًا واستئنافها، ويتعامل الـ query pipeline بسلاسة مع كل من الأجزاء المشفرة وتلك التي لم يتم ترحيلها بعد خلال الفترة الانتقالية.

لقد قامت MicrocosmWorks بتحسين عمليات التشفير وفك التشفير لإضافة حوالي 15-30 مللي ثانية من الحِمل الإضافي لكل استعلام، وهو أمر لا يذكر مقارنة بوقت توليد LLM النموذجي الذي يتراوح من 500 مللي ثانية إلى 2 ثانية. يضيف اكتشاف الكيانات والتشفير أثناء الاستيعاب حوالي 100 مللي ثانية لكل جزء مستند، وهو أيضًا الحد الأدنى نظرًا لأن الاستيعاب عادةً ما يكون عملية دفعية. يستخدم النظام عمليات AES المسرّعة بواسطة الأجهزة ويخزّن مفاتيح فك التشفير مؤقتًا في الذاكرة لتقليل الحِمل التشفيري الإضافي.

مستعد لتحويل عملك؟

دعنا نناقش كيف يمكننا تطبيق حلول مشابهة لتحدياتك.

تواصل معنا caseStudyDetail.viewAllCaseStudies

التشفير السياقي لـ LLM ومسارات قواعد بيانات المتجهات

التحدي

حلنا

البنية

استراتيجية التشفير السياقي

تصنيف البيانات

طبقات التشفير

أمان قاعدة بيانات المتجهات

تصميم المجموعة

إدارة المفاتيح وتدويرها

التسلسل الهرمي للمفاتيح

عملية تدوير المفاتيح

التدقيق والامتثال

سجل تدقيق فك التشفير

حق GDPR في المسح

الميزات الرئيسية

النتائج

المكدس التقني

caseStudyDetail.more دراسات الحالة

Kickly: منصة المشاريع المدعومة بالذكاء الاصطناعي للشركات الناشئة

معالجة الفواتير المدعومة بـ AI باستخدام OCR ودمج QuickBooks

الأسئلة الشائعة

مستعد لتحويل عملك؟

إدراج الإعلانات من جانب العميل (CSAI) مع تحليل علامات SCTE-35 وتكامل مشغلات متعددة المنصات