امنح نموذج LLM الخاص بك إمكانية الوصول إلى بياناتك دون الحاجة إلى الضبط الدقيق (fine-tuning). تسد RAG الفجوة بين نماذج اللغة للأغراض العامة والمعرفة الخاصة بالمجال.

ترغب في بناء مساعد AI يجيب على أسئلة حول مستندات مؤسستك — العقود والسياسات وقواعد المعرفة ووثائق المنتج والسجلات الطبية. الضبط الدقيق (fine-tuning) لنموذج LLM على بياناتك مكلف وبطيء، وينشئ نموذجًا ثابتًا عند نقطة التدريب. أنت بحاجة إلى هندسة معمارية تمكن LLM من الوصول إلى معلومات حديثة ومحددة المجال وقت الاستعلام، والاستشهاد بمصادرها، وتجنب الهلوسة بوقائع غير موجودة في مستنداتك. RAG (Retrieval-Augmented Generation) هي السبيل لتحقيق ذلك.
Explore more design patterns and system architectures
يمكن لفريق معماري لدينا مساعدتك في تصميم وبناء الأنظمة باستخدام هذا النمط لمتطلباتك المحددة.
تواصل معناتعزز RAG توليد LLM بسياق مسترجع من قاعدة معرفية. وقت الاستعلام، يقوم النظام بتحويل سؤال المستخدم إلى embedding، ويبحث في vector database عن أجزاء وثائق متشابهة دلاليًا، ويتضمن الأجزاء الأكثر صلة كسياق في LLM prompt. يؤسس هذا استجابة النموذج في وثائق فعلية، ويمكّن من الاستشهاد بالمصادر، ويحافظ على قابلية تحديث قاعدة المعرفة دون إعادة تدريب. يتعامل خط أنابيب RAG الإنتاجي مع الاستيعاب (parsing, chunking, embedding)، والاسترجاع (vector search, reranking, hybrid search)، والتوليد (prompt construction, streaming, guardrails).
تتكون الهندسة المعمارية من خطي أنابيب. يعالج ingestion pipeline المستندات من خلال parsing (استخراج PDF, DOCX, HTML)، وchunking (دلالي أو بحجم ثابت مع تداخل)، وembedding (عبر embedding model)، والتخزين (vector database + document store). يأخذ query pipeline سؤال المستخدم، ويولد query embedding، ويسترجع الأجزاء المرشحة من vector database، ويعيد ترتيبها حسب الصلة، وينشئ prompt مع الأجزاء العلوية كسياق، ويقوم ببث استجابة LLM مع استشهادات المصادر.
text-embedding-3-large, Cohere embed-v4، أو بدائل مفتوحة المصدر (BGE, E5). معالجة دفعية للاستيعاب، ومعالجة استعلام فردي للبحث| الطبقة | التقنيات |
|---|---|
| تحليل المستندات (Document Parsing) | Unstructured, Apache Tika, LlamaParse, Docling, custom OCR (Tesseract, AWS Textract) |
| التضمين (Embedding) | OpenAI text-embedding-3-large, Cohere embed-v4, BGE-M3, E5-large-v2 |
| قاعدة بيانات المتجهات (Vector Database) | Milvus, Pinecone, Qdrant, Weaviate, pgvector (للأحجام الصغيرة) |
| البحث بالكلمات المفتاحية (Keyword Search) | Elasticsearch, OpenSearch, PostgreSQL full-text search |
| إعادة الترتيب (Reranking) | Cohere Rerank, BGE Reranker, ColBERT v2, FlashRank |
| نموذج اللغة الكبير (LLM) | Claude (عبر AI Gateway), GPT-4, Gemini — مستقل عن المزود عبر AI SDK |
| الأوركسترا (Orchestration) | LangChain, LlamaIndex، أو خط أنابيب مخصص (تفضيل MW للإنتاج) |
| استخدم عندما | تجنب عندما |
|---|---|
| يحتاج المستخدمون إلى إجابات مبنية على مستندات مؤسستك المحددة | تكون قاعدة المعرفة أقل من 50 صفحة - فقط ضعها في system prompt |
| يتم تحديث المستندات بشكل متكرر ويحتاج AI إلى معلومات حالية | تحتاج النموذج لتعلم مهارة/سلوك جديد، وليس الوصول إلى حقائق جديدة (fine-tune بدلاً من ذلك) |
| الاستشهاد بالمصادر والتدقيق متطلبات (قانوني، امتثال، رعاية صحية) | الأسئلة حوارية بحتة ولا تتطلب تأسيساً بالحقائق |
| تحتاج مجموعات مستخدمين متعددة للوصول إلى مجموعات فرعية مختلفة من المستندات (RAG مفلترة حسب الأذونات) | تقوم ببناء أداة كتابة إبداعية حيث الدقة الواقعية ليست الهدف |
تبني MW خطوط أنابيب RAG بدءًا من جودة الاسترجاع - نقوم بتقييم دقة الاسترجاع قبل لمس LLM prompt. ينتج نظام RAG ذو استرجاع متوسط ونموذج LLM رائع إجابات خاطئة تبدو واثقة. يتضمن خط أنابيبنا القياسي أداة تقييم الاسترجاع: مجموعة من استعلامات الاختبار مع مستندات معروفة الصلة، تُقاس بواسطة MRR@5 و NDCG@10. نكرر على Chunking، و embedding model، و reranking حتى تصل مقاييس الاسترجاع إلى العتبات المستهدفة قبل تحسين التوليد. لقد بنينا أنظمة RAG عبر مراجعة المستندات القانونية، وقواعد المعرفة في الرعاية الصحية، ودعم العملاء متعدد اللغات - والدرس المشترك هو أن جودة الاسترجاع تمثل 80% من جودة الإجابة.
البحث بالمتجهات سهل عند 10 آلاف متجه. ولكن عند 100 مليون متجه مع P99 أقل من 100 مللي ثانية، يصبح الأمر مشكلة في البنية التحتية — وهذا ما يحله هذا النمط.
تطبق MicrocosmWorks حل تعارض المعلومات في مسارات (RAG) من خلال ترتيب سلطة المصدر، والترجيح الزمني بناءً على الحداثة، وتقدير مستوى الثقة الذي يقيم مدى قوة دعم كل مقطع مسترجع لادعائه. عند استرجاع مقاطع متضاربة، يقدم مسارنا الإجابة الأكثر موثوقية مع إظهار التضارب واستشهادات المصادر بشفافية حتى يتمكن المستخدمون من اتخاذ قرارات مستنيرة. كما نبني حلقات ملاحظات حيث يمكن لخبراء المجال الإشارة إلى القرارات غير الصحيحة، مما يحسن ترتيب الاسترجاع بمرور الوقت.
تستخدم MicrocosmWorks تجزئة (chunking) واعية بالمحتوى تطبق استراتيجيات مختلفة بناءً على هيكل المستند—تجزئة الفقرات الدلالية للنصوص النثرية، وتجزئة على مستوى الصفوف أو الأقسام للجداول مع الحفاظ على سياق الرأس، وتجزئة على مستوى الوظائف (functions) للكود مع إرفاق عبارات الاستيراد (import statements). نقوم بإثراء كل جزء (chunk) ببيانات وصفية (metadata) تتضمن عنوان المستند، وتسلسل القسم الهرمي، ونوع المحتوى حتى تتمكن مرحلة الاسترجاع (retrieval) من تطبيق تسجيل (scoring) خاص بالنوع. يتفوق هذا النهج باستمرار على التجزئة الساذجة ذات الحجم الثابت (fixed-size chunking) بنسبة 25-40% في معايير ملاءمة الاسترجاع (retrieval relevance benchmarks) في مشاريع عملائنا.
تقوم MicrocosmWorks ببناء أدوات تقييم تختبر مسارات عمل RAG عبر ثلاثة أبعاد: صلة الاسترجاع (هل يتم العثور على الأجزاء الصحيحة)، ودقة الإجابة (هل تعكس الإجابة المولدة المحتوى المسترجع بالفعل)، واكتمال الإجابة (هل تتناول السؤال كاملاً). نقوم بإنشاء مجموعات اختبار ذهبية مع خبراء المجال تتضمن استعلامات ذات إجابات معروفة، وحالات حافة معادية، وأسئلة تتطلب توليفًا متعدد المستندات. يتم هذا التقييم تلقائيًا في CI/CD بحيث يتم قياس كل تغيير في مسار العمل مقابل مقاييس الجودة الأساسية قبل النشر.
تختار MicrocosmWorks قواعد البيانات المتجهية بناءً على حجمك، ونمط الاستعلام، والمتطلبات التشغيلية—Pinecone للبساطة المدارة، وWeaviate للبحث الهجين بالكلمات المفتاحية والمتجهات، وpgvector للفرق التي استثمرت بالفعل في PostgreSQL، وQdrant لعمليات النشر ذاتية الاستضافة عالية الإنتاجية. عند أحجام أقل من 10 ملايين متجه، توفر معظم الخيارات زمن استجابة أقل من 100 مللي ثانية، ولكن الفروقات تصبح كبيرة عند مئات الملايين من المتجهات حيث يصبح نوع الفهرس (index type)، والتكميم (quantization)، واستراتيجية التجزئة (sharding strategy) مهمة للغاية. نقوم بتقييم أبعاد التضمين الفعلية (embedding dimensions) وأنماط الاستعلام الخاصة بك مقابل الخيارات المختصرة خلال مرحلة تصميم البنية لدينا.
تقوم MicrocosmWorks ببناء مسارات استيعاب تزايدية تراقب مستودعات المستندات المصدر بحثًا عن التغييرات، وتعيد تقسيم وتضمين الأقسام المعدلة فقط، وتحدّث الـvector store دون الحاجة إلى إعادة فهرسة (reindex) كاملة. نحن نطبق بصمة المستندات (document fingerprinting) التي تكتشف التغييرات في المحتوى على مستوى القسم، بحيث لا تؤدي عملية تعديل فقرة واحدة إلى إعادة معالجة مستند كامل مكون من 200 صفحة. للعملاء الذين لديهم متطلبات تحديث آني، نضيف طبقة استرجاع مباشر تستعلم النظام المصدر مباشرة عن المستندات المعدلة حديثًا وتدمج تلك النتائج مع نتائج بحث الـvector search.