Document Intelligenceنُشر في June 22, 2026 · تم التحديث June 22, 2026

نظام RAG للمستندات محلي أولاً مع بحث هجين ودعم متعدد التنسيقات

فريق يقوم بإنشاء أدوات للمطورين احتاج إلى نظام ذكاء للمستندات محلي بالكامل ويحافظ على الخصوصية، يمكنه استيعاب تنسيقات ملفات متعددة، وبناء قواعد معرفة قابلة للبحث، والإجابة على استفسارات اللغة الطبيعية باستخدام Retrieval-Augmented Generation — دون إرسال أي بيانات إلى APIs خارجية.

ناقش مشروعك

Document Intelligence

Domain

Technologies

Key Results

Delivered

Status

التحدي

واجهت حلول RAG الحالية قيودًا كبيرة لحالات الاستخدام التي تهتم بالخصوصية وتركز على المطورين:

الاعتماد على APIs خارجية — تتطلب معظم أدوات RAG إرسال محتوى المستند إلى cloud-based embedding APIs، مما ينتهك متطلبات الخصوصية
دعم محدود للتنسيقات — عادةً ما تتعامل الحلول مع النص العادي أو PDF فقط، متجاهلة spreadsheets و Word docs و HTML و Markdown
تقسيم ضعيف للكتل (Chunking) — تجاهل تقسيم النص الساذج (text splitting) بنية المستند (مثل الصفحات، الأوراق، العناوين)، مما أدى إلى إنشاء كتل (chunks) تفتقر إلى السياق
ثغرات الكلمات المفتاحية — البحث القائم على embedding وحده فاتته تطابقات الكلمات المفتاحية الدقيقة التي يمكن أن يلتقطها البحث المعجمي (lexical search)
عمى جداول البيانات (Spreadsheet Blindness) — لم تتمكن أنظمة RAG من التعامل مع البيانات الجدولية المهيكلة أو الإجابة على استفسارات التصفية/التجميع
لا يوجد إعادة ترتيب (Reranking) — غالبًا ما أظهر الاسترداد في المرة الأولى نتائج ذات صلة جزئية فقط دون مرشح جودة في المرة الثانية

حلنا

لقد قمنا ببناء نظام RAG محلي أولاً متكامل مع استيعاب المستندات متعددة التنسيقات، وتقسيم كتل (chunking) يراعي البنية، وتوليد embedding محلي، وخط أنابيب بحث هجين (دلالي + نص كامل + حداثة)، وإعادة ترتيب (reranking) بواسطة cross-encoder، وواجهة مستخدم (UI) قائمة على الويب — وكل ذلك يعمل بالكامل على جهاز المستخدم.

البنية

محملات المستندات (Document Loaders): Format-specific parsers لـ PDF و DOCX و XLSX و CSV و HTML و Markdown والنص العادي
أداة تقسيم الكتل (Chunker): تقسيم يراعي البنية ويحافظ على حدود الصفحات والأوراق والعناوين
Embeddings: نموذج embedding محلي عبر Transformers.js (لا توجد مكالمات API خارجية)
قاعدة بيانات المتجهات (Vector Database): LanceDB (serverless، يعتمد على الملفات) لتخزين embedding والبحث عن التشابه
بحث النص الكامل (Full-Text Search): فهرسة قائمة على Trigram للمطابقة المعجمية
أداة إعادة الترتيب (Reranker): نموذج Cross-encoder لتسجيل النتائج بناءً على السياق
محلل الاستعلامات (Query Analyzer): توجيه اكتشاف النية بين الاستعلامات الدلالية والمهيكلة
خادم الويب (Web Server): Express.js API مع إدارة المشاريع ونقاط نهاية البحث
الواجهة الأمامية (Frontend): واجهة مستخدم (UI) قائمة على الويب لتحميل المستندات وإدارتها والبحث التفاعلي

خط أنابيب معالجة المستندات

محملات متعددة التنسيقات

يكتشف نمط السجل (registry pattern) نوع الملف تلقائيًا ويوجهه إلى المحلل المناسب:

PDF — استخراج النص مع تقسيم على مستوى الصفحة
Word (.docx/.doc) — تحليل يراعي العناوين ويحافظ على التسلسل الهرمي للمستند
Excel/CSV — تحليل ورقة بورقة مع اكتشاف الرؤوس ومحتوى على مستوى الصفوف
HTML — استخراج يراعي العلامات (Tag-aware) مع الحفاظ على البنية
Markdown — تحليل الأقسام القائم على العناوين
نص عادي (Plain Text) — تقسيم قائم على السطور

يستخرج كل محمل بيانات تعريف (title, author, creation date, page/sheet count, word count) إلى جانب المحتوى، مما ينتج أقسامًا مهيكلة مع مراجع المصدر.

تقسيم الكتل (Chunking) المراعي للبنية

على عكس تقسيم النص الساذج، يراعي الـ chunker حدود المستندات:

يحافظ على فواصل الصفحات (PDFs)، وحدود الأوراق (spreadsheets)، والتسلسل الهرمي للعناوين (Word/Markdown)
تحديد الحجم القائم على الـ token مع حجم كتلة (chunk) وتداخل قابلين للتكوين
تراجع هرمي: يقسم حسب الأقسام أولاً، ثم الفقرات، ثم الجمل
تحتفظ كل كتلة (chunk) ببيانات تعريف المصدر (رقم الصفحة، اسم الورقة، العنوان) للإسناد

الـ Embedding والفهرسة

نموذج Embedding المحلي

يعمل بالكامل محليًا عبر Transformers.js — لا تغادر أي بيانات الجهاز
نموذج quantized لتحسين الأداء
Batch embedding للمعالجة المجمعة الفعالة
اقتطاع تلقائي عند حدود الكلمات مع تسوية L2

تخزين المتجهات (Vector Storage)

يوفر LanceDB تخزين متجهات (vector storage) بدون خادم (serverless):

يعتمد على الملفات (لا يلزم وجود خادم قاعدة بيانات منفصل)
عزل لكل مشروع مع فهارس مستقلة
مفاتيح تخزين مؤقت قائمة على SHA256 لإزالة التكرارات
بيانات تعريف مخزنة جنبًا إلى جنب مع المتجهات للاسترداد المصفى

خط أنابيب البحث الهجين

يجمع خط أنابيب الاسترداد ثلاث إشارات ترتيب للحصول على نتائج أفضل من أي نهج فردي:

الإشارة 1: بحث Embedding (دلالي)

يبحث تشابه المتجهات (vector similarity search) عن كتل (chunks) ذات معنى مرتبط حتى عند استخدام كلمات مختلفة. يتعامل مع إعادة الصياغة والمرادفات والاستعلامات المفاهيمية.

الإشارة 2: بحث النص الكامل (معجمي)

الفهرسة القائمة على Trigram مع تشابه Jaccard تلتقط تطابقات الكلمات المفتاحية الدقيقة التي قد يفوتها بحث embedding — وهو أمر مهم للمصطلحات الفنية والأسماء والمعرفات.

الإشارة 3: تعزيز الحداثة

ترجيح الانحدار الأسي يفضل المستندات التي تم الوصول إليها أو تعديلها مؤخرًا، مما يضمن ظهور المعلومات الحديثة أولاً.

دمج النقاط

يتم دمج الإشارات بأوزان قابلة للتكوين (افتراضي: 50% دلالي، 25% معجمي، 25% حداثة)، وتسويتها، وتصفيتها بواسطة حد أدنى للنقاط.

إعادة الترتيب (Reranking) بواسطة Cross-Encoder

بعد الاسترداد الأولي، يقوم نموذج cross-encoder بإعادة تسجيل أفضل المرشحين:

التسجيل المراعي للسياق يأخذ في الاعتبار أزواج الاستعلام والمستند معًا (وليس بشكل مستقل)
حساب تعزيز الكلمات المفتاحية لتداخل المصطلحات
تسجيل مختلط (cross-encoder + إشارات الكلمات المفتاحية)
ينتج قائمة مرتبة نهائية بدقة أعلى من الاسترداد في المرة الأولى وحده

دعم البيانات المهيكلة

لمحتوى جداول البيانات، يوفر النظام إمكانيات إضافية:

الاكتشاف التلقائي لأنواع الأعمدة (numeric, date, boolean, string)
تصفية باللغة الطبيعية (مثال: "الموظفون في الهندسة الذين يتقاضون راتباً أعلى من الحد الأدنى")
دعم التجميع (العدد، المجموع، المتوسط، الحد الأدنى، الحد الأقصى)
يوجه محلل الاستعلامات الاستعلامات المهيكلة إلى محرك مخصص بدلاً من بحث embedding

واجهة الويب

إدارة المشاريع — إنشاء مشاريع قاعدة المعرفة وتحديثها وحذفها
تحميل المستندات — تحميل الملفات بالسحب والإفلات مع الاكتشاف التلقائي للتنسيق
إنشاء المستندات — إنشاء مستندات من النص مباشرة في واجهة المستخدم (UI)
البحث التفاعلي — واجهة استعلام باللغة الطبيعية مع نتائج مرتبة
الإحصائيات — حجم الفهرس، وعدد المستندات، وتوزيع التنسيقات لكل مشروع

الميزات الرئيسية

محلي بالكامل — جميع المعالجة على الجهاز؛ لا توجد مكالمات API خارجية لـ embeddings أو البحث
9 تنسيقات إدخال — PDF, DOCX, DOC, XLSX, XLS, CSV, HTML, Markdown, نص عادي
تقسيم الكتل (Chunking) المراعي للبنية — يحافظ على الصفحات والأوراق والعناوين كحدود للكتل (chunks)
بحث هجين — يجمع بين الإشارات الدلالية والمعجمية والحداثة لاسترداد أفضل
إعادة الترتيب (Reranking) بواسطة Cross-Encoder — تسجيل في المرة الثانية للحصول على نتائج بدقة أعلى
استعلامات مهيكلة — تصفية وتجميع باللغة الطبيعية لبيانات جداول البيانات
قاعدة بيانات متجهات (Vector DB) بدون خادم — تخزين LanceDB يعتمد على الملفات بدون تكاليف بنية تحتية إضافية
كتابة المستندات — إمكانيات تصدير لإنشاء PDF و DOCX و XLSX
عزل المشاريع — قواعد معرفة مستقلة بفهارس منفصلة
واجهة مستخدم (Web UI) — واجهة كاملة لإدارة المستندات والبحث التفاعلي

النتائج

زمن استجابة البحث (Search Latency): ~60ms لخط أنابيب البحث الهجين الكامل (دلالي + FTS + reranking)

سرعة الـ Embedding: ~50ms لكل كتلة (chunk) (دفعي: ~2s لـ 100 كتلة)

تغطية التنسيقات: 9 تنسيقات إدخال يتم التعامل معها أصلاً بدون محولات خارجية

المكدس التقني

TypeScriptNode.jsExpress.jsTransformers.jsLanceDBVitestpnpmHTML/CSS/JS Frontend

caseStudyDetail.more دراسات الحالة

استكشف المزيد من تطبيقاتنا التقنية

Document Intelligence

تحليل جداول البيانات والمستندات المدعوم بالذكاء الاصطناعي مع تنسيق متعدد الوكلاء والمراجعة المرجعية للمستندات

احتاج فريق بيانات مؤسسي إلى تحليل واستعلام وتحرير مجموعات كبيرة من جداول البيانات والمستندات (Excel, CSV, Google Sheets, PDFs, Word docs) باستخدام اللغة الطبيعية — مع القدرة على المراجعة المرجعية للبيانات عبر ملفات متعددة وتنفيذ مهام سير عمل تحليلية متعددة الخطوات دون الحاجة إلى معالجة البيانات يدويًا.

اقرأ دراسة الحالة

Kickly: منصة المشاريع المدعومة بالذكاء الاصطناعي للشركات الناشئة

Kickly هي منصة لإدارة المشاريع مدعومة بالذكاء الاصطناعي مصممة للشركات الناشئة — تجمع بين أتمتة المهام الذكية، والتعاون الفريقي، وتتبع التقدم في الوقت الفعلي في منتج واحد.

اقرأ دراسة الحالة

الأسئلة الشائعة

قامت MicrocosmWorks ببناء نظام local-first RAG حيث تعمل جميع عمليات استيعاب المستندات، وembedding generation، وvector storage، وLLM inference بالكامل على البنية التحتية الخاصة بك دون إرسال أي بيانات إلى external cloud APIs. تعتبر هذه البنية أساسية للمؤسسات التي تتعامل مع مستندات سرية، أو مواد محمية بامتياز المحامي-الموكل، أو ملكية فكرية حساسة حيث تحظر متطلبات سيادة البيانات أي معالجة سحابية، حتى مع التشفير.

نفذت MicrocosmWorks مسار استرجاع هجينًا يدير بحث BM25 بالكلمات المفتاحية والبحث الدلالي للمتجهات الكثيفة بالتوازي، ثم يستخدم reciprocal rank fusion لدمج وإعادة ترتيب النتائج المجمعة قبل تمريرها إلى LLM كسياق. يلتقط هذا النهج الاستعلامات المطابقة تمامًا مثل رموز المنتجات والاستشهادات القانونية التي يفوتها البحث الدلالي، بينما يسترجع أيضًا المحتوى المرتبط مفاهيميًا الذي لن يجده البحث بالكلمات المفتاحية أبدًا.

قامت MicrocosmWorks ببناء محللات (parsers) خاصة بالصيغ لـ PDF و DOCX و XLSX و PPTX و HTML و Markdown والنصوص العادية، مع مسار عمل (pipeline) للتعرف الضوئي على الحروف (OCR) باستخدام Tesseract لملفات PDF الممسوحة ضوئياً والمستندات المستندة إلى الصور. يكتشف النظام تلقائياً ما إذا كان ملف PDF يحتوي على نص قابل للتحديد أو يتطلب OCR، ويطبق تحليل التخطيط للحفاظ على هياكل الجداول وترتيب القراءة، ويقسم المستندات إلى أجزاء (chunks) باستخدام حدود دلالية بدلاً من حدود الأحرف التعسفية لتحسين جودة الاسترجاع.

قامت MicrocosmWorks بتطبيق الفهرسة التزايدية التي تتبع مجموعات تدقيق المستندات وتعيد معالجة الملفات التي تغيرت فقط منذ عملية الاستيعاب الأخيرة. يتم إزالة الأجزاء القديمة للمستندات المحدثة وإدراج أجزاء جديدة بشكل ذري، بحيث لا يكون فهرس البحث أبدًا في حالة غير متناسقة. يدعم النظام أيضًا استرجاع المستندات ذات الإصدارات، مما يسمح للمستخدمين بالاستعلام عن الإصدارات التاريخية للمستندات عند الحاجة لأغراض التدقيق أو الامتثال.

قامت MicrocosmWorks بتحسين الـ local RAG pipeline لتعمل على أجهزة متواضعة، مع توصية بحد أدنى لتكوين الجهاز يتضمن 32GB RAM، و 8 CPU cores، واختيارياً mid-range GPU لتسريع عملية الـ embedding generation. بالنسبة للمؤسسات التي لا تملك GPU hardware، يعود النظام إلى استخدام CPU-based embedding models مع زمن استجابة أعلى قليلاً، وتم ضبط الـ vector database لتخزين SSD للحفاظ على query response times أقل من 200ms لمجموعات البيانات (corpora) التي تصل إلى مليون document chunks.

مستعد لتحويل عملك؟

دعنا نناقش كيف يمكننا تطبيق حلول مشابهة لتحدياتك.

تواصل معنا caseStudyDetail.viewAllCaseStudies

نظام RAG للمستندات محلي أولاً مع بحث هجين ودعم متعدد التنسيقات

التحدي

حلنا

البنية

خط أنابيب معالجة المستندات

محملات متعددة التنسيقات

تقسيم الكتل (Chunking) المراعي للبنية

الـ Embedding والفهرسة

نموذج Embedding المحلي

تخزين المتجهات (Vector Storage)

خط أنابيب البحث الهجين

الإشارة 1: بحث Embedding (دلالي)

الإشارة 2: بحث النص الكامل (معجمي)

الإشارة 3: تعزيز الحداثة

دمج النقاط

إعادة الترتيب (Reranking) بواسطة Cross-Encoder

دعم البيانات المهيكلة

واجهة الويب

الميزات الرئيسية

النتائج

المكدس التقني

caseStudyDetail.more دراسات الحالة

تحليل جداول البيانات والمستندات المدعوم بالذكاء الاصطناعي مع تنسيق متعدد الوكلاء والمراجعة المرجعية للمستندات

Kickly: منصة المشاريع المدعومة بالذكاء الاصطناعي للشركات الناشئة

الأسئلة الشائعة

مستعد لتحويل عملك؟

معالجة الفواتير المدعومة بـ AI باستخدام OCR ودمج QuickBooks