MicrocosmWorksابتكار وتصميم الكون الرقمي
من نحناتصل بنا
MicrocosmWorksابتكار وتصميم الكون الرقمي

نقدم حلول تقنية المعلومات المهمة. نحن شغوفون بالتقنية والأمان ومساعدة الشركات على النمو من خلال بنية تحتية موثوقة ومبتكرة لتقنية المعلومات.

[email protected]
+91 7011868196
New Delhi, India

مركز نمو AI

مركز AIابتكار الشركات الناشئةمسرّع المؤسسات

الحلول

جميع الحلولتطبيقات الصحة واللياقةمنصة فيديو AIتطوير وكلاء AI

الموارد

رؤىأدلة القطاعاتمخططات حالات الاستخدامأنماط المعماريةدراسات الحالة

الشركة

من نحناتصل بناأعمالنا

الخدمات

الاستشارات الرقميةالبنية التحتية السحابيةتطوير SaaSتطوير AIتقنية الفيديو
تطوير ERPتخصيص Zohoتطوير Odooتكامل Salesforceتطوير CRM مخصص
تكامل QuickBooksحلول IoTتطوير بلوكتشين
استشارات الأمن السيبرانيالدعم التقني - L3

© 2026 MicrocosmWorks. جميع الحقوق محفوظة.

سياسة الخصوصيةشروط الخدمة
العودة إلى دراسات الحالة
Document Intelligenceنُشر في June 18, 2026 · تم التحديث May 25, 2026

نظام RAG للمستندات محلي أولاً مع بحث هجين ودعم متعدد التنسيقات

احتاج فريق يعمل على بناء أدوات للمطورين إلى نظام ذكاء مستندات محلي بالكامل يحافظ على الخصوصية، قادر على استيعاب تنسيقات ملفات متعددة، وبناء قواعد معرفة قابلة للبحث، والإجابة على استعلامات اللغة الطبيعية باستخدام Retrieval-Augmented Generation — دون إرسال أي بيانات إلى external APIs.

ناقش مشروعك
local-rag-hybrid-search-pipeline.webp
Document Intelligence
Domain
8
Technologies
5
Key Results
Delivered
Status

التحدي

كانت حلول RAG الحالية لديها قيود كبيرة على حالات الاستخدام التي تركز على الخصوصية والمطورين:

  • الاعتماد على API خارجي — تتطلب معظم أدوات RAG إرسال محتوى المستندات إلى APIs التضمين المستندة إلى السحابة، مما ينتهك متطلبات الخصوصية
  • دعم محدود للتنسيقات — عادةً ما تتعامل الحلول مع النص العادي أو PDF فقط، متجاهلة spreadsheets و Word docs و HTML و Markdown
  • تقسيم غير فعال (Chunking) — تجاهل تقسيم النص الساذج بنية المستند (صفحات، أوراق، عناوين)، مما أدى إلى إنشاء أجزاء (chunks) ضعيفة السياق
  • فجوات الكلمات المفتاحية — أخطأ البحث القائم على التضمين (embedding) فقط في التقاط التطابقات الدقيقة للكلمات المفتاحية التي يمكن للبحث المعجمي (lexical search) التقاطها
  • عدم القدرة على التعامل مع جداول البيانات — لم تتمكن أنظمة RAG من التعامل مع البيانات الجدولية المهيكلة أو الإجابة على استعلامات التصفية/التجميع
  • عدم إعادة الترتيب — غالبًا ما أظهر الاسترجاع الأولي نتائج ذات صلة جزئياً فقط بدون مرشح جودة للمرور الثاني

حلنا

لقد قمنا ببناء نظام RAG محلي أولاً كامل مع استيعاب المستندات متعددة التنسيقات، وتقسيم (chunking) يراعي البنية، وتوليد التضمينات (embedding) محلياً، ومسار بحث هجين (دلالي + نص كامل + حداثة)، وإعادة ترتيب بواسطة cross-encoder، وواجهة مستخدم قائمة على الويب — وكل ذلك يعمل بالكامل على جهاز المستخدم.

البنية

  • محملات المستندات (Document Loaders): محاليل (parsers) خاصة بالتنسيق لـ PDF و DOCX و XLSX و CSV و HTML و Markdown والنص العادي
  • مقسِّم (Chunker): تقسيم يراعي البنية ويحافظ على حدود الصفحة والورقة والعنوان
  • تضمينات (Embeddings): نموذج تضمين محلي عبر Transformers.js (لا توجد مكالمات API خارجية)
  • قاعدة بيانات المتجهات (Vector Database): LanceDB (بدون خادم، قائم على الملفات) لتخزين التضمينات (embedding) والبحث عن التشابه
  • البحث عن النص الكامل (Full-Text Search): فهرسة قائمة على Trigram للمطابقة المعجمية
  • إعادة الترتيب (Reranker): نموذج Cross-encoder لتسجيل النتائج بناءً على السياق
  • محلل الاستعلامات (Query Analyzer): توجيه اكتشاف النية بين الاستعلامات الدلالية والمهيكلة
  • خادم الويب (Web Server): واجهة Express.js API مع إدارة المشاريع ونقاط نهاية البحث
  • الواجهة الأمامية (Frontend): واجهة مستخدم قائمة على الويب لتحميل المستندات وإدارتها والبحث التفاعلي

مسار معالجة المستندات

محملات متعددة التنسيقات

يكتشف نمط التسجيل نوع الملف تلقائيًا ويوجه إلى المحلل (parser) المناسب:

  • PDF — استخراج النص مع تجزئة على مستوى الصفحة
  • Word (.docx/.doc) — تحليل يراعي العناوين ويحافظ على تسلسل المستند الهرمي
  • Excel/CSV — تحليل ورقة بورقة مع اكتشاف الرؤوس ومحتوى على مستوى الصف
  • HTML — استخراج يراعي العلامات (tags) مع الحفاظ على البنية
  • Markdown — تحليل الأقسام بناءً على العناوين
  • Plain Text — تجزئة قائمة على السطر

يستخرج كل محمل البيانات الوصفية (metadata) (العنوان، المؤلف، تاريخ الإنشاء، عدد الصفحات/الأوراق، عدد الكلمات) إلى جانب المحتوى، مما ينتج أقساماً مهيكلة مع مراجع المصدر.

تقسيم (Chunking) يراعي البنية

على عكس تقسيم النص الساذج، يحترم المقسِّم (chunker) حدود المستندات:

  • يحافظ على فواصل الصفحات (PDFs)، وحدود الأوراق (spreadsheets)، وتسلسل العناوين الهرمي (Word/Markdown)
  • تحديد الحجم بناءً على الرمز (token) مع حجم جزء (chunk) وتداخل قابلين للتكوين
  • ارتداد هرمي: يقسم حسب الأقسام أولاً، ثم الفقرات، ثم الجمل
  • يحتفظ كل جزء (chunk) ببيانات المصدر الوصفية (metadata) (رقم الصفحة، اسم الورقة، العنوان) للإسناد

التضمين والفهرسة (Embedding & Indexing)

نموذج التضمين المحلي

  • يعمل بالكامل محليًا عبر Transformers.js — لا تغادر أي بيانات الجهاز
  • نموذج كمومي لتحسين الأداء
  • تضمين دفعي للمعالجة المجمعة الفعالة
  • اقتطاع تلقائي عند حدود الكلمات مع تطبيع L2

تخزين المتجهات

يوفر LanceDB تخزين متجهات بدون خادم:

  • قائم على الملفات (لا حاجة لخادم قاعدة بيانات منفصل)
  • عزل لكل مشروع مع فهارس مستقلة
  • مفاتيح ذاكرة التخزين المؤقت المستندة إلى SHA256 لإلغاء الازدواجية
  • بيانات وصفية مخزنة بجانب المتجهات للاسترجاع المفلتر

مسار البحث الهجين

يجمع مسار الاسترجاع بين ثلاث إشارات ترتيب للحصول على نتائج أفضل من أي نهج فردي:

الإشارة 1: بحث التضمين (الدلالي) (Embedding Search (Semantic))

يجد بحث تشابه المتجهات أجزاء (chunks) ذات معنى مرتبط حتى عند استخدام كلمات مختلفة. يتعامل مع إعادة الصياغة، والمرادفات، والاستعلامات المفاهيمية.

الإشارة 2: البحث عن النص الكامل (المعجمي) (Full-Text Search (Lexical))

تلتقط الفهرسة القائمة على Trigram مع تشابه Jaccard التطابقات الدقيقة للكلمات المفتاحية التي قد يفوتها بحث التضمين (embedding search) — وهو أمر مهم للمصطلحات الفنية والأسماء والمعرفات.

الإشارة 3: تعزيز الحداثة

يفضل ترجيح التضاؤل الأسي المستندات التي تم الوصول إليها أو تعديلها مؤخرًا، مما يضمن ظهور المعلومات المحدثة أولاً.

دمج النتائج

يتم دمج الإشارات بأوزان قابلة للتكوين (افتراضيًا: 50% دلالي، 25% معجمي، 25% حداثة)، ويتم تطبيعها وتصفيتها بحد أدنى للدرجة.

إعادة الترتيب بواسطة Cross-Encoder

بعد الاسترجاع الأولي، يعيد نموذج cross-encoder تسجيل المرشحين الأوائل:

  • تسجيل يراعي السياق يأخذ في الاعتبار أزواج الاستعلام والمستند معًا (وليس بشكل مستقل)
  • حساب تعزيز الكلمات المفتاحية لتداخل المصطلحات
  • تسجيل مختلط (cross-encoder + إشارات الكلمات المفتاحية)
  • ينتج قائمة مرتبة نهائية بدقة أعلى من الاسترجاع الأولي وحده

دعم البيانات المهيكلة

لمحتوى جداول البيانات، يوفر النظام قدرات إضافية:

  • الكشف التلقائي عن أنواع الأعمدة (رقمي، تاريخ، منطقي، نصي)
  • تصفية باللغة الطبيعية (مثل، "الموظفين في الهندسة الذين تتجاوز رواتبهم الحد الأدنى")
  • دعم التجميع (العدد، المجموع، المتوسط، الحد الأدنى، الحد الأقصى)
  • يوجه محلل الاستعلامات الاستعلامات المهيكلة إلى محرك مخصص بدلاً من بحث التضمين (embedding search)

واجهة الويب

  • إدارة المشاريع — إنشاء مشاريع قاعدة المعرفة، وتحديثها، وحذفها
  • تحميل المستندات — تحميل الملفات بالسحب والإفلات مع الكشف التلقائي عن التنسيق
  • إنشاء المستندات — إنشاء المستندات من النص مباشرة في واجهة المستخدم
  • البحث التفاعلي — واجهة استعلام اللغة الطبيعية مع نتائج مرتبة
  • الإحصائيات — حجم الفهرس، عدد المستندات، وتوزيع التنسيقات لكل مشروع

الميزات الرئيسية

  1. محلي بالكامل — جميع المعالجة على الجهاز؛ لا توجد مكالمات API خارجية للتضمينات أو البحث
  2. 9 تنسيقات إدخال — PDF, DOCX, DOC, XLSX, XLS, CSV, HTML, Markdown, plain text
  3. تقسيم (Chunking) يراعي البنية — يحافظ على الصفحات والأوراق والعناوين كحدود للأجزاء (chunks)
  4. البحث الهجين — يجمع بين الإشارات الدلالية والمعجمية والحداثة لاسترجاع أفضل
  5. إعادة الترتيب بواسطة Cross-Encoder — تسجيل للمرور الثاني لنتائج ذات دقة أعلى
  6. الاستعلامات المهيكلة — تصفية وتجميع باللغة الطبيعية على بيانات جداول البيانات
  7. قاعدة بيانات متجهات بدون خادم — تخزين قائم على الملفات باستخدام LanceDB بدون أعباء بنية تحتية إضافية
  8. كتابة المستندات — قدرات التصدير لإنشاء PDF و DOCX و XLSX
  9. عزل المشاريع — قواعد معرفة مستقلة مع فهارس منفصلة
  10. واجهة مستخدم الويب (Web UI) — واجهة كاملة لإدارة المستندات والبحث التفاعلي

النتائج

زمن استجابة البحث: ~60 مللي ثانية لمسار البحث الهجين الكامل (دلالي + FTS + إعادة ترتيب)
سرعة التضمين: ~50 مللي ثانية لكل جزء (chunk) (دفعة: ~2 ثانية لـ 100 جزء)
تغطية التنسيقات: يتم التعامل مع 9 تنسيقات إدخال محليًا بدون محولات خارجية

المكدس التقني

TypeScriptNode.jsExpress.jsTransformers.jsLanceDBVitestpnpmHTML/CSS/JS Frontend

caseStudyDetail.more دراسات الحالة

استكشف المزيد من تطبيقاتنا التقنية

Document Intelligence

تحليل جداول البيانات والمستندات المدعوم بالذكاء الاصطناعي مع تنسيق متعدد الوكلاء والمراجعة المرجعية للمستندات

احتاج فريق بيانات مؤسسي إلى تحليل واستعلام وتحرير مجموعات كبيرة من جداول البيانات والمستندات (Excel, CSV, Google Sheets, PDFs, Word docs) باستخدام اللغة الطبيعية — مع القدرة على المراجعة المرجعية للبيانات عبر ملفات متعددة وتنفيذ مهام سير عمل تحليلية متعددة الخطوات دون الحاجة إلى معالجة البيانات يدويًا.

اقرأ دراسة الحالة
AI Accounting

معالجة الفواتير المدعومة بـ AI باستخدام OCR ودمج QuickBooks

كانت شركة متوسطة الحجم تعالج مئات فواتير الموردين شهريًا بحاجة إلى التخلص من إدخال البيانات يدويًا عن طريق استخلاص بيانات الفاتورة تلقائيًا باستخدام AI/OCR ومزامنتها مباشرةً مع QuickBooks للمسك الدفتري وتتبع المدفوعات.

اقرأ دراسة الحالة

مستعد لتحويل عملك؟

دعنا نناقش كيف يمكننا تطبيق حلول مشابهة لتحدياتك.

تواصل معناcaseStudyDetail.viewAllCaseStudies
الخصوصية: لا يتم نقل أي بيانات خارجيًا — معالجة محلية كاملة
استهلاك الذاكرة: ~100 ميجابايت لنموذج التضمين، ~1 ميجابايت لكل 1,000 جزء (chunk) مفهرس
Video Encoding

إدراج الإعلانات من جانب العميل (CSAI) مع تحليل علامات SCTE-35 وتكامل مشغلات متعددة المنصات

احتاجت منصة بث الفيديو إلى تطبيق إدراج الإعلانات من جانب العميل (CSAI) عبر تطبيقات الويب والجوال والتلفزيون الذكي المتصل – مما يتيح تجارب إعلانية مخصصة على مستوى الجهاز مع دعم كامل لتفاعل الإعلانات (تراكبات قابلة للنقر، إعلانات مصاحبة، أزرار تخطي) التي لا يمكن لتضمين الإعلانات من جانب الخادم توفيرها.

اقرأ دراسة الحالة

الأسئلة الشائعة

قامت MicrocosmWorks ببناء نظام RAG محلي أولاً حيث يتم تشغيل جميع عمليات استيعاب المستندات (document ingestion)، وتوليد التضمينات (embedding generation)، وتخزين المتجهات (vector storage)، واستدلال LLM بالكامل على البنية التحتية الخاصة بك دون إرسال أي بيانات إلى واجهات برمجة تطبيقات سحابية خارجية (external cloud APIs). تعد هذه البنية ضرورية للمؤسسات التي تتعامل مع المستندات السرية، والمواد المشمولة بامتياز المحامي والموكل، أو الملكية الفكرية الحساسة حيث تحظر متطلبات سيادة البيانات أي معالجة سحابية، حتى مع التشفير.

نفذت MicrocosmWorks خط أنابيب استرجاع هجين (hybrid retrieval pipeline) يقوم بتشغيل بحث BM25 للكلمات المفتاحية (BM25 keyword search) والبحث الدلالي للمتجهات الكثيفة (dense vector semantic search) بالتوازي، ثم يستخدم دمج الرتب المتبادلة (reciprocal rank fusion) لدمج وإعادة ترتيب النتائج المجمعة قبل تمريرها إلى LLM كسياق. يلتقط هذا النهج الاستعلامات ذات المطابقة التامة (exact-match queries) مثل رموز المنتجات والاستشهادات القانونية التي يفوتها البحث الدلالي، بينما يسترجع أيضًا المحتوى المرتبط مفاهيميًا الذي لن يجده البحث بالكلمات المفتاحية أبدًا.

قامت MicrocosmWorks ببناء أدوات تحليل خاصة بالتنسيق (format-specific parsers) لـ PDF و DOCX و XLSX و PPTX و HTML و Markdown والنص العادي، مع خط أنابيب OCR يستخدم Tesseract لملفات PDF الممسوحة ضوئيًا والمستندات المستندة إلى الصور. يكتشف النظام تلقائيًا ما إذا كان ملف PDF يحتوي على نص قابل للتحديد أو يتطلب OCR، ويطبق تحليل التخطيط (layout analysis) للحفاظ على هياكل الجداول وترتيب القراءة، ويقسم المستندات (chunks documents) باستخدام الحدود الدلالية (semantic boundaries) بدلاً من حدود الأحرف العشوائية (arbitrary character limits) لتحسين جودة الاسترجاع.

نفذت MicrocosmWorks الفهرسة التزايدية (incremental indexing) التي تتعقب مجموع التحقق للمستندات (document checksums) وتعيد معالجة الملفات التي تغيرت فقط منذ آخر عملية استيعاب. يتم إزالة الأجزاء القديمة من المستندات المحدثة وإدراج أجزاء جديدة بشكل ذري (atomically)، بحيث لا يكون فهرس البحث في حالة غير متسقة أبدًا. يدعم النظام أيضًا استرجاع المستندات ذات الإصدارات (versioned document retrieval)، مما يسمح للمستخدمين بالاستعلام عن الإصدارات التاريخية للمستندات عند الحاجة لأغراض التدقيق أو الامتثال.

قامت MicrocosmWorks بتحسين خط أنابيب RAG المحلي (local RAG pipeline) ليعمل على أجهزة متواضعة، مع التكوين الأدنى الموصى به وهو جهاز يحتوي على 32 جيجابايت RAM، و 8 أنوية CPU، واختياريًا وحدة معالجة رسومات (GPU) متوسطة المدى لتسريع توليد التضمينات (embedding generation). بالنسبة للمؤسسات التي لا تملك أجهزة GPU، يعود النظام إلى نماذج التضمين المستندة إلى CPU مع زمن انتقال أعلى قليلاً، ويتم ضبط قاعدة بيانات المتجهات (vector database) لتخزين SSD للحفاظ على أوقات استجابة الاستعلام أقل من 200 مللي ثانية للمجموعات التي تصل إلى مليون جزء مستند (document chunks).