MicrocosmWorksابتكار وتصميم الكون الرقمي
من نحناتصل بنا
MicrocosmWorksابتكار وتصميم الكون الرقمي

نقدم حلول تقنية المعلومات المهمة. نحن شغوفون بالتقنية والأمان ومساعدة الشركات على النمو من خلال بنية تحتية موثوقة ومبتكرة لتقنية المعلومات.

[email protected]
+91 7011868196
New Delhi, India

مركز نمو AI

مركز AIابتكار الشركات الناشئةمسرّع المؤسسات

الحلول

جميع الحلولتطبيقات الصحة واللياقةمنصة فيديو AIتطوير وكلاء AI

الموارد

رؤىأدلة القطاعاتمخططات حالات الاستخدامأنماط المعماريةدراسات الحالة

الشركة

من نحناتصل بناأعمالنا

الخدمات

الاستشارات الرقميةالبنية التحتية السحابيةتطوير SaaSتطوير AIتقنية الفيديو
تطوير ERPتخصيص Zohoتطوير Odooتكامل Salesforceتطوير CRM مخصص
تكامل QuickBooksحلول IoTتطوير بلوكتشين
استشارات الأمن السيبرانيالدعم التقني - L3

© 2026 MicrocosmWorks. جميع الحقوق محفوظة.

سياسة الخصوصيةشروط الخدمة
العودة إلى أنماط العمارة
InfrastructureAdvanced

هندسة التوسيع عند الحاجة (On-Off Scaling)

لا تدفع مقابل وحدات معالجة الرسوميات (GPUs) الخاملة. وفر قوة حوسبة فورية (just-in-time)، عالج عبء العمل، ثم قم بتفكيكها — محولاً النفقات الرأسمالية إلى تكلفة تشغيل لكل وظيفة.

June 22, 2026
|
2 topics covered
ناقش هذه العمارة
on-off-scaling-architecture.webp
Infrastructure
Category
Advanced
Complexity
AI/ML, الإعلام والترفيه
Industries
2+
Technologies

متى تحتاج إلى هذا

عبء عملك متقطع (burtsy) — مثل مهام ترميز الفيديو (video encoding) التي تزداد بشكل مفاجئ عند تحميل المحتوى، أو عمليات تدريب ML التي تتطلب 8 GPUs لمدة 4 ساعات ثم لا شيء بعدها، أو مهام الاستدلال الدفعي (batch inference) التي يتم تشغيلها بواسطة أحداث الأعمال، أو مسارات عمل العرض (rendering pipelines) التي تعمل طوال الليل. في هذه الحالات، إما أن تكون مواردك زائدة عن الحاجة (over-provisioned) (تدفع مقابل موارد خاملة 80% من الوقت) أو أنها غير كافية (under-provisioned) (تنتظر المهام في قائمة الانتظار لساعات خلال فترات الذروة). أنت بحاجة إلى هندسة معمارية توفر قوة الحوسبة التي تحتاجها بالضبط، عندما تحتاجها، وتطلقها عند اكتمال المهمة — دون عقوبة "البدء البارد" (cold-start penalty) التي تجعل "التوسع إلى الصفر" (scale to zero) غير عملي لأعباء عمل GPU.

Related Architecture Patterns

Explore more design patterns and system architectures

cloud-native-infrastructure.webp
Infrastructure

البنية التحتية السحابية الأصلية

بنية تحتية تتم إدارتها بالإصدارات، واختبارها، ونشرها كرمز التطبيق تمامًا — لأن موثوقية منصتك لا تزيد عن موثوقية ما تقوم عليه.

EnterpriseView
security-first-architecture.webp

هل تحتاج إلى مساعدة في تنفيذ هذه العمارة؟

يمكن لفريق معماري لدينا مساعدتك في تصميم وبناء الأنظمة باستخدام هذا النمط لمتطلباتك المحددة.

تواصل معنا

نظرة عامة على النمط

تقوم هندسة التوسيع عند الحاجة (On-off scaling) بإدارة موارد الحوسبة من خلال تجميع الموارد الساخنة/الباردة (warm/cold pooling)، وتوفير الموارد المدفوع بقائمة الانتظار (job-queue-driven provisioning)، والتفكيك التلقائي (automated teardown). يحافظ تجمع الموارد الساخنة (warm pool) على عدد قليل من المثيلات المهيأة مسبقاً (pre-initialized instances) الجاهزة للاستخدام الفوري. يوفر تجمع الموارد الباردة (cold pool) سعة إضافية من مثيلات Spot/Preemptible عندما يتجاوز الطلب سعة التجمع الساخن. يقوم منسق المهام (job orchestrator) بتوجيه العمل إلى المثيلات المتاحة، ومراقبة التقدم، ومعالجة عمليات إعادة المحاولة عند إخلاء Spot، ويقوم بتشغيل خفض السعة (scale-down) عند إفراغ قائمة الانتظار. يعتبر هذا النمط حرجاً بشكل خاص لأعباء عمل GPU حيث يمكن أن يستغرق "البدء البارد" (cold start) (سحب الحاوية + تحميل النموذج) من 3 إلى 10 دقائق.

هندسة معمارية مرجعية

يرتكز النظام على قائمة انتظار المهام (job queue) (SQS, Redis، أو مخصص) التي تقوم بتخزين طلبات العمل الواردة مؤقتاً. يقوم وحدة تحكم التوسيع (scaling controller) بمراقبة عمق قائمة الانتظار وتوفير المثيلات من تجمع الموارد الساخنة (warm pool) أولاً، ثم من تجمع الموارد الباردة (cold pool) (مثيلات Spot). يسحب كل مثيل عامل (worker instance) المهام من قائمة الانتظار، وينفذ عبء العمل (الترميز، التدريب، الاستدلال)، ويبلغ عن اكتماله، ثم يعود إلى التجمع أو يتم إنهاؤه. يتعامل مدير نقطة التحقق (checkpoint manager) مع إخلاء Spot عن طريق حفظ الحالة الوسيطة إلى S3، مما يتيح للمهام استئناف العمل على مثيل مختلف دون البدء من جديد.

المكونات الأساسية
  • قائمة انتظار وجدولة المهام (Job Queue & Scheduler): قائمة انتظار مهام ذات أولوية مع حدود تزامن قابلة للتكوين لكل نوع مهمة. تدعم التنفيذ المؤجل، وقوائم انتظار الرسائل غير الصالحة (dead-letter queues) للمهام الفاشلة، ومسارات الأولوية (المهام السريعة تحصل على مثيلات تجمع الموارد الساخنة (warm pool instances)، والمهام القياسية تستخدم تجمع الموارد الباردة (cold pool)). AWS SQS، BullMQ على Redis، أو Temporal لسير العمل المعقد.
  • مدير تجمع الموارد الساخنة (Warm Pool Manager): يحتفظ بـ N من المثيلات المهيأة مسبقاً (pre-initialized instances) مع نماذج محملة في ذاكرة GPU، وحاويات قيد التشغيل، واجتياز فحوصات الصحة (health checks). تتناوب المثيلات بين: خاملة (idle) ← مخصصة (assigned) ← معالجة (processing) ← خاملة (idle). حجم التجمع قابل للتكوين حسب الوقت من اليوم (أكبر خلال ساعات العمل، أصغر ليلاً) وقابل للتعديل بناءً على أنماط الطلب التاريخية.
  • مزود تجمع الموارد الباردة (Cold Pool Provisioner): يوفر سعة إضافية من مثيلات Spot (AWS)، أو الأجهزة الافتراضية القابلة للإيقاف المؤقت (preemptible VMs) (GCP)، أو موفري GPU بدون خادم (serverless GPU providers) مثل RunPod, Modal, Salad. يتعامل مع إشعارات انقطاع Spot عن طريق ترحيل المهام إلى المثيلات المتاحة. يستخدم استراتيجية أنواع مثيلات متنوعة (diversified instance type strategy) (أنواع GPU متعددة، مناطق توفر (AZs) متعددة) لزيادة توفر Spot إلى أقصى حد.
  • نقطة التحقق والاستعادة (Checkpoint & Recovery): بالنسبة للمهام طويلة الأمد (ML training، ترميز الفيديو الكبير)، يقوم إنشاء نقاط التحقق الدورية (periodic checkpointing) بحفظ الحالة الوسيطة إلى S3. عند إخلاء Spot، يتم إعادة إدخال المهمة في قائمة الانتظار وتستأنف من آخر نقطة تحقق. بالنسبة للمهام القصيرة (أقل من 10 دقائق)، تتجاوز تكلفة إنشاء نقاط التحقق تكلفة إعادة التشغيل — لذا تقوم هذه المهام ببساطة بإعادة المحاولة من البداية.

قرارات التصميم والمفاضلات

حجم تجمع الموارد الساخنة (Warm Pool Size)
تجمع الموارد الساخنة هو مفاضلة بين التكلفة (الدفع مقابل المثيلات الخاملة) والكمون (latency) (وقت البدء البارد للمهمة الأولى). تحدد MW أحجام التجمعات الساخنة بناءً على أنماط وصول المهام: إذا وصلت المهام باستمرار خلال ساعات العمل، فإن التجمع الساخن يغطي متوسط الإنتاجية؛ ويغطي التجمع البارد فترات الذروة. إذا وصلت المهام في دفعات غير متوقعة، فإننا نحافظ على تجمع ساخن أصغر ونقبل كمون البدء البارد (cold-start latency) لمهام الدفعة الأولى بينما يوفر التجمع البارد الموارد.
مثيلات Spot مقابل GPU بدون خادم (Serverless GPU) (RunPod/Modal)
مثيلات Spot أرخص لكل ساعة (per-hour) ولكنها تتطلب منك إدارة التوفير ومعالجة الإخلاء ودورة حياة المثيل. يتعامل موفرو GPU بدون خادم (RunPod Serverless, Modal, Banana) مع التوفير ويقدمون الفواتير بالثانية (per-second billing) ولكن بمعدل أعلى لكل ثانية حوسبة (per-compute-second rate). تستخدم MW مثيلات Spot لأعباء العمل المتوقعة وطويلة الأمد (أكثر من 30 دقيقة) وتستخدم serverless GPU للمهام القصيرة والمتقطعة (أقل من 10 دقائق) حيث تهيمن تكلفة التوفير الزائدة.
عدوانية خفض السعة (Scale-Down Aggressiveness)
إذا قللت السعة بسرعة كبيرة، ستدفع عقوبات البدء البارد (cold-start penalties) عندما تصل المهمة التالية. وإذا قللت السعة ببطء شديد، ستدفع مقابل المثيلات الخاملة (idle instances). تطبق MW استراتيجية "التبريد مع الاضمحلال" (cooldown with decay): بعد إفراغ قائمة الانتظار، تظل المثيلات في حالة "ساخنة" (warm) لفترة قابلة للتكوين (افتراضياً: 10 دقائق). إذا لم تصل مهام جديدة، يتم تقليل سعة المثيلات تدريجياً (50% عند 10 دقائق، والباقي عند 30 دقيقة). فترة التبريد قابلة للضبط وتتعدل تلقائياً بناءً على إحصائيات أوقات الوصول البيني (inter-arrival time statistics).
تحسين تحميل نماذج GPU (GPU Model Loading Optimization)
بالنسبة للاستدلال في التعلم الآلي (ML inference)، غالباً ما يكون عنق الزجاجة للبدء البارد (cold-start bottleneck) هو تحميل النموذج (تنزيله من S3 + تحميله إلى ذاكرة GPU)، وليس بدء تشغيل الحاوية. تحسّن MW هذا من خلال: (أ) تضمين النماذج مسبقاً في صور الحاويات (للنماذج الصغيرة)، (ب) استخدام تخزين NVMe مشترك عبر المثيلات مع التخزين المؤقت للنماذج (للنماذج الكبيرة)، و (ج) الاحتفاظ بمثيلات تجمع الموارد الساخنة (warm pool instances) مع نماذج محملة مسبقاً في ذاكرة GPU.

الخيارات التكنولوجية

الطبقةالتقنيات
الحوسبة (Compute)AWS EC2 Spot (G5/P4), GCP Preemptible (A2/L4), RunPod Serverless, Modal
التنسيق (Orchestration)Kubernetes (Karpenter for autoscaling), AWS Batch, custom job orchestrator
قائمة انتظار المهام (Job Queue)AWS SQS, BullMQ (Redis), Temporal, Celery
التخزين (Storage)S3 (checkpoints, model artifacts), NVMe (model cache), EFS (shared workspace)
المراقبة (Monitoring)CloudWatch/Prometheus (queue depth, instance utilization, job latency), custom cost dashboards

متى تستخدم / متى تتجنب

متى تستخدممتى تتجنب
عندما يكون عبء العمل متقطعاً (bursty) — ويكون ذروة الطلب 5 أضعاف متوسط الطلب أو أكثر.عندما تكون حركة المرور ثابتة ويمكن التنبؤ بها — فالمثيلات المحجوزة بالحجم الصحيح (right-sized reserved instances) تكون أرخص.
لمهام GPU/الحوسبة العالية التي تكون مكلفة عند الخمول.عندما يكون عبء العمل معالجة خفيفة لوحدة المعالجة المركزية (CPU) تناسب البنية بدون خادم (serverless) (Lambda).
يمكن للمهام أن تتحمل بدءاً بارداً (cold start) لمدة 1-5 دقائق لتوفير تجمع الموارد الباردة (cold pool).عندما يكون الكمون المطلوب لبدء المهمة أقل من ثانية (sub-second) — فأنت بحاجة إلى بنية تحتية تعمل دائماً (always-on).
عندما يكون تحسين التكلفة هو الشغل الشاغل وتوفر أسعار Spot توفيراً بنسبة 60-90%.عندما يتسبب انقطاع Spot في فقدان البيانات لا يمكن تخفيفه بواسطة نقاط التحقق (checkpointing).

نهجنا

تصمم MW توسيعاً عند الحاجة (on-off scaling) من منظور "التكلفة لكل مهمة" (cost per job) — حيث نقوم بنمذجة التكلفة الإجمالية لمعالجة وحدة عمل واحدة (فيديو واحد، عملية تدريب واحدة، استدلال دفعي واحد) عبر استراتيجيات توسيع مختلفة، ونختار الاستراتيجية التي تقلل التكلفة عند مستوى اتفاقية الخدمة للكمون (latency SLA) المطلوب. تتضمن تطبيقاتنا لوحات معلومات تكلفة في الوقت الفعلي تعرض تكلفة كل مهمة، واستغلال البنية التحتية، ووفورات Spot. لقد قمنا ببناء بنية تحتية لـ GPU تعمل بنظام التشغيل والإيقاف (on-off) قللت تكاليف معالجة الفيديو بنسبة 70% مقارنة بالمثيلات المحجوزة، ومجموعات تدريب ML توفر 64 GPUs لتشغيل تدريب لمدة 4 ساعات وتطلقها تلقائياً.

مخططات ذات صلة

  • تنسيق مجموعات GPU لأعباء عمل AI — توفير وتنسيق GPU لتدريب ML
  • نظام مراقبة فيديو AI في الوقت الفعلي — استدلال متقطع (Burst inference) لأحداث تحليل الفيديو
  • مولد لقطات رياضية حية — معالجة فيديو مدفوعة بالحدث مع حوسبة متقطعة (burst compute)

دراسات حالة ذات صلة

  • معالجة الفيديو بنمط التشغيل والإيقاف (On-Off Pattern Video Processing) — توفير GPU مع تجمعات ساخنة/باردة لأعباء عمل ترميز الفيديو
  • منصة ترميز الفيديو — ترميز بدون خادم (Serverless) ومعتمد على Spot مع تجمعات عاملة تلقائية التوسيع (autoscaled worker pools)
Related Technologies
حلول سحابيةتطوير AI
Infrastructure

هندسة معمارية تركز على الأمن أولاً

الأمن ليس ميزة تضيفها بعد الإطلاق. إنه خاصية معمارية — إما أن النظام قد صُمم لأجلها، أو لم يُصمم.

EnterpriseView
serverless-first-architecture.webp
Infrastructure

هندسة معمارية لا خادمية أولاً (Serverless-First Architecture)

ادفع مقابل ما تستخدمه، وتوسّع إلى الصفر عندما لا تستخدمه، وتوقف عن إدارة الخوادم تمامًا — ولكن اعرف متى تتوقف الجدوى الاقتصادية.

AdvancedView

الأسئلة الشائعة

يشهد عملاء MicrocosmWorks الذين لديهم أعباء عمل كثيفة الدُفعات أو دورية عادةً تخفيضات في تكاليف السحابة تتراوح بين 60-80% بعد تطبيق on-off scaling، لأن موارد الحوسبة تعمل فقط خلال فترات المعالجة النشطة بدلاً من 24/7. نحن نصمم scaling policies بناءً على actual usage telemetry —على سبيل المثال، خط أنابيب لمعالجة البيانات يعمل لمدة 4 ساعات يومياً يدفع فقط مقابل تلك الساعات الأربع بدلاً من 24 ساعة كاملة. يحلل مهندسونا أنماط أعباء عملك خلال مرحلة الاكتشاف لتوقع المدخرات الدقيقة قبل بدء أي تنفيذ.

تتراوح أوقات البدء البارد من 2-3 ثوانٍ للتطبيقات المعبأة في حاويات على مجموعات العقد المُسخّنة مسبقًا إلى 5-10 دقائق لأحمال العمل التي تتطلب GPU instances متخصصة أو تحميل نماذج كبيرة، وتستخدم MicrocosmWorks عدة تقنيات لتقليل هذا التأخير. نحن نطبق التوسع التنبئي الذي يشغل الموارد قبل الطلب المتوقع باستخدام أنماط حركة المرور التاريخية والأحداث المجدولة، ونستخدم السحب المسبق لصور الحاويات وحجوزات التجمعات الجاهزة لأحمال العمل الحساسة للكمون. بالنسبة للتطبيقات التي لا تستطيع تحمل أي بدء بارد، نحافظ على أساس تشغيلي دافئ بحد أدنى يتوسع بسرعة كبيرة عندما يصل الطلب.

تطبق MicrocosmWorks reactive auto-scaling بسياسات aggressive scale-up تُفعّل بواسطة queue depth، أو CPU utilization، أو مقاييس تطبيق مخصصة، بالإضافة إلى سياسات gradual scale-down تتضمن cooldown periods لتجنب الـ thrashing. نقوم بتهيئة over-provisioning buffers أثناء أحداث الـ scale-up حتى يتوقع النظام نموًا مستمرًا بدلاً من مطاردة الطلب على مثيل واحد في كل مرة. بالنسبة للارتفاعات المفاجئة غير المتوقعة حقًا، مثل flash sales أو viral events، نقوم بالتزويد المسبق للقدرة باستخدام مُحفّزات تعتمد على الأحداث من تقويم التسويق أو العمليات الخاص بكم.

تقوم MicrocosmWorks بتطبيق on-off scaling على قواعد البيانات باستخدام عروض قواعد البيانات serverless مثل Aurora Serverless أو Neon أو PlanetScale التي تقوم بتوسيع نطاق compute إلى الصفر خلال فترات الخمول مع الحفاظ على storage مستمر ومتاح فورًا. بالنسبة لأعباء العمل stateful التي لا يمكنها استخدام serverless databases، نقوم بتطبيق read-replica scaling الذي يضيف ويزيل النسخ المتماثلة بناءً على حمل الاستعلام مع الإبقاء على primary instance أساسي قيد التشغيل دائمًا. يوفر هذا النهج الهجين للعملاء مزايا التكلفة للتوسع في طبقة البيانات الخاصة بهم دون تعقيد إدارة حالة قاعدة البيانات أثناء دورات الإيقاف وإعادة التشغيل.

يقوم MicrocosmWorks بنشر قابلية ملاحظة شاملة للتوسع تتتبع عدد الـ instances، وزمن استجابة أحداث التوسع، ومحاولات التوسع الفاشلة، والفجوة بين السعة المطلوبة والفعلية في الوقت الفعلي باستخدام لوحات تحكم Grafana أو Datadog. نقوم بتكوين تنبيهات متعددة القنوات لفشل التوسع، والاستخدام المرتفع المستمر الذي يشير إلى أن سقف التوسع منخفض جداً، وشذوذات التكلفة التي تدل على توسع جامح. تتضمن runbooks الخاصة بنا معالجة تلقائية لأنماط الفشل الشائعة مثل الوصول إلى حدود عدد الـ instances لمزود الخدمة السحابية أو مواجهة أخطاء عدم كفاية السعة في مناطق توفر محددة.