On-Off Scaling Architecture | System Architecture Pattern... | MicrocosmWorks

InfrastructureAdvanced

هندسة التوسيع عند الحاجة (On-Off Scaling)

لا تدفع مقابل وحدات معالجة الرسوميات (GPUs) الخاملة. وفر قوة حوسبة فورية (just-in-time)، عالج عبء العمل، ثم قم بتفكيكها — محولاً النفقات الرأسمالية إلى تكلفة تشغيل لكل وظيفة.

June 22, 2026

2 topics covered

ناقش هذه العمارة

Infrastructure

متى تحتاج إلى هذا

عبء عملك متقطع (burtsy) — مثل مهام ترميز الفيديو (video encoding) التي تزداد بشكل مفاجئ عند تحميل المحتوى، أو عمليات تدريب ML التي تتطلب 8 GPUs لمدة 4 ساعات ثم لا شيء بعدها، أو مهام الاستدلال الدفعي (batch inference) التي يتم تشغيلها بواسطة أحداث الأعمال، أو مسارات عمل العرض (rendering pipelines) التي تعمل طوال الليل. في هذه الحالات، إما أن تكون مواردك زائدة عن الحاجة (over-provisioned) (تدفع مقابل موارد خاملة 80% من الوقت) أو أنها غير كافية (under-provisioned) (تنتظر المهام في قائمة الانتظار لساعات خلال فترات الذروة). أنت بحاجة إلى هندسة معمارية توفر قوة الحوسبة التي تحتاجها بالضبط، عندما تحتاجها، وتطلقها عند اكتمال المهمة — دون عقوبة "البدء البارد" (cold-start penalty) التي تجعل "التوسع إلى الصفر" (scale to zero) غير عملي لأعباء عمل GPU.

Related Architecture Patterns

Explore more design patterns and system architectures

Infrastructure

البنية التحتية السحابية الأصلية

بنية تحتية تتم إدارتها بالإصدارات، واختبارها، ونشرها كرمز التطبيق تمامًا — لأن موثوقية منصتك لا تزيد عن موثوقية ما تقوم عليه.

EnterpriseView

هل تحتاج إلى مساعدة في تنفيذ هذه العمارة؟

يمكن لفريق معماري لدينا مساعدتك في تصميم وبناء الأنظمة باستخدام هذا النمط لمتطلباتك المحددة.

تواصل معنا

هندسة معمارية مرجعية

يرتكز النظام على قائمة انتظار المهام (job queue) (SQS, Redis، أو مخصص) التي تقوم بتخزين طلبات العمل الواردة مؤقتاً. يقوم وحدة تحكم التوسيع (scaling controller) بمراقبة عمق قائمة الانتظار وتوفير المثيلات من تجمع الموارد الساخنة (warm pool) أولاً، ثم من تجمع الموارد الباردة (cold pool) (مثيلات Spot). يسحب كل مثيل عامل (worker instance) المهام من قائمة الانتظار، وينفذ عبء العمل (الترميز، التدريب، الاستدلال)، ويبلغ عن اكتماله، ثم يعود إلى التجمع أو يتم إنهاؤه. يتعامل مدير نقطة التحقق (checkpoint manager) مع إخلاء Spot عن طريق حفظ الحالة الوسيطة إلى S3، مما يتيح للمهام استئناف العمل على مثيل مختلف دون البدء من جديد.

المكونات الأساسية

قائمة انتظار وجدولة المهام (Job Queue & Scheduler): قائمة انتظار مهام ذات أولوية مع حدود تزامن قابلة للتكوين لكل نوع مهمة. تدعم التنفيذ المؤجل، وقوائم انتظار الرسائل غير الصالحة (dead-letter queues) للمهام الفاشلة، ومسارات الأولوية (المهام السريعة تحصل على مثيلات تجمع الموارد الساخنة (warm pool instances)، والمهام القياسية تستخدم تجمع الموارد الباردة (cold pool)). AWS SQS، BullMQ على Redis، أو Temporal لسير العمل المعقد.
مدير تجمع الموارد الساخنة (Warm Pool Manager): يحتفظ بـ N من المثيلات المهيأة مسبقاً (pre-initialized instances) مع نماذج محملة في ذاكرة GPU، وحاويات قيد التشغيل، واجتياز فحوصات الصحة (health checks). تتناوب المثيلات بين: خاملة (idle) ← مخصصة (assigned) ← معالجة (processing) ← خاملة (idle). حجم التجمع قابل للتكوين حسب الوقت من اليوم (أكبر خلال ساعات العمل، أصغر ليلاً) وقابل للتعديل بناءً على أنماط الطلب التاريخية.
مزود تجمع الموارد الباردة (Cold Pool Provisioner): يوفر سعة إضافية من مثيلات Spot (AWS)، أو الأجهزة الافتراضية القابلة للإيقاف المؤقت (preemptible VMs) (GCP)، أو موفري GPU بدون خادم (serverless GPU providers) مثل RunPod, Modal, Salad. يتعامل مع إشعارات انقطاع Spot عن طريق ترحيل المهام إلى المثيلات المتاحة. يستخدم استراتيجية أنواع مثيلات متنوعة (diversified instance type strategy) (أنواع GPU متعددة، مناطق توفر (AZs) متعددة) لزيادة توفر Spot إلى أقصى حد.
نقطة التحقق والاستعادة (Checkpoint & Recovery): بالنسبة للمهام طويلة الأمد (ML training، ترميز الفيديو الكبير)، يقوم إنشاء نقاط التحقق الدورية (periodic checkpointing) بحفظ الحالة الوسيطة إلى S3. عند إخلاء Spot، يتم إعادة إدخال المهمة في قائمة الانتظار وتستأنف من آخر نقطة تحقق. بالنسبة للمهام القصيرة (أقل من 10 دقائق)، تتجاوز تكلفة إنشاء نقاط التحقق تكلفة إعادة التشغيل — لذا تقوم هذه المهام ببساطة بإعادة المحاولة من البداية.

قرارات التصميم والمفاضلات

حجم تجمع الموارد الساخنة (Warm Pool Size)

تجمع الموارد الساخنة هو مفاضلة بين التكلفة (الدفع مقابل المثيلات الخاملة) والكمون (latency) (وقت البدء البارد للمهمة الأولى). تحدد MW أحجام التجمعات الساخنة بناءً على أنماط وصول المهام: إذا وصلت المهام باستمرار خلال ساعات العمل، فإن التجمع الساخن يغطي متوسط الإنتاجية؛ ويغطي التجمع البارد فترات الذروة. إذا وصلت المهام في دفعات غير متوقعة، فإننا نحافظ على تجمع ساخن أصغر ونقبل كمون البدء البارد (cold-start latency) لمهام الدفعة الأولى بينما يوفر التجمع البارد الموارد.

مثيلات Spot مقابل GPU بدون خادم (Serverless GPU) (RunPod/Modal)

مثيلات Spot أرخص لكل ساعة (per-hour) ولكنها تتطلب منك إدارة التوفير ومعالجة الإخلاء ودورة حياة المثيل. يتعامل موفرو GPU بدون خادم (RunPod Serverless, Modal, Banana) مع التوفير ويقدمون الفواتير بالثانية (per-second billing) ولكن بمعدل أعلى لكل ثانية حوسبة (per-compute-second rate). تستخدم MW مثيلات Spot لأعباء العمل المتوقعة وطويلة الأمد (أكثر من 30 دقيقة) وتستخدم serverless GPU للمهام القصيرة والمتقطعة (أقل من 10 دقائق) حيث تهيمن تكلفة التوفير الزائدة.

عدوانية خفض السعة (Scale-Down Aggressiveness)

إذا قللت السعة بسرعة كبيرة، ستدفع عقوبات البدء البارد (cold-start penalties) عندما تصل المهمة التالية. وإذا قللت السعة ببطء شديد، ستدفع مقابل المثيلات الخاملة (idle instances). تطبق MW استراتيجية "التبريد مع الاضمحلال" (cooldown with decay): بعد إفراغ قائمة الانتظار، تظل المثيلات في حالة "ساخنة" (warm) لفترة قابلة للتكوين (افتراضياً: 10 دقائق). إذا لم تصل مهام جديدة، يتم تقليل سعة المثيلات تدريجياً (50% عند 10 دقائق، والباقي عند 30 دقيقة). فترة التبريد قابلة للضبط وتتعدل تلقائياً بناءً على إحصائيات أوقات الوصول البيني (inter-arrival time statistics).

تحسين تحميل نماذج GPU (GPU Model Loading Optimization)

بالنسبة للاستدلال في التعلم الآلي (ML inference)، غالباً ما يكون عنق الزجاجة للبدء البارد (cold-start bottleneck) هو تحميل النموذج (تنزيله من S3 + تحميله إلى ذاكرة GPU)، وليس بدء تشغيل الحاوية. تحسّن MW هذا من خلال: (أ) تضمين النماذج مسبقاً في صور الحاويات (للنماذج الصغيرة)، (ب) استخدام تخزين NVMe مشترك عبر المثيلات مع التخزين المؤقت للنماذج (للنماذج الكبيرة)، و (ج) الاحتفاظ بمثيلات تجمع الموارد الساخنة (warm pool instances) مع نماذج محملة مسبقاً في ذاكرة GPU.

الخيارات التكنولوجية

الطبقة	التقنيات
الحوسبة (Compute)	AWS EC2 Spot (G5/P4), GCP Preemptible (A2/L4), RunPod Serverless, Modal
التنسيق (Orchestration)	Kubernetes (Karpenter for autoscaling), AWS Batch, custom job orchestrator
قائمة انتظار المهام (Job Queue)	AWS SQS, BullMQ (Redis), Temporal, Celery
التخزين (Storage)	S3 (checkpoints, model artifacts), NVMe (model cache), EFS (shared workspace)
المراقبة (Monitoring)	CloudWatch/Prometheus (queue depth, instance utilization, job latency), custom cost dashboards

متى تستخدم / متى تتجنب

متى تستخدم	متى تتجنب
عندما يكون عبء العمل متقطعاً (bursty) — ويكون ذروة الطلب 5 أضعاف متوسط الطلب أو أكثر.	عندما تكون حركة المرور ثابتة ويمكن التنبؤ بها — فالمثيلات المحجوزة بالحجم الصحيح (right-sized reserved instances) تكون أرخص.
لمهام GPU/الحوسبة العالية التي تكون مكلفة عند الخمول.	عندما يكون عبء العمل معالجة خفيفة لوحدة المعالجة المركزية (CPU) تناسب البنية بدون خادم (serverless) (Lambda).
يمكن للمهام أن تتحمل بدءاً بارداً (cold start) لمدة 1-5 دقائق لتوفير تجمع الموارد الباردة (cold pool).	عندما يكون الكمون المطلوب لبدء المهمة أقل من ثانية (sub-second) — فأنت بحاجة إلى بنية تحتية تعمل دائماً (always-on).
عندما يكون تحسين التكلفة هو الشغل الشاغل وتوفر أسعار Spot توفيراً بنسبة 60-90%.	عندما يتسبب انقطاع Spot في فقدان البيانات لا يمكن تخفيفه بواسطة نقاط التحقق (checkpointing).

الأسئلة الشائعة

يشهد عملاء MicrocosmWorks الذين لديهم أعباء عمل كثيفة الدُفعات أو دورية عادةً تخفيضات في تكاليف السحابة تتراوح بين 60-80% بعد تطبيق on-off scaling، لأن موارد الحوسبة تعمل فقط خلال فترات المعالجة النشطة بدلاً من 24/7. نحن نصمم scaling policies بناءً على actual usage telemetry —على سبيل المثال، خط أنابيب لمعالجة البيانات يعمل لمدة 4 ساعات يومياً يدفع فقط مقابل تلك الساعات الأربع بدلاً من 24 ساعة كاملة. يحلل مهندسونا أنماط أعباء عملك خلال مرحلة الاكتشاف لتوقع المدخرات الدقيقة قبل بدء أي تنفيذ.

تتراوح أوقات البدء البارد من 2-3 ثوانٍ للتطبيقات المعبأة في حاويات على مجموعات العقد المُسخّنة مسبقًا إلى 5-10 دقائق لأحمال العمل التي تتطلب GPU instances متخصصة أو تحميل نماذج كبيرة، وتستخدم MicrocosmWorks عدة تقنيات لتقليل هذا التأخير. نحن نطبق التوسع التنبئي الذي يشغل الموارد قبل الطلب المتوقع باستخدام أنماط حركة المرور التاريخية والأحداث المجدولة، ونستخدم السحب المسبق لصور الحاويات وحجوزات التجمعات الجاهزة لأحمال العمل الحساسة للكمون. بالنسبة للتطبيقات التي لا تستطيع تحمل أي بدء بارد، نحافظ على أساس تشغيلي دافئ بحد أدنى يتوسع بسرعة كبيرة عندما يصل الطلب.

تطبق MicrocosmWorks reactive auto-scaling بسياسات aggressive scale-up تُفعّل بواسطة queue depth، أو CPU utilization، أو مقاييس تطبيق مخصصة، بالإضافة إلى سياسات gradual scale-down تتضمن cooldown periods لتجنب الـ thrashing. نقوم بتهيئة over-provisioning buffers أثناء أحداث الـ scale-up حتى يتوقع النظام نموًا مستمرًا بدلاً من مطاردة الطلب على مثيل واحد في كل مرة. بالنسبة للارتفاعات المفاجئة غير المتوقعة حقًا، مثل flash sales أو viral events، نقوم بالتزويد المسبق للقدرة باستخدام مُحفّزات تعتمد على الأحداث من تقويم التسويق أو العمليات الخاص بكم.

تقوم MicrocosmWorks بتطبيق on-off scaling على قواعد البيانات باستخدام عروض قواعد البيانات serverless مثل Aurora Serverless أو Neon أو PlanetScale التي تقوم بتوسيع نطاق compute إلى الصفر خلال فترات الخمول مع الحفاظ على storage مستمر ومتاح فورًا. بالنسبة لأعباء العمل stateful التي لا يمكنها استخدام serverless databases، نقوم بتطبيق read-replica scaling الذي يضيف ويزيل النسخ المتماثلة بناءً على حمل الاستعلام مع الإبقاء على primary instance أساسي قيد التشغيل دائمًا. يوفر هذا النهج الهجين للعملاء مزايا التكلفة للتوسع في طبقة البيانات الخاصة بهم دون تعقيد إدارة حالة قاعدة البيانات أثناء دورات الإيقاف وإعادة التشغيل.

يقوم MicrocosmWorks بنشر قابلية ملاحظة شاملة للتوسع تتتبع عدد الـ instances، وزمن استجابة أحداث التوسع، ومحاولات التوسع الفاشلة، والفجوة بين السعة المطلوبة والفعلية في الوقت الفعلي باستخدام لوحات تحكم Grafana أو Datadog. نقوم بتكوين تنبيهات متعددة القنوات لفشل التوسع، والاستخدام المرتفع المستمر الذي يشير إلى أن سقف التوسع منخفض جداً، وشذوذات التكلفة التي تدل على توسع جامح. تتضمن runbooks الخاصة بنا معالجة تلقائية لأنماط الفشل الشائعة مثل الوصول إلى حدود عدد الـ instances لمزود الخدمة السحابية أو مواجهة أخطاء عدم كفاية السعة في مناطق توفر محددة.

هندسة التوسيع عند الحاجة (On-Off Scaling)

متى تحتاج إلى هذا

Related Architecture Patterns

البنية التحتية السحابية الأصلية

هل تحتاج إلى مساعدة في تنفيذ هذه العمارة؟

نظرة عامة على النمط

هندسة معمارية مرجعية

قرارات التصميم والمفاضلات

الخيارات التكنولوجية

متى تستخدم / متى تتجنب

نهجنا

مخططات ذات صلة

دراسات حالة ذات صلة

هندسة معمارية تركز على الأمن أولاً

هندسة معمارية لا خادمية أولاً (Serverless-First Architecture)

الأسئلة الشائعة