On-Off Scaling Architecture | System Architecture Pattern...

البنية المرجعية

يعتمد النظام على قائمة انتظار المهام (SQS, Redis, أو مخصصة) التي تخزن طلبات العمل الواردة مؤقتًا. يراقب وحدة التحكم في التحجيم عمق قائمة الانتظار ويوفر الكيانات من التجمع الدافئ أولاً، ثم من التجمع البارد (spot instances). يسحب كل كيان عامل المهام من قائمة الانتظار، وينفذ عبء العمل (الترميز، التدريب، الاستدلال)، ويبلغ عن الاكتمال، ثم يعود إلى التجمع أو ينهي عمله. يتعامل مدير نقاط التحقق مع إخلاء spot عن طريق حفظ الحالة المؤقتة في S3، مما يتيح للمهام استئناف العمل على كيان مختلف دون البدء من جديد.

المكونات الأساسية

قائمة انتظار المهام والجدولة: قائمة انتظار مهام ذات أولوية مع حدود تزامن قابلة للتكوين لكل نوع مهمة. تدعم التنفيذ المتأخر، وقوائم انتظار الرسائل الميتة (dead-letter queues) للمهام الفاشلة، ومسارات الأولوية (المهام السريعة تحصل على كيانات التجمع الدافئ، والمهام القياسية تستخدم التجمع البارد). AWS SQS, BullMQ على Redis, أو Temporal لسير العمل المعقد
مدير التجمع الدافئ: يحافظ على عدد N من الكيانات المُهيأة مسبقًا مع نماذج محملة في ذاكرة GPU، وحاويات قيد التشغيل، واجتياز فحوصات السلامة. تتغير الكيانات بين: خاملة → مخصصة → قيد المعالجة → خاملة. يمكن تكوين حجم التجمع حسب الوقت من اليوم (أكبر خلال ساعات العمل، أصغر أثناء الليل) وقابل للتعديل بناءً على أنماط الطلب التاريخية
مزود التجمع البارد: يوفر سعة إضافية من spot instances (AWS)، أو preemptible VMs (GCP)، أو موفري GPU بدون خادم (RunPod, Modal, Salad). يتعامل مع إشعارات مقاطعة spot عن طريق ترحيل المهام إلى الكيانات المتاحة. يستخدم استراتيجية أنواع كيانات متنوعة (أنواع GPU متعددة، مناطق توفر متعددة AZs) لزيادة توفر spot إلى أقصى حد
نقاط التحقق والاستعادة: للمهام طويلة الأمد (تدريب ML، ترميز الفيديو الكبير)، تقوم عملية حفظ نقاط التحقق الدورية بحفظ الحالة المؤقتة في S3. عند إخلاء spot، يتم إعادة وضع المهمة في قائمة الانتظار وتستأنف من آخر نقطة تحقق. بالنسبة للمهام القصيرة (أقل من 10 دقائق)، تتجاوز تكلفة حفظ نقاط التحقق تكلفة إعادة التشغيل — هذه المهام تعيد المحاولة من الصفر ببساطة

قرارات التصميم والمفاضلات

حجم التجمع الدافئ

يمثل التجمع الدافئ مفاضلة بين التكلفة (الدفع مقابل الكيانات الخاملة) وزمن الاستجابة (زمن البدء البارد للمهمة الأولى). تقوم MicrocosmWorks بتحديد أحجام التجمعات الدافئة بناءً على أنماط وصول المهام إلى قائمة الانتظار: إذا وصلت المهام بشكل مستمر خلال ساعات العمل، فإن التجمع الدافئ يغطي متوسط الإنتاجية؛ ويغطي التجمع البارد الذروات. إذا وصلت المهام على دفعات غير متوقعة، فإننا نحتفظ بتجمع دافئ أصغر ونقبل زمن الاستجابة الناتج عن البدء البارد للمهام الدفعية الأولى بينما يقوم التجمع البارد بالتوفير.

كيانات Spot مقابل GPU بدون خادم (RunPod/Modal)

كيانات Spot أرخص بالساعة ولكنها تتطلب منك إدارة التوفير، والتعامل مع الإخلاء، ودورة حياة الكيان. يتعامل موفرو GPU بدون خادم (RunPod Serverless, Modal, Banana) مع التوفير ويقدمون فوترة بالثانية ولكن بمعدل أعلى لكل ثانية معالجة. تستخدم MicrocosmWorks كيانات spot لأعباء العمل المتوقعة وطويلة الأمد (أكثر من 30 دقيقة) و GPU بدون خادم للمهام القصيرة والمتذبذبة (أقل من 10 دقائق) حيث ستكون تكاليف التوفير المهيمنة.

عدوانية تقليل الموارد

قلل الموارد بسرعة كبيرة وستدفع غرامات البدء البارد عند وصول المهمة التالية. قلل الموارد ببطء شديد وستدفع مقابل الكيانات الخاملة. تطبق MicrocosmWorks استراتيجية "التبريد مع الاضمحلال": بعد إفراغ قائمة الانتظار، تظل الكيانات دافئة لفترة قابلة للتكوين (الافتراضي: 10 دقائق). إذا لم تصل مهام جديدة، يتم تقليل الكيانات تدريجيًا (50% بعد 10 دقائق، والباقي بعد 30 دقيقة). فترة التبريد قابلة للضبط وتتعدل تلقائيًا بناءً على إحصائيات أوقات الوصول بين المهام.

تحسين تحميل نموذج GPU

بالنسبة للاستدلال في تعلم الآلة (ML inference)، غالبًا ما يكون عنق الزجاجة في البدء البارد هو تحميل النموذج (تنزيله من S3 + تحميله في ذاكرة GPU)، وليس بدء تشغيل الحاوية. تحسن MicrocosmWorks هذا من خلال: (أ) تضمين النماذج مسبقًا في صور الحاويات (للنماذج الصغيرة)، (ب) استخدام تخزين NVMe مشترك عبر الكيانات مع تخزين مؤقت للنماذج (للنماذج الكبيرة)، و (ج) الاحتفاظ بكيانات التجمع الدافئ مع نماذج محملة مسبقًا في ذاكرة GPU.

الخيارات التقنية

الطبقة	التقنيات
المعالجة	AWS EC2 Spot (G5/P4), GCP Preemptible (A2/L4), RunPod Serverless, Modal
التنسيق	Kubernetes (Karpenter for autoscaling), AWS Batch, custom job orchestrator
قائمة انتظار المهام	AWS SQS, BullMQ (Redis), Temporal, Celery
التخزين	S3 (checkpoints, model artifacts), NVMe (model cache), EFS (shared workspace)
المراقبة	CloudWatch/Prometheus (queue depth, instance utilization, job latency), custom cost dashboards

متى تستخدم / متى تتجنب

استخدم عندما	تجنب عندما
عبء العمل متقطع — الطلب في الذروة يزيد بمقدار 5 أضعاف أو أكثر عن متوسط الطلب	حركة المرور ثابتة ويمكن التنبؤ بها — الكيانات المحجوزة بالحجم المناسب أرخص
مهام GPU/المعالجة عالية الكثافة التي تكون مكلفة عند الخمول	عبء العمل هو معالجة CPU خفيفة تناسب الخدمات بدون خادم (Lambda)
يمكن للمهام أن تتحمل بدءًا باردًا من 1-5 دقائق لتوفير التجمع البارد	مطلوب زمن استجابة بدء مهمة أقل من الثانية — أنت بحاجة إلى بنية تحتية تعمل دائمًا
تحسين التكلفة هو الشغل الشاغل وتوفر تسعيرة spot توفيرًا بنسبة 60-90%	مقاطعة spot ستؤدي إلى فقدان البيانات التي لا يمكن لنقاط التحقق التخفيف من حدتها

الأسئلة الشائعة

عملاء MicrocosmWorks الذين لديهم "batch-heavy" أو "periodic workloads" يرون عادةً تخفيضات في "cloud cost" بنسبة 60-80% بعد تطبيق "on-off scaling"، لأن "compute resources" تعمل فقط خلال فترات المعالجة النشطة بدلاً من 24/7. نقوم بتصميم "scaling policies" بناءً على بيانات الاستخدام الفعلية ("actual usage telemetry") — على سبيل المثال، "data processing pipeline" يعمل لمدة 4 ساعات يومياً يدفع تكلفة تلك الساعات الأربع فقط بدلاً من 24 ساعة كاملة. يحلل "architects" لدينا أنماط "workload" الخاصة بك خلال "discovery phase" لتوقع التوفيرات الدقيقة قبل بدء أي "implementation".

Cold-start times vary from 2-3 seconds for containerized applications on pre-warmed node pools to 5-10 minutes for workloads requiring specialized GPU instances or large model loading, and MicrocosmWorks uses several techniques to minimize this delay. We implement predictive scaling that spins up resources before anticipated demand using historical traffic patterns and scheduled events, and we use container image pre-pulling and warm pool reservations for latency-sensitive workloads. For applications that cannot tolerate any cold start, we maintain a minimal warm baseline that scales up aggressively when demand arrives.

MicrocosmWorks implements reactive auto-scaling with aggressive scale-up policies triggered by queue depth, CPU utilization, or custom application metrics, combined with more gradual scale-down policies that include cooldown periods to avoid thrashing. We configure over-provisioning buffers during scale-up events so the system anticipates continued growth rather than chasing demand one instance at a time. For truly unpredictable spikes like flash sales or viral events, we pre-provision capacity using event-driven triggers from your marketing or operations calendar.

MicrocosmWorks applies on-off scaling to databases using serverless database offerings like Aurora Serverless, Neon, or PlanetScale that scale compute to zero during idle periods while keeping storage persistent and instantly available. For stateful workloads that cannot use serverless databases, we implement read-replica scaling that adds and removes replicas based on query load while keeping a minimal primary instance always running. This hybrid approach gives clients the cost benefits of scaling for their data tier without the complexity of managing database state during shutdown and restart cycles.

MicrocosmWorks deploys comprehensive scaling observability that tracks instance counts, scaling event latency, failed scaling attempts, and the gap between desired and actual capacity in real time using Grafana or Datadog dashboards. We configure multi-channel alerts for scaling failures, sustained high utilization that suggests the scaling ceiling is too low, and cost anomalies that indicate runaway scaling. Our runbooks include automated remediation for common failure modes like hitting cloud provider instance limits or encountering insufficient capacity errors in specific availability zones.

معمارية التحجيم بالتشغيل والإيقاف

متى تحتاج هذا

هل تحتاج إلى مساعدة في تنفيذ هذه العمارة؟

نظرة عامة على النمط

البنية المرجعية

قرارات التصميم والمفاضلات

الخيارات التقنية

متى تستخدم / متى تتجنب

نهجنا

المخططات ذات الصلة

دراسات حالة ذات صلة

الأسئلة الشائعة