MicrocosmWorksابتكار وتصميم الكون الرقمي
من نحناتصل بنا
MicrocosmWorksابتكار وتصميم الكون الرقمي

نقدم حلول تقنية المعلومات المهمة. نحن شغوفون بالتقنية والأمان ومساعدة الشركات على النمو من خلال بنية تحتية موثوقة ومبتكرة لتقنية المعلومات.

[email protected]
+91 7011868196
New Delhi, India

مركز نمو AI

مركز AIابتكار الشركات الناشئةمسرّع المؤسسات

الحلول

جميع الحلولتطبيقات الصحة واللياقةمنصة فيديو AIتطوير وكلاء AI

الموارد

رؤىأدلة القطاعاتمخططات حالات الاستخدامأنماط المعماريةدراسات الحالة

الشركة

من نحناتصل بناأعمالنا

الخدمات

الاستشارات الرقميةالبنية التحتية السحابيةتطوير SaaSتطوير AIتقنية الفيديو
تطوير ERPتخصيص Zohoتطوير Odooتكامل Salesforceتطوير CRM مخصص
تكامل QuickBooksحلول IoTتطوير بلوكتشين
استشارات الأمن السيبرانيالدعم التقني - L3

© 2026 MicrocosmWorks. جميع الحقوق محفوظة.

سياسة الخصوصيةشروط الخدمة
العودة إلى أنماط العمارة
InfrastructureAdvanced

معمارية التحجيم بالتشغيل والإيقاف

لا تدفع مقابل وحدات GPU الخاملة. وفّر الموارد الحسابية في الوقت المناسب تمامًا، عالج عبء العمل، ثم أوقفها — محولًا النفقات الرأسمالية إلى تكلفة تشغيلية لكل مهمة.

June 18, 2026
|
2 topics covered
ناقش هذه العمارة
on-off-scaling-architecture.webp
Infrastructure
Category
Advanced
Complexity
AI/ML, الإعلام والترفيه
Industries
2+
Technologies

متى تحتاج هذا

عبء عملك متقطع — مهام ترميز الفيديو التي ترتفع بشكل حاد عند تحميل المحتوى، عمليات تدريب ML التي تحتاج 8 وحدات GPU لمدة 4 ساعات ثم لا شيء، مهام الاستدلال الدفعية التي تُشغل بواسطة أحداث الأعمال، أو خطوط أنابيب العرض التي تعمل طوال الليل. أنت إما مفرط التوفير للموارد (تدفع مقابل موارد خاملة 80% من الوقت) أو ناقص التوفير (تتراكم المهام في قائمة الانتظار لساعات خلال الذروات). أنت بحاجة إلى معمارية توفر بالضبط الموارد الحسابية التي تحتاجها، عندما تحتاجها، وتحررها عند اكتمال المهمة — دون عقوبة البدء البارد التي تجعل "التحجيم إلى الصفر" غير عملي لأعباء عمل GPU.

هل تحتاج إلى مساعدة في تنفيذ هذه العمارة؟

يمكن لفريق معماري لدينا مساعدتك في تصميم وبناء الأنظمة باستخدام هذا النمط لمتطلباتك المحددة.

تواصل معنا

نظرة عامة على النمط

تدير معمارية التحجيم بالتشغيل والإيقاف موارد المعالجة من خلال التجميع الدافئ/البارد، وتوفير الموارد المدفوع بقائمة انتظار المهام، والإيقاف التلقائي. يحافظ التجمع الدافئ على عدد صغير من الكيانات المُهيأة مسبقًا والجاهزة للاستخدام الفوري. يوفر التجمع البارد سعة إضافية من كيانات spot/preemptible عندما يتجاوز الطلب سعة التجمع الدافئ. يقوم منظم المهام بتوجيه العمل إلى الكيانات المتاحة، ويراقب التقدم، ويتعامل مع عمليات إعادة المحاولة عند إخلاء spot، ويُشغل عملية تقليل الموارد عندما تفرغ قائمة الانتظار. يُعد هذا النمط حرجًا بشكل خاص لأعباء عمل GPU حيث يمكن أن يستغرق البدء البارد (سحب الحاوية + تحميل النموذج) من 3 إلى 10 دقائق.

البنية المرجعية

يعتمد النظام على قائمة انتظار المهام (SQS, Redis, أو مخصصة) التي تخزن طلبات العمل الواردة مؤقتًا. يراقب وحدة التحكم في التحجيم عمق قائمة الانتظار ويوفر الكيانات من التجمع الدافئ أولاً، ثم من التجمع البارد (spot instances). يسحب كل كيان عامل المهام من قائمة الانتظار، وينفذ عبء العمل (الترميز، التدريب، الاستدلال)، ويبلغ عن الاكتمال، ثم يعود إلى التجمع أو ينهي عمله. يتعامل مدير نقاط التحقق مع إخلاء spot عن طريق حفظ الحالة المؤقتة في S3، مما يتيح للمهام استئناف العمل على كيان مختلف دون البدء من جديد.

المكونات الأساسية
  • قائمة انتظار المهام والجدولة: قائمة انتظار مهام ذات أولوية مع حدود تزامن قابلة للتكوين لكل نوع مهمة. تدعم التنفيذ المتأخر، وقوائم انتظار الرسائل الميتة (dead-letter queues) للمهام الفاشلة، ومسارات الأولوية (المهام السريعة تحصل على كيانات التجمع الدافئ، والمهام القياسية تستخدم التجمع البارد). AWS SQS, BullMQ على Redis, أو Temporal لسير العمل المعقد
  • مدير التجمع الدافئ: يحافظ على عدد N من الكيانات المُهيأة مسبقًا مع نماذج محملة في ذاكرة GPU، وحاويات قيد التشغيل، واجتياز فحوصات السلامة. تتغير الكيانات بين: خاملة → مخصصة → قيد المعالجة → خاملة. يمكن تكوين حجم التجمع حسب الوقت من اليوم (أكبر خلال ساعات العمل، أصغر أثناء الليل) وقابل للتعديل بناءً على أنماط الطلب التاريخية
  • مزود التجمع البارد: يوفر سعة إضافية من spot instances (AWS)، أو preemptible VMs (GCP)، أو موفري GPU بدون خادم (RunPod, Modal, Salad). يتعامل مع إشعارات مقاطعة spot عن طريق ترحيل المهام إلى الكيانات المتاحة. يستخدم استراتيجية أنواع كيانات متنوعة (أنواع GPU متعددة، مناطق توفر متعددة AZs) لزيادة توفر spot إلى أقصى حد
  • نقاط التحقق والاستعادة: للمهام طويلة الأمد (تدريب ML، ترميز الفيديو الكبير)، تقوم عملية حفظ نقاط التحقق الدورية بحفظ الحالة المؤقتة في S3. عند إخلاء spot، يتم إعادة وضع المهمة في قائمة الانتظار وتستأنف من آخر نقطة تحقق. بالنسبة للمهام القصيرة (أقل من 10 دقائق)، تتجاوز تكلفة حفظ نقاط التحقق تكلفة إعادة التشغيل — هذه المهام تعيد المحاولة من الصفر ببساطة

قرارات التصميم والمفاضلات

حجم التجمع الدافئ
يمثل التجمع الدافئ مفاضلة بين التكلفة (الدفع مقابل الكيانات الخاملة) وزمن الاستجابة (زمن البدء البارد للمهمة الأولى). تقوم MicrocosmWorks بتحديد أحجام التجمعات الدافئة بناءً على أنماط وصول المهام إلى قائمة الانتظار: إذا وصلت المهام بشكل مستمر خلال ساعات العمل، فإن التجمع الدافئ يغطي متوسط الإنتاجية؛ ويغطي التجمع البارد الذروات. إذا وصلت المهام على دفعات غير متوقعة، فإننا نحتفظ بتجمع دافئ أصغر ونقبل زمن الاستجابة الناتج عن البدء البارد للمهام الدفعية الأولى بينما يقوم التجمع البارد بالتوفير.
كيانات Spot مقابل GPU بدون خادم (RunPod/Modal)
كيانات Spot أرخص بالساعة ولكنها تتطلب منك إدارة التوفير، والتعامل مع الإخلاء، ودورة حياة الكيان. يتعامل موفرو GPU بدون خادم (RunPod Serverless, Modal, Banana) مع التوفير ويقدمون فوترة بالثانية ولكن بمعدل أعلى لكل ثانية معالجة. تستخدم MicrocosmWorks كيانات spot لأعباء العمل المتوقعة وطويلة الأمد (أكثر من 30 دقيقة) و GPU بدون خادم للمهام القصيرة والمتذبذبة (أقل من 10 دقائق) حيث ستكون تكاليف التوفير المهيمنة.
عدوانية تقليل الموارد
قلل الموارد بسرعة كبيرة وستدفع غرامات البدء البارد عند وصول المهمة التالية. قلل الموارد ببطء شديد وستدفع مقابل الكيانات الخاملة. تطبق MicrocosmWorks استراتيجية "التبريد مع الاضمحلال": بعد إفراغ قائمة الانتظار، تظل الكيانات دافئة لفترة قابلة للتكوين (الافتراضي: 10 دقائق). إذا لم تصل مهام جديدة، يتم تقليل الكيانات تدريجيًا (50% بعد 10 دقائق، والباقي بعد 30 دقيقة). فترة التبريد قابلة للضبط وتتعدل تلقائيًا بناءً على إحصائيات أوقات الوصول بين المهام.
تحسين تحميل نموذج GPU
بالنسبة للاستدلال في تعلم الآلة (ML inference)، غالبًا ما يكون عنق الزجاجة في البدء البارد هو تحميل النموذج (تنزيله من S3 + تحميله في ذاكرة GPU)، وليس بدء تشغيل الحاوية. تحسن MicrocosmWorks هذا من خلال: (أ) تضمين النماذج مسبقًا في صور الحاويات (للنماذج الصغيرة)، (ب) استخدام تخزين NVMe مشترك عبر الكيانات مع تخزين مؤقت للنماذج (للنماذج الكبيرة)، و (ج) الاحتفاظ بكيانات التجمع الدافئ مع نماذج محملة مسبقًا في ذاكرة GPU.

الخيارات التقنية

الطبقةالتقنيات
المعالجةAWS EC2 Spot (G5/P4), GCP Preemptible (A2/L4), RunPod Serverless, Modal
التنسيقKubernetes (Karpenter for autoscaling), AWS Batch, custom job orchestrator
قائمة انتظار المهامAWS SQS, BullMQ (Redis), Temporal, Celery
التخزينS3 (checkpoints, model artifacts), NVMe (model cache), EFS (shared workspace)
المراقبةCloudWatch/Prometheus (queue depth, instance utilization, job latency), custom cost dashboards

متى تستخدم / متى تتجنب

استخدم عندماتجنب عندما
عبء العمل متقطع — الطلب في الذروة يزيد بمقدار 5 أضعاف أو أكثر عن متوسط الطلبحركة المرور ثابتة ويمكن التنبؤ بها — الكيانات المحجوزة بالحجم المناسب أرخص
مهام GPU/المعالجة عالية الكثافة التي تكون مكلفة عند الخمولعبء العمل هو معالجة CPU خفيفة تناسب الخدمات بدون خادم (Lambda)
يمكن للمهام أن تتحمل بدءًا باردًا من 1-5 دقائق لتوفير التجمع الباردمطلوب زمن استجابة بدء مهمة أقل من الثانية — أنت بحاجة إلى بنية تحتية تعمل دائمًا
تحسين التكلفة هو الشغل الشاغل وتوفر تسعيرة spot توفيرًا بنسبة 60-90%مقاطعة spot ستؤدي إلى فقدان البيانات التي لا يمكن لنقاط التحقق التخفيف من حدتها

نهجنا

تصمم MicrocosmWorks التحجيم بالتشغيل والإيقاف من منظور "التكلفة لكل مهمة" — نقوم بنمذجة التكلفة الإجمالية لمعالجة وحدة عمل واحدة (فيديو واحد، تشغيل تدريب واحد، استدلال دفعي واحد) عبر استراتيجيات توسع مختلفة ونختار تلك التي تقلل التكلفة عند SLA الاستجابة المطلوب. تتضمن تطبيقاتنا لوحات معلومات تكلفة في الوقت الفعلي تعرض التكلفة لكل مهمة، واستخدام البنية التحتية، وتوفيرات spot. لقد قمنا ببناء بنية تحتية GPU للتشغيل والإيقاف قللت تكاليف معالجة الفيديو بنسبة 70% مقارنة بالكيانات المحجوزة، ومجموعات تدريب ML توفر 64 وحدة GPU لتشغيل تدريب لمدة 4 ساعات وتحررها تلقائيًا.

المخططات ذات الصلة

  • تنسيق مجموعات GPU لأعباء عمل AI — توفير وتنسيق GPU لتدريب ML
  • نظام مراقبة الفيديو بالذكاء الاصطناعي في الوقت الفعلي — الاستدلال المتقطع لأحداث تحليل الفيديو
  • مولد أبرز لقطات الرياضة الحية — معالجة الفيديو المدفوعة بالأحداث مع قوة معالجة متقطعة

دراسات حالة ذات صلة

  • معالجة الفيديو بنمط التشغيل والإيقاف — توفير GPU مع تجمعات دافئة/باردة لأعباء عمل ترميز الفيديو
  • منصة ترميز الفيديو — ترميز بدون خادم ومستند إلى spot مع تجمعات عاملة ذات تحجيم تلقائي
Related Technologies
حلول سحابيةتطوير AI

الأسئلة الشائعة

عملاء MicrocosmWorks الذين لديهم "batch-heavy" أو "periodic workloads" يرون عادةً تخفيضات في "cloud cost" بنسبة 60-80% بعد تطبيق "on-off scaling"، لأن "compute resources" تعمل فقط خلال فترات المعالجة النشطة بدلاً من 24/7. نقوم بتصميم "scaling policies" بناءً على بيانات الاستخدام الفعلية ("actual usage telemetry") — على سبيل المثال، "data processing pipeline" يعمل لمدة 4 ساعات يومياً يدفع تكلفة تلك الساعات الأربع فقط بدلاً من 24 ساعة كاملة. يحلل "architects" لدينا أنماط "workload" الخاصة بك خلال "discovery phase" لتوقع التوفيرات الدقيقة قبل بدء أي "implementation".

Cold-start times vary from 2-3 seconds for containerized applications on pre-warmed node pools to 5-10 minutes for workloads requiring specialized GPU instances or large model loading, and MicrocosmWorks uses several techniques to minimize this delay. We implement predictive scaling that spins up resources before anticipated demand using historical traffic patterns and scheduled events, and we use container image pre-pulling and warm pool reservations for latency-sensitive workloads. For applications that cannot tolerate any cold start, we maintain a minimal warm baseline that scales up aggressively when demand arrives.

MicrocosmWorks implements reactive auto-scaling with aggressive scale-up policies triggered by queue depth, CPU utilization, or custom application metrics, combined with more gradual scale-down policies that include cooldown periods to avoid thrashing. We configure over-provisioning buffers during scale-up events so the system anticipates continued growth rather than chasing demand one instance at a time. For truly unpredictable spikes like flash sales or viral events, we pre-provision capacity using event-driven triggers from your marketing or operations calendar.

MicrocosmWorks applies on-off scaling to databases using serverless database offerings like Aurora Serverless, Neon, or PlanetScale that scale compute to zero during idle periods while keeping storage persistent and instantly available. For stateful workloads that cannot use serverless databases, we implement read-replica scaling that adds and removes replicas based on query load while keeping a minimal primary instance always running. This hybrid approach gives clients the cost benefits of scaling for their data tier without the complexity of managing database state during shutdown and restart cycles.

MicrocosmWorks deploys comprehensive scaling observability that tracks instance counts, scaling event latency, failed scaling attempts, and the gap between desired and actual capacity in real time using Grafana or Datadog dashboards. We configure multi-channel alerts for scaling failures, sustained high utilization that suggests the scaling ceiling is too low, and cost anomalies that indicate runaway scaling. Our runbooks include automated remediation for common failure modes like hitting cloud provider instance limits or encountering insufficient capacity errors in specific availability zones.