نمط التحجيم المتذبذب (تشغيل-إيقاف) لأعباء عمل AI ومعالجة الفيديو
احتاجت منصة لمعالجة الفيديو مدعومة بـ AI إلى التعامل مع أعباء عمل متغيرة للغاية — من صفر مهمة خلال ساعات عدم الذروة إلى مئات مهام معالجة الفيديو واستنتاج AI المتزامنة خلال أوقات الذروة — دون دفع تكاليف موارد GPU والحوسبة الخاملة.
ناقش مشروعك
التحدي
تتسم أعباء عمل AI ومعالجة الفيديو بطبيعتها بأنها متقطعة ومكلفة:
- تُعد مثيلات GPU باهظة التكلفة سواء كانت تعالج المهام أو كانت خاملة
- يتطلب ترميز الفيديو، والنسخ، واستنتاج AI ملفات تعريف موارد مختلفة
- كانت نسبة الذروة إلى الانحدار 50:1 — أكثر من 200 مهمة خلال الذروة، وشبه صفرية خلال الليل
- كان التحجيم التلقائي التقليدي بطيئًا جدًا (وقت بدء تشغيل بارد من 5-10 دقائق) لطلبات المستخدمين الحساسة للوقت
- البنية التحتية الثابتة المخصصة للذروة كانت تعني إهدارًا بنسبة تزيد عن 80% خلال ساعات عدم الذروة
حلنا
لقد طبقنا نمط تحجيم متذبذب (تشغيل-إيقاف) — وهو بنية هجينة يتم فيها توفير موارد الحوسبة في الوقت المناسب لأعباء العمل النشطة ويتم إيقاف تخصيصها بالكامل عند عدم النشاط، مع تجمعات دافئة (warm pools) للمهام الحساسة للوقت وتجمعات باردة (cold pools) لمهام الدُفعات.
البنية
- قائمة انتظار المهام (Job Queue): قائمة انتظار مهام مدعومة بقاعدة بيانات مع تصنيف حسب الأولوية
- المنسق (Orchestrator): خدمة تدير دورة حياة الموارد وتوجيه المهام
- عُمّال GPU (AI): حاويات GPU سحابية للاستنتاج (اكتشاف الكائنات، النسخ، اكتشاف المتحدث)
- عُمّال CPU (الفيديو): أجهزة افتراضية سحابية (Cloud VMs) لترميز الفيديو وعرضه
- تجمع دافئ (Warm Pool): مثيلات مهيأة مسبقًا للمهام الحساسة لوقت الاستجابة (وقت بدء تشغيل أقل من 30 ثانية)
- تجمع بارد (Cold Pool): مثيلات عند الطلب لمعالجة الدفعات/الكميات الكبيرة (وقت بدء تشغيل مقبول من 2-5 دقائق)
تطبيق نمط التحجيم المتذبذب (تشغيل-إيقاف)
حالات دورة حياة الموارد
تنتقل الموارد عبر دورة حياة محددة: من حالة عدم التخصيص الكامل (تكلفة صفرية)، مرورًا بالتوفير والتسخين (تحميل النماذج، فحوصات السلامة)، إلى حالات الجاهزية والمعالجة، ثم عبر فترة تهدئة قبل العودة إلى حالة عدم التخصيص.
استراتيجية التجمع الدافئ (Warm Pool)
للمعالجة الحساسة لوقت الاستجابة (بواسطة المستخدم، تتوقع النتائج في دقائق):
- الحفاظ على حد أدنى من التجمع الدافئ للمثيلات خلال ساعات العمل
- تحميل نماذج AI مسبقًا عند بدء تشغيل الحاوية
- توجيه المهام الواردة إلى المثيلات الدافئة أولاً
- توسيع نطاق المثيلات الدافئة الإضافية عندما يتجاوز عمق قائمة الانتظار الحد المعين
- مؤقت تهدئة قابل للتكوين يحافظ على المثيلات نشطة بين المهام المتفرقة
استراتيجية التجمع البارد (Cold Pool)
لمعالجة الدُفعات (مهام مجمّعة ليلية، إعادة ترميز غير عاجلة):
- صفر مثيل قيد التشغيل افتراضيًا
- تقوم قائمة انتظار المهام بتشغيل عملية التوفير عند إرسال مهام الدفعات
- مثيلات مُحسّنة للكميات الكبيرة للأداء العالي على حساب وقت الاستجابة
- إنهاء المثيل فور اكتمال الدفعة
- استخدام مثيلات spot/preemptible لتحقيق وفورات كبيرة في التكاليف
تصنيف المهام وتوجيهها
يتم تصنيف المهام تلقائيًا حسب الأولوية والنوع، ثم توجيهها إلى التجمع المناسب:
- مهام AI ذات الأولوية العالية التي يبدأها المستخدم تُوجّه إلى تجمعات GPU الدافئة
- المهام الحرجة في الوقت الفعلي تُوجّه إلى مثيلات مخصصة دائمًا في الخدمة
- مهام الترميز ذات الأولوية المتوسطة تُوجّه إلى تجمعات CPU الدافئة أو الباردة
- مهام الدفعات ذات الأولوية المنخفضة تُوجّه إلى مثيلات spot/preemptible الباردة
منطق المنسق (Orchestrator Logic)
محفزات التحجيم للأعلى (Scale-Up)
- يتجاوز عمق قائمة الانتظار الحد القابل للتكوين
- يتجاوز متوسط وقت الانتظار اتفاقية مستوى الخدمة (SLA) لمستوى الأولوية
- زيادة مجدولة قبل ساعات الذروة المعروفة
- تشغيل يدوي عبر واجهة برمجة تطبيقات الإدارة (admin API) لارتفاعات حركة المرور المتوقعة
محفزات التحجيم للأسفل (Scale-Down)
- لم تتم معالجة أي مهام طوال مدة نافذة التهدئة
- خفض مجدول بعد ساعات الذروة
- اكتملت جميع المهام الموجودة في قائمة الانتظار دون تقديم مهام جديدة
- تم الوصول إلى عتبة التكلفة للفترة الفوترة
الصحة والاستعادة
- فحوصات صحية منتظمة على جميع المثيلات النشطة
- استبدال المثيلات غير الصحية تلقائيًا
- إعادة المهام الفاشلة إلى قائمة الانتظار مع عداد محاولات إعادة وتوجيهها إلى مثيل مختلف
- قائمة انتظار الرسائل الميتة (Dead Letter Queue) للمهام التي تتجاوز الحد الأقصى لإعادة المحاولة
تأثير التكلفة
حقق نمط التحجيم المتذبذب (تشغيل-إيقاف) تخفيضًا في التكلفة بنسبة 70% تقريبًا مقارنة بالبنية التحتية الثابتة دائمًا في الخدمة، وذلك من خلال إلغاء الحوسبة الخاملة خلال ساعات عدم الذروة، وتحديد حجم الموارد المناسب لكل نوع مهمة، والاستفادة من مثيلات spot لأعباء عمل الدفعات.
الميزات الرئيسية
- تكلفة خمول صفرية — يتم إلغاء تخصيص الموارد بالكامل عندما لا تعالج المهام
- تجمعات دافئة (Warm Pools) — مثيلات مهيأة مسبقًا لأعباء العمل الحساسة لوقت الاستجابة
- تجمعات باردة (Cold Pools) — توفير عند الطلب لمهام الدفعات بأقل تكلفة
- تصنيف المهام — توجيه تلقائي بناءً على الأولوية والنوع ومتطلبات وقت الاستجابة
- نوافذ التهدئة (Cooldown Windows) — مهلة خمول قابلة للتكوين تمنع التحجيم للأسفل المبكر بين الدفعات
- دعم Spot/Preemptible — توجيه مهام الدفعات إلى مثيلات مخفضة التكلفة لتحقيق وفورات كبيرة
- الصحة والاستعادة — الاستبدال التلقائي للمثيلات غير الصحية مع إعادة المهام إلى قائمة الانتظار
- التحجيم المجدول — توقع أنماط حركة المرور المعروفة باستخدام قواعد التوفير القائمة على الوقت
النتائج
المكدس التقني
caseStudyDetail.more دراسات الحالة
استكشف المزيد من تطبيقاتنا التقنية
الاستفادة من RunPod لاستدلال الذكاء الاصطناعي القابل للتوسع والفعال من حيث التكلفة
احتاجت منصة لتحليل الفيديو مدعومة بـ AI إلى قدرة حوسبة عالية الأداء على GPU لاكتشاف الكائنات والاستدلال في الوقت الفعلي عبر تدفقات فيديو متزامنة متعددة — دون التكلفة الباهظة لخوادم GPU المخصصة التي تعمل على مدار الساعة طوال أيام الأسبوع.
معالجة الفواتير المدعومة بـ AI باستخدام OCR ودمج QuickBooks
كانت شركة متوسطة الحجم تعالج مئات فواتير الموردين شهريًا بحاجة إلى التخلص من إدخال البيانات يدويًا عن طريق استخلاص بيانات الفاتورة تلقائيًا باستخدام AI/OCR ومزامنتها مباشرةً مع QuickBooks للمسك الدفتري وتتبع المدفوعات.
مستعد لتحويل عملك؟
دعنا نناقش كيف يمكننا تطبيق حلول مشابهة لتحدياتك.