Qu'est-ce que le modèle de mise à l'échelle on-off et quand est-il préférable à l'auto-scaling traditionnel pour les charges de travail d'AI ?

MicrocosmWorks a développé le modèle de mise à l'échelle on-off pour les charges de travail qui présentent des pics prévisibles de traitement intensif en GPU suivis de longues périodes d'inactivité, où l'auto-scaling traditionnel gaspille de l'argent en maintenant une capacité minimale pendant les temps d'inactivité. Au lieu de garder des instances préchauffées en fonctionnement, le modèle provisionne l'infrastructure GPU à la demande lorsqu'une tâche de traitement arrive, exécute la charge de travail et met fin complètement à l'infrastructure une fois terminée, atteignant un coût quasi nul pendant les périodes d'inactivité.

Comment le modèle on-off minimise-t-il les délais de démarrage à froid lors du provisionnement d'instances GPU pour un traitement d'AI sensible au temps ?

MicrocosmWorks a réduit les temps de démarrage à froid à moins de 60 secondes en pré-construisant des images de conteneurs optimisées avec tous les poids des modèles d'AI et les dépendances intégrés, stockées dans un registre géographiquement proche de la région de calcul. La couche d'orchestration utilise le provisionnement prédictif pour les charges de travail planifiées, démarrant l'infrastructure 2 à 3 minutes avant la demande prévue, et pour les charges de travail imprévisibles, le système met les tâches en file d'attente et envoie des notifications de début de traitement afin que les utilisateurs sachent que leur requête est en cours de traitement.

Quelles économies de coûts le modèle on-off permet-il de réaliser par rapport au maintien d'instances GPU en fonctionnement continu ?

MicrocosmWorks a documenté des réductions de coûts de 70 à 90 % pour les clients dont les charges de travail de traitement vidéo d'AI s'exécutent 2 à 6 heures par jour par rapport au maintien d'instances GPU 24h/24 et 7j/7. Les économies proviennent du fait de ne payer que pour le temps de traitement réel plus quelques minutes de frais généraux de démarrage et d'arrêt, et le modèle est particulièrement efficace pour les flux de travail comme le traitement vidéo par lots nocturne, le transcodage à la demande ou l'analyse d'AI déclenchée par événement où l'utilisation est intrinsèquement intermittente.

Le modèle on-off peut-il gérer des charges de travail qui doivent traiter des centaines de vidéos en parallèle ?

Oui, MicrocosmWorks a implémenté une architecture en éventail au sein du modèle on-off qui provisionne plusieurs workers GPU en parallèle lorsque de grandes tâches par lots arrivent, distribue les fichiers vidéo entre les workers à l'aide d'une file d'attente de tâches, et arrête tous les workers une fois le lot terminé. Le système suit la progression par vidéo et gère les défaillances vidéo individuelles avec une logique de réessai sans bloquer le reste du lot, et consolide les résultats dans un emplacement de sortie unique pour une consommation en aval.

Quel est le coût d'implémentation du modèle de mise à l'échelle on-off pour les charges de travail d'AI et de traitement vidéo ?

MicrocosmWorks implémente des architectures de mise à l'échelle on-off à des tarifs de développement de 25 $ à 45 $/heure, avec une implémentation prête pour la production incluant l'orchestration des tâches, le provisionnement de l'infrastructure, la surveillance et la gestion des défaillances, généralement livrée en 3 à 5 semaines. L'investissement de développement se rentabilise généralement en 1 à 2 mois uniquement grâce aux économies de coûts GPU, en particulier pour les organisations exécutant actuellement des instances GPU toujours actives qui restent inactives plus de 50 % de la journée.

On-Off Scaling Pattern for AI & Video Processing Workload...

On-Off Scaling Pattern pour les charges de travail AI et de Traitement Vidéo

Une plateforme de traitement vidéo basée sur l'AI devait gérer des charges de travail très variables — de zéro job pendant les heures off-peak à des centaines de tâches concurrentes de traitement vidéo et d'inférence AI pendant les périodes de peak — sans payer pour les ressources GPU et compute inactives.

Discutez de Votre Projet

Nous avons implémenté un On-Off scaling pattern — une architecture hybride où les ressources compute sont provisionnées just-in-time pour les workloads actifs et entièrement désallouées lorsqu'elles sont inactives, avec des warm pools pour les tâches sensibles à la latence et des cold pools pour les batch jobs.

Architecture

Job Queue : Job queue basée sur une base de données avec classification des priorités
Orchestrator : Service gérant le lifecycle des ressources et le job routing
GPU Workers (AI) : Cloud GPU pods pour l'inference (object detection, transcription, speaker detection)
CPU Workers (Vidéo) : Cloud VMs pour l'encoding et le rendering vidéo
Warm Pool : Instances pré-initialisées pour les jobs sensibles à la latence (startup < 30s)
Cold Pool : Instances on-demand pour le batch/bulk processing (startup de 2 à 5 min acceptable)

On-Off Pattern Implementation

Resource Lifecycle States

Les resources passent par un defined lifecycle : de fully deallocated (zero cost), via provisioning et warming (models loading, health checks), aux ready et processing states, puis via une cooldown window avant de revenir à deallocated.

Warm Pool Strategy

Pour le latency-sensitive processing (user-initiated, expects results in minutes) :

Maintenir un minimum warm pool d'instances pendant les business hours
Pré-charger les AI models au container startup
Router les incoming jobs vers les warm instances first
Scale out additional warm instances lorsque la queue depth exceeds threshold
Un configurable cooldown timer garde les instances alive entre les sporadic jobs

Cold Pool Strategy

Pour le batch processing (overnight bulk jobs, non-urgent re-encodes) :

Zéro instances running by default
La job queue triggers provisioning lorsque des batch jobs are submitted
Bulk-optimized instances pour le throughput over latency
Terminate immediately after batch completes
Utiliser des spot/preemptible instances pour des significant cost savings

Job Classification & Routing

Les jobs sont automatiquement classified by priority et type, puis routed to the appropriate pool :

Les High priority user-initiated AI tasks route to warm GPU pools
Les Critical real-time tasks route to always-on dedicated instances
Les Medium priority encoding tasks route to warm or cold CPU pools
Les Low priority batch tasks route to cold spot/preemptible instances

Orchestrator Logic

Scale-Up Triggers

La Queue depth exceeds configurable threshold
L'Average wait time exceeds SLA for the priority level
Scheduled ramp-up before known peak hours
Manual trigger via admin API for anticipated traffic spikes

Scale-Down Triggers

No jobs processed for the duration of the cooldown window
Scheduled wind-down after peak hours
All queued jobs completed with no new submissions
Cost threshold reached for the billing period

Health & Recovery

Regular health probes on all active instances
Unhealthy instances replaced automatically
Failed jobs re-queued with retry count and routed to a different instance
Dead letter queue pour les jobs exceeding max retries

Cost Impact

Le On-Off pattern delivered approximately 70% cost reduction vs. always-on fixed infrastructure by eliminating idle compute during off-peak hours, right-sizing resources per job type, and leveraging spot instances for batch workloads.

Key Features

Zero Idle Cost — Resources fully deallocated when not processing jobs
Warm Pools — Pre-initialized instances for latency-sensitive workloads
Cold Pools — On-demand provisioning for batch jobs at lowest cost
Job Classification — Automatic routing based on priority, type, and latency requirements
Cooldown Windows — Configurable idle timeout prevents premature scale-down between bursts
Spot/Preemptible Support — Batch jobs routed to discounted instances for significant savings
Health & Recovery — Auto-replacement of unhealthy instances with job re-queuing
Scheduled Scaling — Anticipate known traffic patterns with time-based provisioning rules

On-Off Scaling Pattern pour les charges de travail AI et de Traitement Vidéo

Le Défi

Notre Solution

Architecture

On-Off Pattern Implementation

Resource Lifecycle States

Warm Pool Strategy

Cold Pool Strategy

Job Classification & Routing

Orchestrator Logic

Scale-Up Triggers

Scale-Down Triggers

Health & Recovery

Cost Impact

Key Features

Résultats

Stack Technologique

caseStudyDetail.more Études de Cas

Utiliser RunPod pour une inférence d'AI évolutive et rentable

Traitement de factures assisté par l'IA avec OCR et intégration QuickBooks

Prêt à Transformer Votre Entreprise ?

Insertion d'annonces côté client (CSAI) avec analyse des marqueurs SCTE-35 et intégration de lecteurs multiplateformes

Questions fréquemment posées