MicrocosmWorksInnover et Architecturer le Cosmos Numérique
À proposContact
MicrocosmWorksInnover et architecturer des cosmos numériques

Fournir des solutions informatiques qui comptent. Nous sommes passionnés par la technologie, la sécurité et aidons les entreprises à croître grâce à une infrastructure informatique fiable et innovante.

[email protected]
+91 7011868196
New Delhi, India

Hub de Croissance IA

Hub IAInnovation pour les startupsAccélérateur d'entreprise

Solutions

Toutes les solutionsApplications de bien-être et de fitnessPlateforme vidéo IADéveloppement d'agents IA

Ressources

PerspectivesGuides de l'industriePlans d'utilisationModèles d'architectureÉtudes de cas

Entreprise

À propos de nousContactNotre travail

Services

Consultation numériqueInfrastructure cloudDéveloppement SaaSDéveloppement IATechnologie vidéo
Développement ERPPersonnalisation ZohoDéveloppement OdooIntégration SalesforceDéveloppement CRM personnalisé
Intégration QuickBooksSolutions IoTDéveloppement Blockchain
Consultation en cybersécuritéSupport IT - L3

© 2026 MicrocosmWorks. Tous droits réservés.

Politique de confidentialitéConditions d'utilisation
Retour aux Modèles d'Architecture
InfrastructureAdvanced

Architecture de Scaling On-Off

Ne payez pas pour les GPU inactifs. Provisionnez la puissance de calcul juste à temps, traitez la charge de travail et déprovisionnez-la — transformant les dépenses en capital en un coût d'exploitation par tâche.

June 18, 2026
|
2 topics covered
Discutez de cette Architecture
Infrastructure
Category
Advanced
Complexity
AI/ML, Media & Entertainment
Industries
2+
Technologies

Quand vous en avez besoin

Votre charge de travail est intermittente — des tâches d'encodage vidéo qui augmentent brusquement lorsque du contenu est téléchargé, des exécutions d'entraînement ML qui nécessitent 8 GPU pendant 4 heures puis rien, des tâches d'inférence par lots déclenchées par des événements commerciaux, ou des pipelines de rendu qui s'exécutent pendant la nuit. Vous êtes soit sur-provisionné (payant pour des ressources inactives 80 % du temps), soit sous-provisionné (les tâches s'accumulent pendant des heures lors des pics). Vous avez besoin d'une architecture qui provisionne exactement la puissance de calcul dont vous avez besoin, quand vous en avez besoin, et la libère une fois la tâche terminée — sans la pénalité de "cold-start" qui rend le "scale to zero" impraticable pour les charges de travail GPU.

Related Architecture Patterns

Explore more design patterns and system architectures

cloud-native-infrastructure.webp
Infrastructure

Infrastructure Cloud-Native

Une infrastructure qui est versionnée, testée et déployée comme du code applicatif — car la fiabilité de votre plateforme dépend de ce qui la sous-tend.

EnterpriseView
security-first-architecture.webp

Avez-vous besoin d'aide pour implémenter cette architecture ?

Nos architectes peuvent vous aider à concevoir et construire des systèmes utilisant ce modèle pour vos besoins spécifiques.

Contactez-nous
on-off-scaling-architecture.webp

Présentation du modèle

L'architecture de scaling On-Off gère les ressources de calcul via un pooling chaud/froid, un provisionnement basé sur une file d'attente de tâches et un déprovisionnement automatisé. Un warm pool maintient un petit nombre d'instances pré-initialisées prêtes à l'emploi immédiat. Un cold pool provisionne une capacité supplémentaire à partir d'instances spot/préemptibles lorsque la demande dépasse le warm pool. Un job orchestrator achemine le travail vers les instances disponibles, surveille la progression, gère les nouvelles tentatives en cas d'éviction spot et déclenche le scale-down lorsque la file d'attente se vide. Le modèle est particulièrement critique pour les charges de travail GPU où le cold start (téléchargement du conteneur + chargement du modèle) peut prendre 3 à 10 minutes.

Architecture de référence

Le système s'articule autour d'une file d'attente de tâches (SQS, Redis, ou personnalisé) qui met en mémoire tampon les demandes de travail entrantes. Un scaling controller surveille la profondeur de la file d'attente et provisionne des instances depuis le warm pool en premier, puis depuis le cold pool (instances spot). Chaque worker instance extrait les tâches de la file d'attente, exécute la charge de travail (encodage, entraînement, inférence), signale l'achèvement et retourne au pool ou se termine. Un checkpoint manager gère l'éviction spot en sauvegardant l'état intermédiaire sur S3, permettant aux tâches de reprendre sur une instance différente sans recommencer.

Composants clés
  • Job Queue & Scheduler : File d'attente de tâches prioritaire avec des limites de concurrence configurables par type de tâche. Prend en charge l'exécution différée, les dead-letter queues pour les tâches échouées et les voies prioritaires (les tâches express obtiennent des instances du warm pool, les tâches standard utilisent le cold pool). AWS SQS, BullMQ sur Redis, ou Temporal pour les workflows complexes
  • Warm Pool Manager : Maintient N instances pré-initialisées avec des modèles chargés en mémoire GPU, des conteneurs en cours d'exécution et des contrôles de santé réussis. Les instances parcourent les états : idle → assigned → processing → idle. La taille du pool est configurable par heure de la journée (plus grande pendant les heures de bureau, plus petite pendant la nuit) et ajustable en fonction des modèles de demande historiques
  • Cold Pool Provisioner : Provisionne une capacité supplémentaire à partir d'instances spot (AWS), de VM préemptibles (GCP) ou de fournisseurs de GPU serverless (RunPod, Modal, Salad). Gère les notifications d'interruption spot en migrant les tâches vers des instances disponibles. Utilise une stratégie de types d'instances diversifiés (plusieurs types de GPU, plusieurs AZ) pour maximiser la disponibilité spot
  • Checkpoint & Recovery : Pour les tâches de longue durée (entraînement ML, encodage vidéo volumineux), le checkpointing périodique enregistre l'état intermédiaire sur S3. En cas d'éviction spot, la tâche est remise en file d'attente et reprend à partir du dernier checkpoint. Pour les tâches courtes (< 10 min), le coût du checkpointing dépasse le coût du redémarrage — ces tâches réessayent simplement depuis le début

Décisions de conception et compromis

Taille du Warm Pool
Le warm pool est un compromis entre le coût (payer pour des instances inactives) et la latence (temps de cold start pour la première tâche). MW dimensionne les warm pools en fonction des modèles d'arrivée des tâches : si les tâches arrivent continuellement pendant les heures de bureau, le warm pool couvre le débit moyen ; le cold pool couvre les pics. Si les tâches arrivent par salves imprévisibles, nous maintenons un warm pool plus petit et acceptons une latence de cold-start pour les premières tâches de la salve pendant que le cold pool se provisionne.
Instances Spot vs. GPU Serverless (RunPod/Modal)
Les instances Spot sont moins chères à l'heure mais vous obligent à gérer le provisionnement, la gestion des évictions et le cycle de vie des instances. Les fournisseurs de GPU serverless (RunPod Serverless, Modal, Banana) gèrent le provisionnement et offrent une facturation à la seconde mais à un tarif par seconde de calcul plus élevé. MW utilise les instances spot pour les charges de travail prévisibles et de longue durée (>30 min) et les GPU serverless pour les tâches courtes et intermittentes (<10 min) où l'overhead de provisionnement dominerait.
Agressivité du Scale-Down
Scale down trop rapidement et vous paierez des pénalités de cold-start lorsque la tâche suivante arrivera. Scale down trop lentement et vous paierez pour des instances inactives. MW met en œuvre une stratégie de "cooldown with decay" : une fois la file d'attente vidée, les instances restent "warm" pendant une période configurable (par défaut : 10 minutes). Si aucune nouvelle tâche n'arrive, les instances effectuent un scale-down progressif (50 % à 10 min, le reste à 30 min). La période de cooldown est ajustable et s'ajuste automatiquement en fonction des statistiques de temps entre les arrivées.
Optimisation du chargement des modèles GPU
Pour l'inférence ML, le goulot d'étranglement du cold-start est souvent le chargement du modèle (téléchargement depuis S3 + chargement en mémoire GPU), et non le démarrage du conteneur. MW optimise cela en : (a) pré-intégrant les modèles dans les images de conteneurs (pour les petits modèles), (b) utilisant un stockage NVMe partagé entre les instances avec mise en cache des modèles (pour les grands modèles), et (c) maintenant les instances du warm pool avec les modèles pré-chargés en mémoire GPU.
Architecture de Scaling On-Off - System Architecture Diagram

System Architecture Overview

Choix technologiques

CoucheTechnologies
CalculAWS EC2 Spot (G5/P4), GCP Preemptible (A2/L4), RunPod Serverless, Modal
OrchestrationKubernetes (Karpenter pour l'autoscaling), AWS Batch, job orchestrator personnalisé
File d'attente de tâchesAWS SQS, BullMQ (Redis), Temporal, Celery
StockageS3 (checkpoints, artefacts de modèle), NVMe (cache de modèle), EFS (espace de travail partagé)
MonitoringCloudWatch/Prometheus (profondeur de la file d'attente, utilisation des instances, latence des tâches), tableaux de bord de coûts personnalisés

Quand utiliser / Quand éviter

Utiliser quandÉviter quand
La charge de travail est intermittente — la demande de pointe est 5x+ la demande moyenneLe trafic est stable et prévisible — les instances réservées de taille appropriée sont moins chères
Tâches GPU/à haute intensité de calcul qui sont coûteuses lorsqu'inactivesLa charge de travail est un traitement CPU léger qui convient au serverless (Lambda)
Les tâches peuvent tolérer un cold start de 1 à 5 minutes pour le provisionnement du cold poolUne latence de démarrage de tâche inférieure à la seconde est requise — vous avez besoin d'une infrastructure toujours active
L'optimisation des coûts est une préoccupation majeure et le prix spot offre 60 à 90 % d'économiesUne interruption spot entraînerait une perte de données que le checkpointing ne peut pas atténuer

Notre approche

MW conçoit le scaling On-Off sous l'angle du "coût par tâche" — nous modélisons le coût total de traitement d'une unité de travail (une vidéo, une exécution d'entraînement, une inférence par lots) à travers différentes stratégies de scaling et choisissons celle qui minimise le coût à la latence SLA requise. Nos implémentations incluent des tableaux de bord de coûts en temps réel qui affichent le coût par tâche, l'utilisation de l'infrastructure et les économies spot. Nous avons construit une infrastructure GPU On-Off qui a réduit les coûts de traitement vidéo de 70 % par rapport aux instances réservées, et des clusters d'entraînement ML qui provisionnent 64 GPU pour une exécution d'entraînement de 4 heures et les libèrent automatiquement.

Blueprints connexes

  • Orchestration de cluster GPU pour les charges de travail AI — Provisionnement et orchestration GPU pour l'entraînement ML
  • Système de surveillance vidéo AI en temps réel — Inférence en rafale pour les événements d'analyse vidéo
  • Générateur de faits saillants sportifs en direct — Traitement vidéo événementiel avec calcul en rafale

Études de cas connexes

  • Traitement vidéo avec le modèle On-Off — Provisionnement GPU avec warm/cold pools pour les charges de travail d'encodage vidéo
  • Plateforme d'encodage vidéo — Encodage serverless et basé sur le spot avec des pools de workers auto-scalés
Related Technologies
Cloud SolutionsAI Development
Infrastructure

Architecture Axée sur la Sécurité

La sécurité n'est pas une fonctionnalité que l'on ajoute après le lancement. C'est une propriété architecturale — soit le système a été conçu pour cela, soit il ne l'a pas été.

EnterpriseView
serverless-first-architecture.webp
Infrastructure

Architecture Serverless-First

Payez pour ce que vous utilisez, mettez à l'échelle jusqu'à zéro lorsque vous n'en avez pas besoin, et arrêtez complètement de gérer des serveurs — mais sachez quand l'économie cesse d'être avantageuse.

AdvancedView

Questions fréquemment posées

Les clients de MicrocosmWorks ayant des charges de travail lourdes en lots ou périodiques constatent généralement des réductions de 60 à 80 % des coûts cloud après avoir mis en œuvre l'on-off scaling, car les ressources de calcul ne fonctionnent que pendant les fenêtres de traitement actives au lieu de 24h/24 et 7j/7. Nous concevons des politiques de scaling basées sur la télémétrie d'utilisation réelle—par exemple, un pipeline de traitement de données qui fonctionne 4 heures par jour ne paie que pour ces 4 heures au lieu des 24 heures complètes. Nos architectes analysent vos modèles de charge de travail pendant une phase de découverte afin de projeter les économies exactes avant le début de toute implémentation.

Les cold-start times varient de 2 à 3 secondes pour les applications conteneurisées sur des pre-warmed node pools à 5-10 minutes pour les charges de travail nécessitant des GPU instances spécialisées ou un chargement de grands modèles, et MicrocosmWorks utilise plusieurs techniques pour minimiser ce délai. Nous mettons en œuvre le predictive scaling qui démarre des ressources avant la demande anticipée en utilisant les modèles de trafic historiques et les événements planifiés, et nous utilisons le container image pre-pulling et les warm pool reservations pour les charges de travail sensibles à la latence. Pour les applications qui ne peuvent tolérer aucun cold start, nous maintenons une minimal warm baseline qui scale up agressivement lorsque la demande arrive.

MicrocosmWorks met en œuvre le reactive auto-scaling avec des scale-up policies agressives déclenchées par la queue depth, la CPU utilization ou des custom application metrics, combinées à des scale-down policies plus progressives qui incluent des cooldown periods pour éviter le thrashing. Nous configurons des over-provisioning buffers pendant les événements de scale-up afin que le système anticipe une croissance continue plutôt que de courir après la demande une instance à la fois. Pour les pics réellement imprévisibles comme les flash sales ou les viral events, nous pré-provisionnons la capacité en utilisant des event-driven triggers de votre calendrier marketing ou d'opérations.

MicrocosmWorks applique l'on-off scaling aux bases de données en utilisant des serverless database offerings comme Aurora Serverless, Neon ou PlanetScale qui scalent le compute à zéro pendant les périodes d'inactivité tout en maintenant le stockage persistant et instantanément disponible. Pour les stateful workloads qui ne peuvent pas utiliser de serverless databases, nous mettons en œuvre le read-replica scaling qui ajoute et supprime des réplicas en fonction de la charge de requêtes tout en maintenant une instance primaire minimale toujours en fonctionnement. Cette approche hybride offre aux clients les avantages de coût du scaling pour leur data tier sans la complexité de gérer l'état de la base de données pendant les cycles d'arrêt et de redémarrage.

MicrocosmWorks déploie une scaling observability complète qui suit le nombre d'instances, la scaling event latency, les failed scaling attempts et l'écart entre la capacité souhaitée et réelle en temps réel à l'aide de tableaux de bord Grafana ou Datadog. Nous configurons des alertes multi-canaux pour les scaling failures, l'utilisation élevée soutenue qui suggère que le scaling ceiling est trop bas, et les anomalies de coût qui indiquent le runaway scaling. Nos runbooks incluent une remédiation automatisée pour les modes de défaillance courants comme l'atteinte des cloud provider instance limits ou la rencontre d'erreurs de capacité insuffisante dans des availability zones spécifiques.