Maximisez l'utilisation des GPU et minimisez le coût par expérience grâce à une orchestration intelligente pour l'entraînement et l'inférence à grande échelle.
Les équipes AI qui entraînent de grands modèles sont confrontées à un problème d'infrastructure majeur : la puissance de calcul GPU est coûteuse, rare et mal utilisée. Les scientifiques de données font la queue pendant des heures en attendant l'accès aux GPU sur des clusters partagés, tandis que les instances allouées restent inactives pendant le prétraitement des données ou l'analyse des hyperparamètres. Les interruptions d'instances Spot peuvent anéantir des exécutions d'entraînement de plusieurs jours qui ne disposent pas de points de contrôle adéquats (checkpointing), gaspillant des milliers de dollars. Il n'y a aucune visibilité sur le coût par expérience, ce qui rend impossible de comparer le ROI des différentes orientations de recherche. Les artefacts de modèle sont dispersés sur des machines personnelles et des buckets S3 sans versioning ni suivi de lignage. À mesure que les organisations passent d'expériences mono-GPU à de l'entraînement distribué multi-nœuds, les outils ad hoc qui fonctionnaient pour les petites équipes s'effondrent, et les chercheurs passent plus de temps à gérer l'infrastructure qu'à faire progresser leurs modèles.
Découvrez plus de plans de mise en œuvre pour votre prochain projet
Contactez-nous pour discuter de la façon dont nous pouvons construire cette solution pour votre entreprise avec notre équipe d'experts.
Contactez-nous
MicrocosmWorks peut construire une plateforme d'orchestration GPU de bout en bout qui traite le calcul comme une ressource partagée et planifiable, avec une mise en file d'attente intelligente, des politiques de préemption et un suivi des coûts. La plateforme prend en charge les charges de travail d'entraînement et d'inférence avec des profils de planification distincts — les tâches d'entraînement sont planifiées par lots sur des instances Spot et à la demande avec des points de contrôle automatiques (automatic checkpointing), tandis que les points d'inférence s'adaptent automatiquement en fonction des schémas de requête. Un registre de modèles unifié suit le code, les données, les hyperparamètres et les artefacts résultants de chaque expérience avec une lignée complète. Les chercheurs interagissent via un portail en libre-service où ils définissent les exigences en ressources et la plateforme gère automatiquement le placement, la mise à l'échelle, la tolérance aux pannes et l'attribution des coûts.
La plateforme fonctionne sur Kubernetes avec une planification compatible GPU (GPU-aware scheduling), utilisant un mélange de pools de nœuds d'instances à la demande et Spot qui s'adaptent automatiquement en fonction de la profondeur de la file d'attente. Un planificateur personnalisé priorise les tâches en fonction du budget de l'équipe, des délais et de l'efficacité des ressources. Une couche de stockage distribuée fournit un accès aux données à haut débit pour les tâches d'entraînement, tandis qu'un registre de modèles et un suivi d'expériences fournissent l'épine dorsale des métadonnées pour la reproductibilité et la gouvernance.
| Couche | Technologies |
|---|---|
| Backend | Python, Go, FastAPI, gRPC, Ray |
| AI / ML | PyTorch, DeepSpeed, Hugging Face Transformers, NVIDIA NCCL, TensorRT, vLLM |
| Frontend | React, Grafana, MLflow UI, portail Jupyter Hub personnalisé |
| Base de données | PostgreSQL (métadonnées), MinIO (stockage d'artefacts), Redis (file d'attente des tâches), TimescaleDB (métriques) |
| Infrastructure | Kubernetes (EKS avec nœuds GPU), Karpenter, NVIDIA GPU Operator, Terraform, ArgoCD, Prometheus, DCGM Exporter |
La plateforme est construite sur 12 à 16 semaines en quatre phases. Les semaines 1 à 3 se concentrent sur la découverte des exigences, le profilage des charges de travail GPU et la conception de l'architecture pour l'infrastructure de planification et d'auto-scaling basée sur Kubernetes avec Karpenter et le NVIDIA GPU Operator. Les semaines 4 à 8 implémentent le planificateur compatible GPU (GPU-aware scheduler) avec bin-packing et gang scheduling, le gestionnaire de pools de nœuds élastiques avec des stratégies d'enchères d'instances Spot, et le registre de modèles basé sur MLflow avec intégration DVC. Les semaines 9 à 12 construisent le portail chercheur en libre-service, le moteur d'attribution des coûts et les tableaux de bord de contrôle budgétaire par équipe. Les semaines 13 à 16 effectuent des tests de charge avec des tâches d'entraînement représentatives, affinent les workflows de checkpoint-and-resume pour les interruptions Spot et dispensent une formation opérationnelle aux équipes de plateforme ML et de recherche.
| Mesure | Amélioration | Détail |
|---|---|---|
| Utilisation du GPU | 70-85% en moyenne | Le bin-packing et la planification basée sur les files d'attente éliminent les instances réservées inactives |
| Coût de calcul | Réduction de 45-60% | La gestion des instances Spot avec checkpointing permet des économies sans risquer de perdre du travail |
| Temps d'attente des chercheurs | Réduction de 80% | La planification par partage équitable (fair-share) et la mise à l'échelle élastique remplacent l'accaparement de GPU selon le principe du premier arrivé, premier servi |
| Reproductibilité des expériences | 100% | Le suivi complet de la lignée, de la version des données à l'artefact du modèle, garantit que chaque résultat est reproductible |
| Temps de déploiement du modèle | Réduction de 70% | Le registre de modèles intégré au pipeline de diffusion remplace le transfert manuel entre la recherche et l'ingénierie |
Réduisez les temps de déploiement de quelques heures à quelques minutes grâce à des pipelines de livraison automatisés, sécurisés et reproductibles.
MicrocosmWorks met en œuvre une planification GPU consciente des charges de travail qui utilise le partitionnement MIG (Multi-Instance GPU) sur des GPU A100/H100 pour isoler les charges de travail d'inférence dans des tranches de GPU plus petites, tout en réservant des GPU complets ou des allocations multi-GPU pour les tâches d'entraînement. Cela prévient la fragmentation de la mémoire due à l'interférence des charges de travail mixtes. L'orchestrateur comprend les profils de mémoire des différents types de charges de travail et les planifie pour maximiser l'utilisation du GPU sans provoquer de pannes de mémoire insuffisante (out-of-memory) dues à des allocations fragmentées. Pour les clusters exécutant à la fois l'inférence et l'entraînement, cette approche permet généralement d'atteindre 70-85 % d'utilisation du GPU, contre 30-40 % couramment observés dans les clusters mixtes planifiés de manière naïve.
MicrocosmWorks déploie généralement l'orchestration de GPU en utilisant Kubernetes avec le NVIDIA GPU Operator et des plugins de planification personnalisés, améliorés avec des frameworks comme Run:ai ou Volcano pour le gang scheduling, le fair-share queuing et l'allocation fractionnelle de GPU, ce que Kubernetes standard ne prend pas en charge nativement. Kubernetes standard traite les GPU comme des ressources entières opaques, tandis que notre stack amélioré comprend la topologie des GPU (interconnexions NVLink, PCIe vs NVSwitch), la capacité mémoire et la capacité de calcul pour prendre des décisions de placement qui impactent significativement la performance d'entraînement. Pour les grands clusters (plus de 50 GPU), l'intelligence de planification à elle seule peut améliorer le débit effectif de 20 à 40 % par rapport à la planification de GPU par défaut de Kubernetes.
MicrocosmWorks met en œuvre des stratégies d'approvisionnement en GPU multi-niveaux combinant des GPU cloud à la demande pour la capacité de pointe, des instances réservées pour les charges de travail de base en régime permanent, et des instances spot/préemptibles pour les tâches d'entraînement tolérantes aux pannes avec checkpointing — permettant une réduction des coûts de 40 à 60 % par rapport à une tarification uniquement à la demande. La couche d'orchestration effectue automatiquement le checkpointing des tâches d'entraînement à des intervalles configurables, permettant une récupération souple après préemption lorsque des instances spot sont récupérées, et achemine les charges de travail d'inférence sensibles au temps vers la capacité réservée pour une disponibilité garantie. Pour les organisations ayant une demande continue en GPU, nous évaluons également la colocation avec du matériel NVIDIA possédé par rapport aux approches uniquement cloud, car le seuil de rentabilité pour le matériel possédé est généralement de 12 à 18 mois d'utilisation continue.
MicrocosmWorks déploie des interconnexions à haute bande passante et faible latence utilisant des fabrics InfiniBand (400Gbps NDR) ou RoCE v2 (100-400Gbps) avec une topologie réseau optimisée pour NCCL, car les performances de l'entraînement distribué sont souvent network-bound plutôt que compute-bound lorsque la gradient synchronization entre les nœuds crée un communication bottleneck. L'architecture réseau inclut le topology-aware job placement qui co-localise les pods d'entraînement distribué sur des nœuds connectés via le même commutateur réseau (avec leaf-spine topology awareness) afin de minimiser le cross-switch traffic. Pour les déploiements cloud, nous tirons parti des placement groups et des cluster networking options (AWS EFA, GCP GPUDirect-TCPX, Azure InfiniBand) qui offrent des performances réseau near-bare-metal, avec des services de conseil en architecture réseau à 35-50 $/heure.
MicrocosmWorks met en œuvre une architecture multi-tenant basée sur les namespaces avec des quotas GPU minimaux garantis par équipe, une capacité de rafale au-delà du quota lorsque le cluster dispose de ressources inactives, et des politiques de préemption basées sur la priorité qui garantissent que les charges de travail d'inférence de production à haute priorité obtiennent toujours des ressources, même pendant les périodes d'entraînement intensif. La plateforme comprend un portail en libre-service où les chefs d'équipe peuvent soumettre des tâches d'entraînement, consulter les positions dans la file d'attente, surveiller l'utilisation des GPU et gérer les priorités des tâches de leur équipe sans nécessiter l'intervention de l'ingénierie de la plateforme. Le rapport de refacturation (chargeback) suit les heures GPU consommées par chaque équipe et projet, permettant aux équipes financières d'allouer avec précision les coûts de l'infrastructure AI entre les unités commerciales.