Tirer parti de RunPod pour une inférence AI évolutive et rentable
Une plateforme d'analyse vidéo basée sur l'AI nécessitait une puissance de calcul GPU haute performance pour la détection d'objets et l'inférence en temps réel sur plusieurs flux vidéo concurrents — sans le coût prohibitif des serveurs GPU dédiés fonctionnant 24h/24 et 7j/7.
Discutez de Votre Projet
Le Défi
L'infrastructure GPU pour les charges de travail AI présentait un dilemme coût/performance :
- Les serveurs GPU dédiés des principaux fournisseurs de cloud coûtaient des milliers par mois par instance
- Les charges de travail étaient variables — les heures de pointe exigeaient 4 à 8 fois la capacité GPU des heures creuses
- Les temps de démarrage à froid chez les fournisseurs de GPU sans serveur étaient trop lents (30 à 60 secondes) pour l'inférence en temps réel
- Le chargement des modèles nécessitait une VRAM et un temps de démarrage importants
- Le vendor lock-in à un seul fournisseur de cloud limitait le levier de négociation et les options de failover
Notre Solution
Nous avons adopté RunPod comme couche de calcul GPU, en utilisant leurs instances GPU à la demande et spot pour exécuter les charges de travail d'inférence AI à une fraction des coûts GPU cloud traditionnels, avec une architecture d'instances chaudes pour minimiser les démarrages à froid.
Architecture
- Calcul : Pods GPU RunPod pour les charges de travail d'inférence, avec un niveau de GPU sélectionné par charge de travail
- Orchestration : Orchestrateur FastAPI sur le cloud principal gérant les pods RunPod
- Réseau : Tunnels sécurisés entre l'infrastructure principale et les instances RunPod
- Stockage des modèles : Images Docker pré-construites avec les modèles intégrés pour un démarrage rapide
- Surveillance : Health checks et redémarrage automatique pour la disponibilité des pods
Conception de l'infrastructure
Configuration des pods
- Sélection du GPU : Niveaux de GPU rentables sélectionnés par charge de travail, permettant des économies d'environ 85 à 90 % par rapport aux instances GPU équivalentes des principaux fournisseurs de cloud
- Modèles Docker : Conteneurs personnalisés avec des modèles AI préchargés pour l'inférence
- Stockage persistant : Volumes réseau pour les poids des modèles et les fichiers de configuration
- Variables d'environnement : Configuration dynamique pour les points d'accès de flux, les clés API et les indicateurs de fonctionnalités
Stratégie d'instances chaudes
Au lieu de démarrer des pods à froid par requête, nous maintenons des instances chaudes pendant les heures de fonctionnement :
- Mise à l'échelle planifiée — Les pods sont démarrés avant les heures de pointe, arrêtés pendant les heures creuses
- Modèles préchargés — Les moteurs d'inférence sont chargés au démarrage du conteneur, prêts immédiatement
- Sondes de santé — L'orchestrateur surveille régulièrement les pods RunPod pour vérifier leur état de préparation
- Récupération automatique — Les pods défectueux sont automatiquement remplacés via l'API RunPod
Communication inter-cloud
- Cloud principal : Serveurs API, bases de données, workers d'enregistrement
- Cloud GPU (RunPod) : Inférence AI, détection d'objets, suivi
- Flux de données : Les images vidéo sont envoyées du cloud principal à RunPod pour l'inférence ; les résultats de détection sont renvoyés via WebSocket
- Synchronisation des horodatages : Synchronisation basée sur les PTS pour gérer le décalage d'horloge entre les clouds
Optimisation des coûts
Le modèle de tarification de RunPod a permis des économies significatives par rapport aux instances GPU équivalentes des principaux fournisseurs de cloud :
- On-Demand : Réduction d'environ 85 à 90 % du coût horaire de calcul GPU
- Spot Pricing : Économies supplémentaires de 50 % pour le traitement par lots non critique sur le cloud communautaire
- Arrêt programmé : L'arrêt/démarrage automatisé basé sur les heures de fonctionnement réduit davantage les coûts
- Right-Sizing : Sélectionner le niveau de GPU correspondant aux besoins réels en VRAM plutôt que de sur-approvisionner
- Distribution multi-pod : Répartir les flux sur des GPU plus petits et moins chers au lieu d'une seule grande instance
Flux de travail de déploiement
- Build — Image Docker avec tous les modèles, dépendances et le code d'application
- Push — L'image est poussée vers le registre de conteneurs
- Deploy — L'API RunPod crée un pod avec le GPU, l'image et les montages de volume spécifiés
- Configure — Les variables d'environnement sont définies pour le déploiement spécifique
- Monitor — L'orchestrateur vérifie la santé du pod et commence à acheminer les requêtes d'inférence
- Scale — Des pods supplémentaires sont lancés via l'API lorsque la charge augmente
Fonctionnalités clés
- Réduction significative des coûts — 85-90 % d'économies par rapport aux instances GPU équivalentes des principaux fournisseurs de cloud
- Conteneurs pré-construits — Modèles intégrés dans les images Docker pour un démarrage en moins de 30 secondes
- API-Driven Scaling — Création/destruction programmatique de pods basée sur la demande
- Support multi-GPU — Plusieurs niveaux de GPU disponibles en fonction des exigences de la charge de travail
- Spot Instance Fallback — Les charges de travail non critiques s'exécutent sur un cloud communautaire à prix réduit
- Architecture inter-cloud — Le calcul GPU est découplé de l'infrastructure principale
Résultats
Stack Technologique
caseStudyDetail.more Études de Cas
Découvrez plus de nos implémentations techniques
On-Off Scaling Pattern pour les charges de travail d'AI et de traitement vidéo
Une plateforme de traitement vidéo basée sur l'AI devait gérer des charges de travail très variables — de zéro tâche pendant les heures creuses à des centaines de tâches concurrentes de traitement vidéo et d'inférence AI pendant les périodes de pointe — sans payer pour des ressources GPU et de calcul inactives.
Traitement de factures assisté par l'IA avec OCR et intégration QuickBooks
Une entreprise de taille moyenne, traitant des centaines de factures fournisseurs chaque mois, devait éliminer la saisie manuelle des données en extrayant automatiquement les données des factures à l'aide de l'IA/OCR et en les synchronisant directement dans QuickBooks pour la tenue de livres et le suivi des paiements.
PrĂŞt Ă Transformer Votre Entreprise ?
Discutons de la façon dont nous pouvons appliquer des solutions similaires à vos défis.