Utiliser RunPod pour une inférence d'AI évolutive et rentable
Une plateforme d'analyse vidéo basée sur l'AI avait besoin d'une capacité de calcul GPU haute performance pour la détection d'objets et l'inférence en temps réel sur plusieurs flux vidéo simultanés, sans le coût prohibitif de serveurs GPU dédiés fonctionnant 24h/24 et 7j/7.
Discutez de Votre Projet
Le Défi
L'infrastructure GPU pour les charges de travail d'AI présentait un dilemme coût vs performance :
- Les serveurs GPU dédiés des principaux fournisseurs de cloud coûtaient des milliers par mois par instance
- Les charges de travail étaient variables — les heures de pointe exigeaient 4 à 8 fois la capacité GPU des heures creuses
- Les temps de démarrage à froid des fournisseurs GPU serverless étaient trop lents (30-60 secondes) pour l'inférence en temps réel
- Le chargement des modèles nécessitait une VRAM et un temps de démarrage importants
- La dépendance vis-à -vis d'un seul fournisseur de cloud limitait le pouvoir de négociation et les options de basculement
Notre Solution
Nous avons adopté RunPod comme couche de calcul GPU, en utilisant leurs instances GPU à la demande et spot pour exécuter les charges de travail d'inférence d'AI à une fraction des coûts traditionnels des GPU cloud, avec une architecture d'instances "chaudes" pour minimiser les démarrages à froid.
Architecture
- Calcul : Pods GPU RunPod pour les charges de travail d'inférence, avec un niveau de GPU sélectionné par charge de travail
- Orchestration : Orchestrateur FastAPI sur le cloud principal gérant les pods RunPod
- Réseautage : Tunnels sécurisés entre l'infrastructure principale et les instances RunPod
- Stockage de Modèles : Images Docker pré-construites avec modèles intégrés pour un démarrage rapide
- Surveillance : Vérifications de l'état de santé et redémarrage automatique pour la disponibilité des pods
Conception de l'Infrastructure
Configuration des Pods
- Sélection de GPU : Niveaux de GPU rentables sélectionnés par charge de travail, réalisant ~85-90% d'économies par rapport aux instances GPU équivalentes des principaux fournisseurs de cloud
- Modèles Docker : Conteneurs personnalisés avec des modèles d'AI préchargés pour l'inférence
- Stockage Persistant : Volumes réseau pour les poids des modèles et les fichiers de configuration
- Variables d'Environnement : Configuration dynamique pour les points d'accès des flux, les clés API et les indicateurs de fonctionnalités
Stratégie d'Instance Chaude
Au lieu de démarrer à froid des pods par requête, nous maintenons des instances "chaudes" pendant les heures d'exploitation :
- Mise à l'échelle Planifiée — Les pods sont démarrés avant les heures de pointe, arrêtés pendant les heures creuses
- Modèles Préchargés — Les moteurs d'inférence sont chargés au démarrage du conteneur, prêts immédiatement
- Sondes de Santé — L'orchestrateur surveille régulièrement les pods RunPod pour vérifier leur état de préparation
- Récupération Automatique — Les pods non sains sont automatiquement remplacés via l'API RunPod
Communication Inter-Cloud
- Cloud Principal : Serveurs API, bases de données, processus d'enregistrement
- Cloud GPU (RunPod) : Inférence d'AI, détection d'objets, suivi
- Flux de Données : Les images vidéo sont envoyées du cloud principal à RunPod pour l'inférence ; les résultats de détection sont renvoyés via WebSocket
- Synchronisation des Horodatages : Synchronisation basée sur PTS pour gérer le décalage horaire entre les clouds
Optimisation des Coûts
Le modèle de tarification de RunPod a permis des économies significatives par rapport aux instances GPU équivalentes des principaux fournisseurs de cloud :
- À la Demande : Réduction de ~85-90% du coût horaire de calcul GPU
- Tarification Spot : 50% d'économies supplémentaires pour le traitement par lots non critique sur le cloud communautaire
- Arrêt Planifié : L'arrêt/démarrage automatisé basé sur les heures d'exploitation réduit davantage les coûts
- Dimensionnement Optimal : Sélectionner le niveau de GPU correspondant aux besoins réels en VRAM plutôt que le sur-provisionnement
- Distribution Multi-Pod : Répartir les flux sur des GPU plus petits et moins chers au lieu d'une seule grande instance
Flux de Travail de Déploiement
- Construction — Image Docker avec tous les modèles, dépendances et code applicatif
- Envoyer — L'image est envoyée vers un registre de conteneurs
- Déploiement — L'API RunPod crée un pod avec le GPU, l'image et les montages de volume spécifiés
- Configuration — Les variables d'environnement sont définies pour le déploiement spécifique
- Surveillance — L'orchestrateur vérifie l'état de santé du pod et commence à router les requêtes d'inférence
- Mise à l'échelle — Des pods supplémentaires sont lancés via l'API lorsque la charge augmente
Caractéristiques Clés
- Réduction Significative des Coûts — 85-90% d'économies par rapport aux instances GPU équivalentes des principaux clouds
- Conteneurs Pré-Construits — Modèles intégrés dans les images Docker pour un démarrage en moins de 30 secondes
- Mise à l'échelle via API — Création/destruction de pods programmatique basée sur la demande
- Prise en Charge Multi-GPU — Plusieurs niveaux de GPU disponibles en fonction des exigences de la charge de travail
- Repli sur Instances Spot — Les charges de travail non critiques s'exécutent sur un cloud communautaire à prix réduit
- Architecture Inter-Cloud — Le calcul GPU est découplé de l'infrastructure principale
Résultats
Stack Technologique
caseStudyDetail.more Études de Cas
Découvrez plus de nos implémentations techniques
On-Off Scaling Pattern pour les charges de travail d'AI et de traitement vidéo
Une plateforme de traitement vidéo basée sur l'AI devait gérer des charges de travail très variables — de zéro tâche pendant les heures creuses à des centaines de tâches concurrentes de traitement vidéo et d'inférence AI pendant les périodes de pointe — sans payer pour des ressources GPU et de calcul inactives.
Traitement de factures assisté par l'IA avec OCR et intégration QuickBooks
Une entreprise de taille moyenne, traitant des centaines de factures fournisseurs chaque mois, devait éliminer la saisie manuelle des données en extrayant automatiquement les données des factures à l'aide de l'IA/OCR et en les synchronisant directement dans QuickBooks pour la tenue de livres et le suivi des paiements.
PrĂŞt Ă Transformer Votre Entreprise ?
Discutons de la façon dont nous pouvons appliquer des solutions similaires à vos défis.