Analyse vidéo multi-flux en temps réel avec AI accélérée par GPU
Un fournisseur de sécurité d'entreprise avait besoin de traiter plusieurs flux vidéo en direct simultanément avec détection alimentée par l'AI, fournissant des alertes en temps réel avec une synchronisation précise des horodatages à travers une infrastructure distribuée.
Discutez de Votre Projet
Le Défi
Le traitement de plusieurs flux RTSP avec AI nécessitait la résolution de plusieurs problèmes complexes :
- Les contraintes de mémoire GPU limitaient le traitement concurrent des flux
- Le décalage d'horloge entre les machines d'enregistrement et les machines d'inférence entraînait une dérive des horodatages
- Les modèles de détection traditionnels étaient trop lents pour les scénarios multi-flux en temps réel
- Les événements devaient correspondre précisément aux positions de lecture vidéo pour examen
Notre Solution
Nous avons conçu une plateforme d'inférence AI distribuée optimisée pour le traitement multi-flux en temps réel avec synchronisation des horodatages basée sur le PTS.
Architecture
- Moteur d'inférence: YOLO11 avec accélération TensorRT sur NVIDIA RTX 4000 Ada
- Suivi: ByteTrack suivi multi-objets avec attribution d'ID persistante
- Diffusion: MediaMTX pour la conversion de protocole RTSP/HLS/RTMP
- Communication: Canaux WebSocket doubles (superposition des détections en direct + alertes d'événements)
- Infrastructure: DigitalOcean (enregistrement) + RunPod (inférence GPU)
Techniques d'optimisation
- Accélération TensorRT - Compilation du modèle vers TensorRT pour une inférence par lot d'environ 15ms
- Micro-traitement par lots - Les images de plusieurs flux traitées par lots pour l'efficacité du GPU
- Gestion de la mémoire - Utilisation de 4 à 6 Go de VRAM pour 10 à 12 flux concurrents
- Synchronisation des horodatages PTS - Synchronisation basée sur les horodatages de présentation corrigeant le décalage d'horloge entre machines
- Correction du décalage inter-machines - Calcul automatique du décalage temporel entre les nœuds distribués
Pipeline de détection
- Détection de personnes/véhicules avec score de confiance
- Reconnaissance de plaques d'immatriculation et extraction de texte via EasyOCR
- Détection de feux et de fumée avec sensibilité configurable
- Analyse comportementale (durée de flânerie, zones d'intrusion, seuils d'occupation)
Fonctionnalités clés
- Canaux WebSocket doubles - Flux séparés pour les données de superposition vidéo et les événements d'alerte
- Synchronisation PTS - Les horodatages d'événements correspondent aux positions exactes de lecture vidéo
- Suivi d'objets persistant - ByteTrack maintient les ID à travers les images pour un suivi cohérent
- Zones de détection configurables - Définir les zones d'intrusion/flânerie par caméra
- Mise à l'échelle automatique - Allocation dynamique des flux basée sur la disponibilité du GPU
Résultats
Stack Technologique
caseStudyDetail.more Études de Cas
Découvrez plus de nos implémentations techniques
Traitement de factures assisté par l'IA avec OCR et intégration QuickBooks
Une entreprise de taille moyenne, traitant des centaines de factures fournisseurs chaque mois, devait éliminer la saisie manuelle des données en extrayant automatiquement les données des factures à l'aide de l'IA/OCR et en les synchronisant directement dans QuickBooks pour la tenue de livres et le suivi des paiements.
Insertion d'annonces côté client (CSAI) avec analyse des marqueurs SCTE-35 et intégration de lecteurs multiplateformes
Une plateforme de streaming vidéo devait implémenter l'insertion d'annonces côté client (CSAI) sur les applications web, mobiles et de télévision connectée — permettant des expériences publicitaires personnalisées au niveau de l'appareil avec un support complet d'interaction publicitaire (superpositions cliquables, bannières complémentaires, boutons de saut) que l'insertion côté serveur ne peut pas offrir.
PrĂŞt Ă Transformer Votre Entreprise ?
Discutons de la façon dont nous pouvons appliquer des solutions similaires à vos défis.