Comment l'algorithme de suivi facial maintient-il sa précision lorsque les sujets se déplacent rapidement ou sont partiellement occlus ?

MicrocosmWorks a mis en œuvre une approche de suivi hybride qui combine un détecteur de visage léger fonctionnant toutes les 5 images avec un suiveur de flux optique KCF pour les prédictions inter-images. Lorsqu'une occlusion est détectée via des baisses de score de confiance, le système maintient la dernière trajectoire connue avec un filtrage de Kalman et réacquiert le visage dans les 200 ms après qu'il soit redevenu visible.

Comment le recadrage intelligent décide-t-il où recadrer lors de la conversion de séquences paysage 16:9 en 9:16 vertical ?

MicrocosmWorks a développé un algorithme de recadrage pondéré par la saillance qui priorise les visages détectés, puis les régions de texte, puis les zones de mouvement lors de la détermination de la position de la fenêtre de recadrage 9:16. Pour les scènes multi-personnes, le système utilise un classement de priorité configurable, donnant la priorité par défaut à l'orateur actif ou au visage le plus grand, avec une interpolation fluide entre les positions de recadrage pour éviter les changements brusques.

Le système de recadrage peut-il gérer du contenu vidéo sans aucun visage, tel que des démonstrations de produits ou des enregistrements d'écran ?

Oui, MicrocosmWorks a mis en œuvre un mode de détection de saillance de secours qui s'active lorsqu'aucun visage n'est présent, en utilisant une combinaison de détection de mouvement, de modélisation de l'attention visuelle et de suivi du curseur de la souris pour les enregistrements d'écran. Le système suit intelligemment la région de contenu la plus pertinente même dans des séquences purement visuelles ou textuelles.

Quelle vitesse de traitement le système de suivi et de recadrage facial atteint-il pour le traitement par lots ?

MicrocosmWorks a optimisé le pipeline pour les flux de travail par lots, atteignant une vitesse de traitement 8x en temps réel sur un seul GPU NVIDIA T4, ce qui signifie qu'une vidéo de 10 minutes est recadrée en environ 75 secondes. Le système prend en charge le traitement parallèle sur plusieurs GPU, s'adaptant linéairement pour les opérations de contenu à grand volume.

Quel est le coût de la construction d'une solution de suivi de visage par AI et de recadrage vertical avec MicrocosmWorks ?

MicrocosmWorks développe des systèmes de recadrage vidéo basés sur l'AI à des tarifs de 25 à 45 $/heure, avec une solution complète de suivi de visage et de recadrage intelligent incluant l'optimisation des modèles, le support du traitement par lots et l'intégration d'API, nécessitant généralement entre 350 et 550 heures de développement. Cet investissement élimine le besoin d'éditeurs de recadrage manuels, qui coûtent généralement de 5 à 15 $ par vidéo.

AI Face Tracking & Smart Reframing for Vertical Video Con...

Suivi des visages AI et recadrage intelligent pour la conversion de vidéos verticales

Une plateforme de réutilisation de contenu avait besoin de convertir automatiquement des vidéos horizontales (16:9) de format long en extraits vidéo verticaux (9:16) de format court, tout en gardant les intervenants et les sujets parfaitement centrés — sans aucun recadrage manuel ni keyframing.

Discutez de Votre Projet

La conversion de vidéos horizontales au format vertical était l'une des étapes les plus fastidieuses de la production de contenu de format court :

Le recadrage et le repositionnement manuels de l'image pour chaque extrait étaient chronophages
Les conversations à plusieurs personnes nécessitaient un recadrage dynamique à mesure que les intervenants changeaient
Un recadrage central statique coupait les intervenants qui bougeaient ou s'asseyaient en dehors du centre
La détection de visages traditionnelle était trop lente pour des décisions de recadrage en temps réel sur des milliers d'extraits
Différents types de contenu (entretiens, vlogs solos, présentations) nécessitaient différentes stratégies de cadrage

Nous avons conçu un moteur de suivi des visages et de recadrage intelligent alimenté par l'AI qui détecte les visages dans les images vidéo, suit leurs mouvements et ajuste dynamiquement la région de recadrage verticale pour maintenir le sujet actif centré.

Architecture

Détection de visages : modèle de détection de visages basé sur YOLO, optimisé pour la vitesse
Suivi de visages : suivi image par image basé sur IoU avec des identifiants de sujet persistants
Moteur de recadrage : Calcul dynamique de la région de recadrage basé sur les positions et les mouvements des visages
Couplage avec l'intervenant actif : Intégration avec la détection des intervenants pour prioriser la personne qui parle
Rendu : Chaîne de filtres de recadrage FFmpeg avec des transitions de panoramique fluides

Pipeline de recadrage

Détection de visages - Exécuter la détection de visages YOLO sur les images échantillonnées
Suivi du sujet - Lier les détections de visages à travers les images en utilisant un suivi basé sur IoU
Priorité à l'intervenant - Lorsqu'il est couplé avec la détection de l'intervenant actif, prioriser le sujet parlant
Calcul du recadrage - Déterminer la région de recadrage 9:16 optimale basée sur la position du sujet principal
Lissage - Appliquer un lissage au mouvement de recadrage pour éviter les sauts brusques
Rendu - FFmpeg applique le recadrage dynamique avec des transitions de panoramique fluides

Fonctionnalités clés

Gestion multi-sujets - Suit plusieurs visages et détermine le sujet principal par segment
Cadrage sensible à l'intervenant - Priorise l'intervenant actif lorsqu'il est intégré à la détection des intervenants
Transitions fluides - Le panoramique lissé entre les sujets élimine les coupes brusques
Adaptation au type de contenu - Différentes stratégies de cadrage pour le contenu solo, d'entretien et de groupe
Traitement par lots - Recadrer des centaines d'extraits à partir d'une seule vidéo de format long
Aucune intervention manuelle - Entièrement automatisé de la détection au rendu final

Suivi des visages AI et recadrage intelligent pour la conversion de vidéos verticales

Le Défi

Notre Solution

Architecture

Pipeline de recadrage

Fonctionnalités clés

Résultats

Stack Technologique

caseStudyDetail.more Études de Cas

Planification et analyse de la performance des médias sociaux multiplateformes

Traduction de sous-titres multilingues pour la distribution mondiale de contenu

Prêt à Transformer Votre Entreprise ?

Moteur de style de sous-titres et d'exportation vidéo automatisé

Questions fréquemment posées