Suivi des visages AI et recadrage intelligent pour la conversion de vidéos verticales
Une plateforme de réutilisation de contenu avait besoin de convertir automatiquement des vidéos horizontales (16:9) de format long en extraits vidéo verticaux (9:16) de format court, tout en gardant les intervenants et les sujets parfaitement centrés — sans aucun recadrage manuel ni keyframing.
Discutez de Votre ProjetLe Défi
La conversion de vidéos horizontales au format vertical était l'une des étapes les plus fastidieuses de la production de contenu de format court :
- Le recadrage et le repositionnement manuels de l'image pour chaque extrait étaient chronophages
- Les conversations à plusieurs personnes nécessitaient un recadrage dynamique à mesure que les intervenants changeaient
- Un recadrage central statique coupait les intervenants qui bougeaient ou s'asseyaient en dehors du centre
- La détection de visages traditionnelle était trop lente pour des décisions de recadrage en temps réel sur des milliers d'extraits
- Différents types de contenu (entretiens, vlogs solos, présentations) nécessitaient différentes stratégies de cadrage
Notre Solution
Nous avons conçu un moteur de suivi des visages et de recadrage intelligent alimenté par l'AI qui détecte les visages dans les images vidéo, suit leurs mouvements et ajuste dynamiquement la région de recadrage verticale pour maintenir le sujet actif centré.
Architecture
- Détection de visages : modèle de détection de visages basé sur YOLO, optimisé pour la vitesse
- Suivi de visages : suivi image par image basé sur IoU avec des identifiants de sujet persistants
- Moteur de recadrage : Calcul dynamique de la région de recadrage basé sur les positions et les mouvements des visages
- Couplage avec l'intervenant actif : Intégration avec la détection des intervenants pour prioriser la personne qui parle
- Rendu : Chaîne de filtres de recadrage FFmpeg avec des transitions de panoramique fluides
Pipeline de recadrage
- Détection de visages - Exécuter la détection de visages YOLO sur les images échantillonnées
- Suivi du sujet - Lier les détections de visages à travers les images en utilisant un suivi basé sur IoU
- Priorité à l'intervenant - Lorsqu'il est couplé avec la détection de l'intervenant actif, prioriser le sujet parlant
- Calcul du recadrage - Déterminer la région de recadrage 9:16 optimale basée sur la position du sujet principal
- Lissage - Appliquer un lissage au mouvement de recadrage pour éviter les sauts brusques
- Rendu - FFmpeg applique le recadrage dynamique avec des transitions de panoramique fluides
Fonctionnalités clés
- Gestion multi-sujets - Suit plusieurs visages et détermine le sujet principal par segment
- Cadrage sensible à l'intervenant - Priorise l'intervenant actif lorsqu'il est intégré à la détection des intervenants
- Transitions fluides - Le panoramique lissé entre les sujets élimine les coupes brusques
- Adaptation au type de contenu - Différentes stratégies de cadrage pour le contenu solo, d'entretien et de groupe
- Traitement par lots - Recadrer des centaines d'extraits à partir d'une seule vidéo de format long
- Aucune intervention manuelle - Entièrement automatisé de la détection au rendu final
Résultats
Stack Technologique
caseStudyDetail.more Études de Cas
Découvrez plus de nos implémentations techniques
Planification et analyse de la performance des médias sociaux multiplateformes
Les créateurs de contenu produisant des dizaines de clips courts chaque semaine avaient besoin d'un système unifié de planification et d'analyse pour distribuer du contenu sur TikTok, YouTube Shorts et Instagram Reels à partir d'un tableau de bord unique — avec des aperçus pour optimiser la stratégie de publication.
Traduction de sous-titres multilingues pour la distribution mondiale de contenu
Les créateurs de contenu avec des audiences internationales avaient besoin d'étendre leur portée en traduisant les sous-titres vidéo dans plus de 30 langues tout en préservant l'audio original, permettant aux spectateurs du monde entier de consommer le contenu dans leur langue maternelle.
Questions fréquemment posées
MicrocosmWorks implemented a hybrid tracking approach that combines a lightweight face detector running every 5th frame with a KCF optical flow tracker for inter-frame predictions. When occlusion is detected via confidence score drops, the system maintains the last known trajectory with Kalman filtering and re-acquires the face within 200ms of it becoming visible again.
MicrocosmWorks built a saliency-weighted cropping algorithm that prioritizes detected faces, then text regions, then motion areas when determining the 9:16 crop window position. For multi-person scenes, the system uses a configurable priority ranking, defaulting to the active speaker or the largest face, with smooth interpolation between crop positions to avoid jarring shifts.
Yes, MicrocosmWorks implemented a fallback saliency detection mode that activates when no faces are present, using a combination of motion detection, visual attention modeling, and mouse cursor tracking for screen recordings. The system intelligently follows the most relevant content region even in purely visual or text-based footage.
MicrocosmWorks optimized the pipeline for batch workflows, achieving 8x real-time processing speed on a single NVIDIA T4 GPU, meaning a 10-minute video is reframed in approximately 75 seconds. The system supports parallel processing across multiple GPUs, scaling linearly for high-volume content operations.
MicrocosmWorks develops AI video reframing systems at rates of $25-$45/hr, with a full face tracking and smart reframing solution including model optimization, batch processing support, and API integration typically requiring 350-550 development hours. This investment eliminates the need for manual reframing editors, which typically cost $5-$15 per video.
PrĂŞt Ă Transformer Votre Entreprise ?
Discutons de la façon dont nous pouvons appliquer des solutions similaires à vos défis.