MicrocosmWorksInnover et Architecturer le Cosmos Numérique
Ă€ proposContact
MicrocosmWorksInnover et architecturer des cosmos numériques

Fournir des solutions informatiques qui comptent. Nous sommes passionnés par la technologie, la sécurité et aidons les entreprises à croître grâce à une infrastructure informatique fiable et innovante.

[email protected]
+91 7011868196
New Delhi, India

Hub de Croissance IA

Hub IAInnovation pour les startupsAccélérateur d'entreprise

Solutions

Toutes les solutionsApplications de bien-être et de fitnessPlateforme vidéo IADéveloppement d'agents IA

Ressources

PerspectivesGuides de l'industriePlans d'utilisationModèles d'architectureÉtudes de cas

Entreprise

Ă€ propos de nousContactNotre travail

Services

Consultation numériqueInfrastructure cloudDéveloppement SaaSDéveloppement IATechnologie vidéo
Développement ERPPersonnalisation ZohoDéveloppement OdooIntégration SalesforceDéveloppement CRM personnalisé
Intégration QuickBooksSolutions IoTDéveloppement Blockchain
Consultation en cybersécuritéSupport IT - L3

© 2026 MicrocosmWorks. Tous droits réservés.

Politique de confidentialitéConditions d'utilisation
Retour aux Études de Cas
Video CreationPublié June 22, 2026 · Mis à jour June 22, 2026

Suivi des visages AI et recadrage intelligent pour la conversion de vidéos verticales

Une plateforme de réutilisation de contenu avait besoin de convertir automatiquement des vidéos horizontales (16:9) de format long en extraits vidéo verticaux (9:16) de format court, tout en gardant les intervenants et les sujets parfaitement centrés — sans aucun recadrage manuel ni keyframing.

Discutez de Votre Projet
ai-face-tracking-vertical-reframing.webp
Video Creation
Domain
7
Technologies
4
Key Results
Delivered
Status

Le Défi

La conversion de vidéos horizontales au format vertical était l'une des étapes les plus fastidieuses de la production de contenu de format court :

  • Le recadrage et le repositionnement manuels de l'image pour chaque extrait Ă©taient chronophages
  • Les conversations Ă  plusieurs personnes nĂ©cessitaient un recadrage dynamique Ă  mesure que les intervenants changeaient
  • Un recadrage central statique coupait les intervenants qui bougeaient ou s'asseyaient en dehors du centre
  • La dĂ©tection de visages traditionnelle Ă©tait trop lente pour des dĂ©cisions de recadrage en temps rĂ©el sur des milliers d'extraits
  • DiffĂ©rents types de contenu (entretiens, vlogs solos, prĂ©sentations) nĂ©cessitaient diffĂ©rentes stratĂ©gies de cadrage

Notre Solution

Nous avons conçu un moteur de suivi des visages et de recadrage intelligent alimenté par l'AI qui détecte les visages dans les images vidéo, suit leurs mouvements et ajuste dynamiquement la région de recadrage verticale pour maintenir le sujet actif centré.

Architecture

  • DĂ©tection de visages : modèle de dĂ©tection de visages basĂ© sur YOLO, optimisĂ© pour la vitesse
  • Suivi de visages : suivi image par image basĂ© sur IoU avec des identifiants de sujet persistants
  • Moteur de recadrage : Calcul dynamique de la rĂ©gion de recadrage basĂ© sur les positions et les mouvements des visages
  • Couplage avec l'intervenant actif : IntĂ©gration avec la dĂ©tection des intervenants pour prioriser la personne qui parle
  • Rendu : ChaĂ®ne de filtres de recadrage FFmpeg avec des transitions de panoramique fluides

Pipeline de recadrage

  1. Détection de visages - Exécuter la détection de visages YOLO sur les images échantillonnées
  2. Suivi du sujet - Lier les détections de visages à travers les images en utilisant un suivi basé sur IoU
  3. Priorité à l'intervenant - Lorsqu'il est couplé avec la détection de l'intervenant actif, prioriser le sujet parlant
  4. Calcul du recadrage - Déterminer la région de recadrage 9:16 optimale basée sur la position du sujet principal
  5. Lissage - Appliquer un lissage au mouvement de recadrage pour éviter les sauts brusques
  6. Rendu - FFmpeg applique le recadrage dynamique avec des transitions de panoramique fluides

Fonctionnalités clés

  1. Gestion multi-sujets - Suit plusieurs visages et détermine le sujet principal par segment
  2. Cadrage sensible à l'intervenant - Priorise l'intervenant actif lorsqu'il est intégré à la détection des intervenants
  3. Transitions fluides - Le panoramique lissé entre les sujets élimine les coupes brusques
  4. Adaptation au type de contenu - Différentes stratégies de cadrage pour le contenu solo, d'entretien et de groupe
  5. Traitement par lots - Recadrer des centaines d'extraits à partir d'une seule vidéo de format long
  6. Aucune intervention manuelle - Entièrement automatisé de la détection au rendu final

Résultats

Gain de temps : 2 à 5 minutes de recadrage manuel par extrait éliminées
Qualité : Les sujets sont restés centrés dans plus de 95 % des cas sur l'ensemble du contenu testé
Échelle : Traité des milliers d'extraits quotidiennement sans intervention humaine

Stack Technologique

YOLOPythonFFmpegOpenCVIoU TrackingNode.jsGPU-Accelerated Inference

caseStudyDetail.more Études de Cas

Découvrez plus de nos implémentations techniques

Video Creation

Planification et analyse de la performance des médias sociaux multiplateformes

Les créateurs de contenu produisant des dizaines de clips courts chaque semaine avaient besoin d'un système unifié de planification et d'analyse pour distribuer du contenu sur TikTok, YouTube Shorts et Instagram Reels à partir d'un tableau de bord unique — avec des aperçus pour optimiser la stratégie de publication.

Lire l'Étude de Cas
Video Creation

Traduction de sous-titres multilingues pour la distribution mondiale de contenu

Les créateurs de contenu avec des audiences internationales avaient besoin d'étendre leur portée en traduisant les sous-titres vidéo dans plus de 30 langues tout en préservant l'audio original, permettant aux spectateurs du monde entier de consommer le contenu dans leur langue maternelle.

Questions fréquemment posées

MicrocosmWorks implemented a hybrid tracking approach that combines a lightweight face detector running every 5th frame with a KCF optical flow tracker for inter-frame predictions. When occlusion is detected via confidence score drops, the system maintains the last known trajectory with Kalman filtering and re-acquires the face within 200ms of it becoming visible again.

MicrocosmWorks built a saliency-weighted cropping algorithm that prioritizes detected faces, then text regions, then motion areas when determining the 9:16 crop window position. For multi-person scenes, the system uses a configurable priority ranking, defaulting to the active speaker or the largest face, with smooth interpolation between crop positions to avoid jarring shifts.

Yes, MicrocosmWorks implemented a fallback saliency detection mode that activates when no faces are present, using a combination of motion detection, visual attention modeling, and mouse cursor tracking for screen recordings. The system intelligently follows the most relevant content region even in purely visual or text-based footage.

MicrocosmWorks optimized the pipeline for batch workflows, achieving 8x real-time processing speed on a single NVIDIA T4 GPU, meaning a 10-minute video is reframed in approximately 75 seconds. The system supports parallel processing across multiple GPUs, scaling linearly for high-volume content operations.

MicrocosmWorks develops AI video reframing systems at rates of $25-$45/hr, with a full face tracking and smart reframing solution including model optimization, batch processing support, and API integration typically requiring 350-550 development hours. This investment eliminates the need for manual reframing editors, which typically cost $5-$15 per video.

PrĂŞt Ă  Transformer Votre Entreprise ?

Discutons de la façon dont nous pouvons appliquer des solutions similaires à vos défis.

Contactez-NouscaseStudyDetail.viewAllCaseStudies
Satisfaction des créateurs : Les extraits verticaux semblaient cadrés de manière professionnelle sans édition manuelle
Lire l'Étude de Cas
Video Creation

Moteur de style de sous-titres et d'exportation vidéo automatisé

Les créateurs de vidéos avaient besoin d'un système rapide et fiable pour appliquer des sous-titres animés de qualité professionnelle à des vidéos courtes, avec un rendu parfait au pixel près sur différents styles et plateformes.

Lire l'Étude de Cas