MicrocosmWorksInnovando y Arquitectando el Cosmos Digital
Acerca deContacto
MicrocosmWorksInnovando y Arquitectando el Cosmos Digital

Ofreciendo soluciones de TI que importan. Nos apasiona la tecnología, la seguridad y ayudar a las empresas a crecer a través de una infraestructura de TI confiable e innovadora.

[email protected]
+91 7011868196
New Delhi, India

Centro de Crecimiento de IA

Centro de IAInnovación para StartupsAcelerador Empresarial

Soluciones

Todas las SolucionesAplicaciones de Bienestar y FitnessPlataforma de Video con IADesarrollo de Agentes de IA

Recursos

PerspectivasGuías de la IndustriaPlanos de Casos de UsoPatrones de ArquitecturaEstudios de Caso

Compañía

Sobre NosotrosContactoNuestro Trabajo

Servicios

Consultoría DigitalInfraestructura en la NubeDesarrollo SaaSDesarrollo de IATecnología de Video
Desarrollo ERPPersonalización de ZohoDesarrollo de OdooIntegración de SalesforceDesarrollo de CRM Personalizado
Integración de QuickBooksSoluciones IoTDesarrollo de Blockchain
Consultoría de CiberseguridadSoporte IT - L3

© 2026 MicrocosmWorks. Todos los derechos reservados.

Política de PrivacidadTérminos de Servicio
Volver a Casos de Estudio
Video CreationPublicado June 22, 2026 · Actualizado June 22, 2026

Seguimiento facial con AI y reencuadre inteligente para conversión de video vertical

Una plataforma de reutilización de contenido necesitaba convertir automáticamente videos largos horizontales (16:9) en clips cortos verticales (9:16) manteniendo a los oradores y sujetos perfectamente centrados, sin recortes ni keyframing manuales.

Discuta Su Proyecto
ai-face-tracking-vertical-reframing.webp
Video Creation
Domain
7
Technologies
4
Key Results
Delivered
Status

El Desafío

Convertir video horizontal a formato vertical era uno de los pasos más tediosos en la producción de contenido de formato corto:

  • Recortar y reposicionar manualmente el encuadre para cada clip consumía mucho tiempo
  • Las conversaciones de varias personas requerían un reencuadre dinámico a medida que los oradores cambiaban
  • El recorte central estático dejaba fuera a los oradores que se movían o se sentaban descentrados
  • La detección facial tradicional era demasiado lenta para decisiones de reencuadre en tiempo real a lo largo de miles de clips
  • Diferentes tipos de contenido (entrevistas, vlogs individuales, presentaciones) requerían diferentes estrategias de encuadre

Nuestra Solución

Construimos un motor de seguimiento facial impulsado por AI y reencuadre inteligente que detecta rostros en los fotogramas de video, rastrea su movimiento y ajusta dinámicamente la región de recorte vertical para mantener al sujeto activo centrado.

Arquitectura

  • Detección Facial: modelo de detección facial basado en YOLO optimizado para la velocidad
  • Seguimiento Facial: seguimiento fotograma a fotograma basado en IoU con IDs de sujeto persistentes
  • Motor de Reencuadre: Cálculo dinámico de la región de recorte basado en las posiciones y el movimiento de los rostros
  • Acoplamiento de Orador Activo: Integración con detección de orador para priorizar a la persona que habla
  • Renderizado: cadena de filtros de recorte de FFmpeg con transiciones de paneo suaves

Pipeline de Reencuadre

  1. Detección Facial - Ejecutar detección facial de YOLO en fotogramas muestreados
  2. Seguimiento de Sujetos - Vincular detecciones faciales a través de los fotogramas usando seguimiento basado en IoU
  3. Prioridad de Orador - Cuando se acopla con la detección de orador activo, priorizar al sujeto que habla
  4. Cálculo de Recorte - Determinar la región de recorte 9:16 óptima basado en la posición del sujeto principal
  5. Suavizado - Aplicar suavizado al movimiento de recorte para evitar saltos bruscos
  6. Renderizado - FFmpeg aplica el recorte dinámico con transiciones de paneo suaves

Características Clave

  1. Manejo de Múltiples Sujetos - Rastrea múltiples rostros y determina el sujeto principal por segmento
  2. Encuadre Consciente del Orador - Prioriza al orador activo cuando se integra con la detección de orador
  3. Transiciones Suaves - El paneo suavizado entre sujetos elimina cortes bruscos
  4. Adaptación al Tipo de Contenido - Diferentes estrategias de encuadre para contenido individual, de entrevista y de grupo
  5. Procesamiento por Lotes - Reencuadrar cientos de clips de un solo video de formato largo
  6. Sin Intervención Manual - Totalmente automatizado desde la detección hasta el renderizado final

Resultados

Ahorro de Tiempo: Eliminó 2-5 minutos de recorte manual por clip
Calidad: Los sujetos permanecieron centrados 95%+ del tiempo en el contenido probado
Escalabilidad: Procesó miles de clips diariamente sin intervención humana

Stack Tecnológico

YOLOPythonFFmpegOpenCVIoU TrackingNode.jsGPU-Accelerated Inference

caseStudyDetail.more Casos de Estudio

Explore más de nuestras implementaciones técnicas

Video Creation

Programación multiplataforma de redes sociales y análisis de rendimiento

Los creadores de contenido que producen docenas de clips cortos semanalmente necesitaban un sistema unificado de programación y análisis para distribuir contenido en TikTok, YouTube Shorts e Instagram Reels desde un único panel de control — con información para optimizar la estrategia de publicación.

Leer Caso de Estudio
Video Creation

Traducción de subtítulos multi-idioma para la distribución global de contenido

Los creadores de contenido con audiencias internacionales necesitaban expandir su alcance traduciendo los subtítulos de los videos a más de 30 idiomas, preservando al mismo tiempo el audio original, permitiendo que espectadores de todo el mundo consumieran el contenido en su idioma nativo.

Preguntas Frecuentes

MicrocosmWorks implemented a hybrid tracking approach that combines a lightweight face detector running every 5th frame with a KCF optical flow tracker for inter-frame predictions. When occlusion is detected via confidence score drops, the system maintains the last known trajectory with Kalman filtering and re-acquires the face within 200ms of it becoming visible again.

MicrocosmWorks built a saliency-weighted cropping algorithm that prioritizes detected faces, then text regions, then motion areas when determining the 9:16 crop window position. For multi-person scenes, the system uses a configurable priority ranking, defaulting to the active speaker or the largest face, with smooth interpolation between crop positions to avoid jarring shifts.

Yes, MicrocosmWorks implemented a fallback saliency detection mode that activates when no faces are present, using a combination of motion detection, visual attention modeling, and mouse cursor tracking for screen recordings. The system intelligently follows the most relevant content region even in purely visual or text-based footage.

MicrocosmWorks optimized the pipeline for batch workflows, achieving 8x real-time processing speed on a single NVIDIA T4 GPU, meaning a 10-minute video is reframed in approximately 75 seconds. The system supports parallel processing across multiple GPUs, scaling linearly for high-volume content operations.

MicrocosmWorks develops AI video reframing systems at rates of $25-$45/hr, with a full face tracking and smart reframing solution including model optimization, batch processing support, and API integration typically requiring 350-550 development hours. This investment eliminates the need for manual reframing editors, which typically cost $5-$15 per video.

¿Listo para Transformar su Negocio?

Hablemos sobre cómo podemos aplicar soluciones similares a sus desafíos.

ContáctenoscaseStudyDetail.viewAllCaseStudies
Satisfacción del Creador: Los clips verticales se veían profesionalmente encuadrados sin edición manual
Leer Caso de Estudio
Video Creation

Motor automatizado de estilos de subtítulos y exportación de video

Los creadores de video necesitaban un sistema rápido y fiable para aplicar subtítulos animados de calidad profesional a videos de formato corto con renderizado perfecto en cada píxel en diferentes estilos y plataformas.

Leer Caso de Estudio