Pagsubaybay ng Mukha gamit ang AI at Matalinong Pag-reframe para sa Pagko-convert ng Vertical Video
Isang platform para sa pagre-repurpose ng content ang nangangailangan na awtomatikong mag-convert ng mga horizontal (16:9) long-form na video sa mga vertical (9:16) short-form na clip habang pinananatiling perpektong nakasentro ang mga nagsasalita at paksa โ nang walang anumang manual na pag-crop o keyframing.
Pag-usapan ang Iyong ProyektoAng Hamon
Ang pag-convert ng horizontal video sa vertical format ay isa sa mga pinakamahirap na hakbang sa produksyon ng short-form na content:
- Ang manual na pag-crop at pagre-reposition ng frame para sa bawat clip ay nakakaubos ng oras
- Ang mga multi-person na pag-uusap ay nangangailangan ng dynamic na pag-reframe habang nagbabago ang mga nagsasalita
- Ang static na center-crop ay napuputol ang mga nagsasalita na gumalaw o umupo nang off-center
- Masyadong mabagal ang tradisyonal na face detection para sa real-time na paggawa ng desisyon sa pag-reframe sa libu-libong clip
- Ang iba't ibang uri ng content (mga panayam, solo vlog, presentasyon) ay nangangailangan ng iba't ibang diskarte sa framing
Ang Aming Solusyon
Binuo namin ang isang engine para sa pagsubaybay ng mukha gamit ang AI at matalinong pag-reframe na nagde-detect ng mga mukha sa mga frame ng video, sumusubaybay sa kanilang paggalaw, at dynamic na nag-a-adjust sa vertical crop region upang panatilihing nakasentro ang aktibong paksa.
Arkitektura
- Pag-detect ng Mukha: Modelo ng face detection na batay sa YOLO na in-optimize para sa bilis
- Pagsubaybay ng Mukha: Pagsubaybay ng frame-to-frame na batay sa IoU na may persistent subject IDs
- Engine sa Pag-reframe: Dynamic na pagkwenta ng crop region batay sa posisyon at paggalaw ng mukha
- Pagkakakabit ng Aktibong Nagsasalita: Integrasyon sa speaker detection upang bigyan ng priyoridad ang taong nagsasalita
- Pag-render: FFmpeg crop filter chain na may maayos na paglipat ng pan
Pipeline ng Pag-reframe
- Pag-detect ng Mukha - Patakbuhin ang YOLO face detection sa mga sampled frame
- Pagsubaybay sa Paksa - Ikonekta ang mga face detection sa mga frame gamit ang IoU-based tracking
- Priyoridad ng Nagsasalita - Kapag nakakabit sa active speaker detection, bigyan ng priyoridad ang nagsasalitang paksa
- Pagkwenta ng Crop - Tukuyin ang optimal na 9:16 crop region batay sa posisyon ng pangunahing paksa
- Pagpapantay - Mag-apply ng easing sa paggalaw ng crop upang maiwasan ang biglaang pagtalon
- Pag-render - Inilalapat ng FFmpeg ang dynamic na crop na may maayos na paglipat ng pan
Pangunahing Katangian
- Paghawak ng Maraming Paksa - Sinusubaybayan ang maraming mukha at tinutukoy ang pangunahing paksa bawat segment
- Framing na May Kamalayan sa Nagsasalita - Binibigyan ng priyoridad ang aktibong nagsasalita kapag isinama sa speaker detection
- Maayos na Paglipat - Ang pinagaan na panning sa pagitan ng mga paksa ay nag-aalis ng biglaang pagputol
- Pag-angkop sa Uri ng Content - Iba't ibang diskarte sa framing para sa solo, panayam, at grupong content
- Batch Processing - I-reframe ang daan-daang clip mula sa isang long-form na video
- Walang Manual na Interbensyon - Ganap na awtomatiko mula sa detection hanggang sa huling render
Mga Resulta
Technology Stack
caseStudyDetail.more Mga Case Study
Tuklasin ang higit pa sa aming mga teknikal na implementasyon
Pag-iskedyul ng Social Media at Pagsusuri ng Pagganap para sa Maraming Platform
Ang mga tagalikha ng nilalaman na gumagawa ng dose-dosenang short-form clips linggu-linggo ay nangailangan ng isang pinag-isang sistema ng pag-iskedyul at analytics para ipamahagi ang nilalaman sa TikTok, YouTube Shorts, at Instagram Reels mula sa iisang dashboard โ na may mga pananaw para ma-optimize ang estratehiya sa pag-post.
Pagsasalin ng Caption sa Multi-Wika para sa Pandaigdigang Pamamahagi ng Nilalaman
Ang mga gumagawa ng nilalaman (content creators) na may pandaigdigang madla ay kinailangan palawakin ang kanilang abot sa pamamagitan ng pagsasalin ng mga caption ng video sa 30+ wika habang pinapanatili ang orihinal na audio, na nagbibigay-daan sa mga manonood sa buong mundo na kumonsumo ng nilalaman sa kanilang sariling wika.
Mga Madalas Itanong
MicrocosmWorks implemented a hybrid tracking approach that combines a lightweight face detector running every 5th frame with a KCF optical flow tracker for inter-frame predictions. When occlusion is detected via confidence score drops, the system maintains the last known trajectory with Kalman filtering and re-acquires the face within 200ms of it becoming visible again.
MicrocosmWorks built a saliency-weighted cropping algorithm that prioritizes detected faces, then text regions, then motion areas when determining the 9:16 crop window position. For multi-person scenes, the system uses a configurable priority ranking, defaulting to the active speaker or the largest face, with smooth interpolation between crop positions to avoid jarring shifts.
Yes, MicrocosmWorks implemented a fallback saliency detection mode that activates when no faces are present, using a combination of motion detection, visual attention modeling, and mouse cursor tracking for screen recordings. The system intelligently follows the most relevant content region even in purely visual or text-based footage.
MicrocosmWorks optimized the pipeline for batch workflows, achieving 8x real-time processing speed on a single NVIDIA T4 GPU, meaning a 10-minute video is reframed in approximately 75 seconds. The system supports parallel processing across multiple GPUs, scaling linearly for high-volume content operations.
MicrocosmWorks develops AI video reframing systems at rates of $25-$45/hr, with a full face tracking and smart reframing solution including model optimization, batch processing support, and API integration typically requiring 350-550 development hours. This investment eliminates the need for manual reframing editors, which typically cost $5-$15 per video.
Handa nang Baguhin ang Iyong Negosyo?
Pag-usapan natin kung paano namin mailalapat ang katulad na mga solusyon sa iyong mga hamon.