AI-kasvojenseuranta ja älykäs uudelleenkehystys pystyvideokonvertointiin
Sisällön uudelleenkäyttöalusta tarvitsi automaattisesti muuntaa vaakatason (16:9) pitkiä videoita pystytason (9:16) lyhyiksi klipeiksi pitäen puhujat ja kohteet täysin keskellä — ilman manuaalista rajausta tai avainkehystystä.
Keskustele ProjektistasiHaaste
Vaakavideon muuntaminen pystyformaattiin oli yksi työläimmistä vaiheista lyhytmuotoisen sisällön tuotannossa:
- Kehyksen manuaalinen rajaaminen ja uudelleenasettelu joka klipille oli aikaa vievää
- Usean henkilön keskustelut vaativat dynaamista uudelleenkehystystä puhujien vaihtuessa
- Staattinen keskeltä rajaus leikkasi pois puhujia, jotka liikkuivat tai istuivat pois keskeltä
- Perinteinen kasvojentunnistus oli liian hidas reaaliaikaisiin uudelleenkehystyspäätöksiin tuhansien klippien yli
- Erilaiset sisältötyypit (haastattelut, soolovlogit, esitykset) vaativat erilaisia kehystysstrategioita
Meidän Ratkaisumme
Rakensimme AI-pohjaisen kasvojenseuranta- ja älykkään uudelleenkehystysmoottorin, joka tunnistaa kasvot videokehyksistä, seuraa niiden liikettä ja säätää dynaamisesti pystysuuntaista rajausaluetta pitääkseen aktiivisen kohteen keskellä.
Arkkitehtuuri
- Kasvojentunnistus: YOLO-pohjainen kasvojentunnistusmalli, joka on optimoitu nopeuteen
- Kasvojenseuranta: IoU-pohjainen kehyksestä-kehykseen -seuranta pysyvillä kohteen tunnuksilla
- Uudelleenkehystysmoottori: Dynaaminen rajausalueen laskenta perustuen kasvojen sijainteihin ja liikkeeseen
- Aktiivisen puhujan kytkentä: Integrointi puhujantunnistukseen puheenaiheen priorisoimiseksi
- Renderöinti: FFmpeg-rajaussuodatinketju pehmeillä panoraamasiirtymillä
Uudelleenkehystysputki
- Kasvojentunnistus - Suorita YOLO-kasvojentunnistus näytteenottokehysten yli
- Kohteen seuranta - Linkitä kasvojentunnistukset kehyksistä toiseen käyttäen IoU-pohjaista seurantaa
- Puhujan priorisointi - Kun yhdistetty aktiivisen puhujan tunnistukseen, priorisoi puhuva kohde
- Rajauksen laskenta - Määritä optimaalinen 9:16 rajausalue perustuen ensisijaisen kohteen sijaintiin
- Tasaisuus - Käytä pehmennystä rajauksen liikkeeseen välttääksesi nykiviä hyppyjä
- Renderöinti - FFmpeg soveltaa dynaamista rajausta pehmeillä panoraamasiirtymillä
Avainominaisuudet
- Usean kohteen käsittely - Seuraa useita kasvoja ja määrittää ensisijaisen kohteen segmenttiä kohti
- Puhujatietoinen kehystys - Priorisoi aktiivisen puhujan, kun integroitu puhujantunnistuksen kanssa
- Pehmeät siirtymät - Pehmennetty panorointi kohteiden välillä eliminoi nykivät leikkaukset
- Sisältötyypin mukauttaminen - Erilaiset kehystysstrategiat soolo-, haastattelu- ja ryhmäsisällölle
- Eräajokäsittely - Uudelleenkehystä satoja klippejä yhdestä pitkästä videosta
- Ei manuaalista puuttumista - Täysin automatisoitu tunnistuksesta lopulliseen renderöintiin
Tulokset
Teknologiapino
caseStudyDetail.more Tapaustutkimukset
Tutustu lisää teknisiin toteutuksiimme
Ristitason sosiaalisen median ajastus ja suorituskykyanalytiikka
Sisällöntuottajat, jotka tuottivat kymmeniä lyhytmuotoisia klippejä viikoittain, tarvitsivat yhtenäisen ajastus- ja analytiikkajärjestelmän sisällön jakeluun TikTokiin, YouTube Shortseihin ja Instagram Reelseihin yhdestä hallintapaneelista – sekä tietoa julkaisustrategian optimoimiseksi.
Monikielinen tekstityskäännös globaaliin sisällönjakeluun
Kansainvälistä yleisöä tavoittelevat sisällöntuottajat halusivat laajentaa kattavuuttaan kääntämällä videotekstitykset yli 30 kielelle säilyttäen samalla alkuperäisen äänen, mikä mahdollistaa sisällön katselun katsojille maailmanlaajuisesti heidän omalla äidinkielellään.
Usein kysytyt kysymykset
MicrocosmWorks implemented a hybrid tracking approach that combines a lightweight face detector running every 5th frame with a KCF optical flow tracker for inter-frame predictions. When occlusion is detected via confidence score drops, the system maintains the last known trajectory with Kalman filtering and re-acquires the face within 200ms of it becoming visible again.
MicrocosmWorks built a saliency-weighted cropping algorithm that prioritizes detected faces, then text regions, then motion areas when determining the 9:16 crop window position. For multi-person scenes, the system uses a configurable priority ranking, defaulting to the active speaker or the largest face, with smooth interpolation between crop positions to avoid jarring shifts.
Yes, MicrocosmWorks implemented a fallback saliency detection mode that activates when no faces are present, using a combination of motion detection, visual attention modeling, and mouse cursor tracking for screen recordings. The system intelligently follows the most relevant content region even in purely visual or text-based footage.
MicrocosmWorks optimized the pipeline for batch workflows, achieving 8x real-time processing speed on a single NVIDIA T4 GPU, meaning a 10-minute video is reframed in approximately 75 seconds. The system supports parallel processing across multiple GPUs, scaling linearly for high-volume content operations.
MicrocosmWorks develops AI video reframing systems at rates of $25-$45/hr, with a full face tracking and smart reframing solution including model optimization, batch processing support, and API integration typically requiring 350-550 development hours. This investment eliminates the need for manual reframing editors, which typically cost $5-$15 per video.
Valmis Muuttamaan Liiketoimintaasi?
Keskustellaan siitä, miten voimme soveltaa vastaavia ratkaisuja haasteisiisi.