AI-ansigtssporing & Smart omindramning til konvertering af lodrette videoer
En platform til genbrug af indhold skulle automatisk konvertere horisontale (16:9) videoer i langt format til lodrette (9:16) klip i kort format, samtidig med at talere og emner holdtes perfekt centreret — uden manuel beskæring eller keyframing.
Diskuter Dit ProjektUdfordringen
Konvertering af horisontal video til lodret format var et af de mest besværlige trin i produktionen af indhold i kort format:
- Manuel beskæring og genplacering af billedet for hvert klip var tidskrævende
- Samtaler med flere personer krævede dynamisk omindramning, når talere skiftede
- Statisk midterbeskæring klippede talere af, som bevægede sig eller sad uden for midten
- Traditionel ansigtsgenkendelse var for langsom til realtidsbeslutninger om omindramning på tværs af tusindvis af klip
- Forskellige indholdstyper (interviews, solo-vlogs, præsentationer) krævede forskellige indramningsstrategier
Vores Løsning
Vi byggede en AI-drevet motor til ansigtssporing og smart omindramning, der registrerer ansigter i videobilleder, sporer deres bevægelser og dynamisk justerer den lodrette beskæringsregion for at holde det aktive emne centreret.
Arkitektur
- Ansigtsgenkendelse: YOLO-baseret ansigtsgenkendelsesmodel optimeret til hastighed
- Ansigtssporing: IoU-baseret frame-to-frame sporing med persistente emne-ID'er
- Omindramningsmotor: Dynamisk beregning af beskæringsregion baseret på ansigtspositioner og bevægelse
- Kobling af aktiv taler: Integration med talergenkendelse for at prioritere den talende person
- Rendering: FFmpeg-beskæringsfilterkæde med jævne panorerings-overgange
Omindramnings-pipeline
- Ansigtsgenkendelse - Kør YOLO-ansigtsgenkendelse på tværs af samplede billeder
- Emne-sporing - Forbind ansigtsgenkendelser på tværs af billeder ved hjælp af IoU-baseret sporing
- Talerprioritet - Når koblet med aktiv talergenkendelse, prioriteres det talende emne
- Beskæringsberegning - Bestem optimal 9:16 beskæringsregion baseret på primært emnes position
- Udglatning - Anvend easing på beskæringsbevægelsen for at undgå bratte spring
- Rendering - FFmpeg anvender den dynamiske beskæring med jævne panorerings-overgange
Nøglefunktioner
- Håndtering af flere emner - Sporer flere ansigter og bestemmer det primære emne pr. segment
- Talerbevidst indramning - Prioriterer den aktive taler, når integreret med talergenkendelse
- Jævne overgange - Udglattet panorering mellem emner eliminerer bratte klip
- Tilpasning til indholdstype - Forskellige indramningsstrategier for solo-, interview- og gruppeindhold
- Batchbehandling - Omindram hundreder af klip fra en enkelt video i langt format
- Ingen manuel indgriben - Fuldt automatiseret fra genkendelse til endelig rendering
Resultater
Teknologistak
caseStudyDetail.more Casestudier
Udforsk flere af vores tekniske implementeringer
Planlægning af sociale medier på tværs af platforme & analyse af ydeevne
Indholdsskabere, der ugentligt producerer snesevis af kortformede klip, havde brug for et samlet planlægnings- og analysesystem til at distribuere indhold på tværs af TikTok, YouTube Shorts og Instagram Reels fra et enkelt dashboard — med indsigt til at optimere opslagsstrategien.
Flersproget undertekstoversættelse til global indholdsdistribution
Indholdsskabere med internationalt publikum havde brug for at udvide deres rækkevidde ved at oversætte video-undertekster til over 30 sprog, samtidig med at den originale lyd blev bevaret, så seere over hele verden kunne forbruge indhold på deres modersmål.
Ofte stillede spørgsmål
MicrocosmWorks implemented a hybrid tracking approach that combines a lightweight face detector running every 5th frame with a KCF optical flow tracker for inter-frame predictions. When occlusion is detected via confidence score drops, the system maintains the last known trajectory with Kalman filtering and re-acquires the face within 200ms of it becoming visible again.
MicrocosmWorks built a saliency-weighted cropping algorithm that prioritizes detected faces, then text regions, then motion areas when determining the 9:16 crop window position. For multi-person scenes, the system uses a configurable priority ranking, defaulting to the active speaker or the largest face, with smooth interpolation between crop positions to avoid jarring shifts.
Yes, MicrocosmWorks implemented a fallback saliency detection mode that activates when no faces are present, using a combination of motion detection, visual attention modeling, and mouse cursor tracking for screen recordings. The system intelligently follows the most relevant content region even in purely visual or text-based footage.
MicrocosmWorks optimized the pipeline for batch workflows, achieving 8x real-time processing speed on a single NVIDIA T4 GPU, meaning a 10-minute video is reframed in approximately 75 seconds. The system supports parallel processing across multiple GPUs, scaling linearly for high-volume content operations.
MicrocosmWorks develops AI video reframing systems at rates of $25-$45/hr, with a full face tracking and smart reframing solution including model optimization, batch processing support, and API integration typically requiring 350-550 development hours. This investment eliminates the need for manual reframing editors, which typically cost $5-$15 per video.
Klar til at Transformere Din Virksomhed?
Lad os drøfte, hvordan vi kan anvende lignende løsninger til dine udfordringer.