Video CreationOffentliggjort June 22, 2026 · Opdateret June 22, 2026

AI-ansigtssporing & Smart omindramning til konvertering af lodrette videoer

En platform til genbrug af indhold skulle automatisk konvertere horisontale (16:9) videoer i langt format til lodrette (9:16) klip i kort format, samtidig med at talere og emner holdtes perfekt centreret — uden manuel beskæring eller keyframing.

Diskuter Dit Projekt

Video Creation

Domain

Technologies

Key Results

Delivered

Status

Udfordringen

Konvertering af horisontal video til lodret format var et af de mest besværlige trin i produktionen af indhold i kort format:

Manuel beskæring og genplacering af billedet for hvert klip var tidskrævende
Samtaler med flere personer krævede dynamisk omindramning, når talere skiftede
Statisk midterbeskæring klippede talere af, som bevægede sig eller sad uden for midten
Traditionel ansigtsgenkendelse var for langsom til realtidsbeslutninger om omindramning på tværs af tusindvis af klip
Forskellige indholdstyper (interviews, solo-vlogs, præsentationer) krævede forskellige indramningsstrategier

Vores Løsning

Vi byggede en AI-drevet motor til ansigtssporing og smart omindramning, der registrerer ansigter i videobilleder, sporer deres bevægelser og dynamisk justerer den lodrette beskæringsregion for at holde det aktive emne centreret.

Arkitektur

Ansigtsgenkendelse: YOLO-baseret ansigtsgenkendelsesmodel optimeret til hastighed
Ansigtssporing: IoU-baseret frame-to-frame sporing med persistente emne-ID'er
Omindramningsmotor: Dynamisk beregning af beskæringsregion baseret på ansigtspositioner og bevægelse
Kobling af aktiv taler: Integration med talergenkendelse for at prioritere den talende person
Rendering: FFmpeg-beskæringsfilterkæde med jævne panorerings-overgange

Omindramnings-pipeline

Ansigtsgenkendelse - Kør YOLO-ansigtsgenkendelse på tværs af samplede billeder
Emne-sporing - Forbind ansigtsgenkendelser på tværs af billeder ved hjælp af IoU-baseret sporing
Talerprioritet - Når koblet med aktiv talergenkendelse, prioriteres det talende emne
Beskæringsberegning - Bestem optimal 9:16 beskæringsregion baseret på primært emnes position
Udglatning - Anvend easing på beskæringsbevægelsen for at undgå bratte spring
Rendering - FFmpeg anvender den dynamiske beskæring med jævne panorerings-overgange

Nøglefunktioner

Håndtering af flere emner - Sporer flere ansigter og bestemmer det primære emne pr. segment
Talerbevidst indramning - Prioriterer den aktive taler, når integreret med talergenkendelse
Jævne overgange - Udglattet panorering mellem emner eliminerer bratte klip
Tilpasning til indholdstype - Forskellige indramningsstrategier for solo-, interview- og gruppeindhold
Batchbehandling - Omindram hundreder af klip fra en enkelt video i langt format
Ingen manuel indgriben - Fuldt automatiseret fra genkendelse til endelig rendering

Resultater

Tidsbesparelser: Eliminerede 2-5 minutters manuel beskæring pr. klip

Kvalitet: Emner forblev centreret 95%+ af tiden på tværs af testet indhold

Skalerbarhed: Behandlede tusindvis af klip dagligt uden menneskelig indgriben

Teknologistak

YOLOPythonFFmpegOpenCVIoU TrackingNode.jsGPU-Accelerated Inference

caseStudyDetail.more Casestudier

Udforsk flere af vores tekniske implementeringer

Video Creation

Planlægning af sociale medier på tværs af platforme & analyse af ydeevne

Indholdsskabere, der ugentligt producerer snesevis af kortformede klip, havde brug for et samlet planlægnings- og analysesystem til at distribuere indhold på tværs af TikTok, YouTube Shorts og Instagram Reels fra et enkelt dashboard — med indsigt til at optimere opslagsstrategien.

Læs Casestudie

Video Creation

Flersproget undertekstoversættelse til global indholdsdistribution

Indholdsskabere med internationalt publikum havde brug for at udvide deres rækkevidde ved at oversætte video-undertekster til over 30 sprog, samtidig med at den originale lyd blev bevaret, så seere over hele verden kunne forbruge indhold på deres modersmål.

Læs Casestudie

Ofte stillede spørgsmål

MicrocosmWorks implementerede en hybrid sporingsmetode, der kombinerer en letvægts ansigtsdetektor, som kører hvert 5. billede, med en KCF optisk flow-tracker til forudsigelser mellem billeder. Når okklusion detekteres via fald i confidence score, opretholder systemet den sidst kendte bane med Kalman filtering og genfinder ansigtet inden for 200ms, efter det bliver synligt igen.

MicrocosmWorks har udviklet en saliency-vægtet beskæringsalgoritme, der prioriterer registrerede ansigter, derefter tekstområder, derefter bevægelsesområder, når den bestemmer placeringen af 9:16 beskæringsvinduet. For scener med flere personer bruger systemet en konfigurerbar prioriteringsrækkefølge, som som standard vælger den aktive taler eller det største ansigt, med jævn interpolation mellem beskæringspositioner for at undgå bratte skift.

Ja, MicrocosmWorks har implementeret en fallback-saliency-detektionstilstand, der aktiveres, når der ikke er ansigter til stede, ved at bruge en kombination af bevægelsesdetektion, visuel opmærksomhedsmodellering og sporing af musemarkør til skærmoptagelser. Systemet følger intelligent det mest relevante indholdsområde, selv i rent visuelt eller tekstbaseret materiale.

MicrocosmWorks optimerede pipelinen til batch-arbejdsgange og opnåede 8x realtid behandlingshastighed på en enkelt NVIDIA T4 GPU, hvilket betyder, at en video på 10 minutter reframes på cirka 75 sekunder. Systemet understøtter parallel behandling på tværs af flere GPU'er og skalerer lineært for indholdsoperationer med stort volumen.

MicrocosmWorks udvikler AI video reframing-systemer til priser på $25-$45/time, hvor en komplet løsning til ansigtssporing og smart reframing, inklusive modeloptimering, understøttelse af batchbehandling og API-integration, typisk kræver 350-550 udviklingstimer. Denne investering eliminerer behovet for manuelle reframing-redigeringsprogrammer, som typisk koster $5-$15 per video.

Klar til at Transformere Din Virksomhed?

Lad os drøfte, hvordan vi kan anvende lignende løsninger til dine udfordringer.

Kontakt Os caseStudyDetail.viewAllCaseStudies

AI-ansigtssporing & Smart omindramning til konvertering af lodrette videoer

Udfordringen

Vores Løsning

Arkitektur

Omindramnings-pipeline

Nøglefunktioner

Resultater

Teknologistak

caseStudyDetail.more Casestudier

Planlægning af sociale medier på tværs af platforme & analyse af ydeevne

Flersproget undertekstoversættelse til global indholdsdistribution

Ofte stillede spørgsmål

Klar til at Transformere Din Virksomhed?

Automatiseret Motor til Styling af Undertekster og Videoeksport