MicrocosmWorksInnovere og Arkitektere Digitale Kosmos
OmKontakt
MicrocosmWorksInnoverer og arkitekterer digitale kosmos

Leverer IT-løsninger, der betyder noget. Vi brænder for teknologi, sikkerhed og at hjælpe virksomheder med at vokse gennem pålidelig, innovativ IT-infrastruktur.

[email protected]
+91 7011868196
New Delhi, India

AI Væksthub

AI HubStartup-innovationVirksomhedsaccelerator

Løsninger

Alle løsningerSundhed & Fitness AppsAI VideoplatformAI Agentudvikling

Ressourcer

IndsigterIndustri GuiderBrugssag BlueprintsArkitektur MønstreCase Studier

Virksomhed

Om OsKontaktVores Arbejde

Tjenester

Digital RådgivningCloud InfrastrukturSaaS UdviklingAI UdviklingVideo Teknologi
ERP UdviklingZoho TilpasningOdoo UdviklingSalesforce IntegrationTilpasset CRM Udvikling
QuickBooks IntegrationIoT LøsningerBlockchain Udvikling
Cybersikkerhed RådgivningIT-support - L3

© 2026 MicrocosmWorks. Alle rettigheder forbeholdes.

PrivatlivspolitikServicevilkår
Tilbage til Casestudier
Video CreationOffentliggjort June 22, 2026 · Opdateret June 22, 2026

AI-ansigtssporing & Smart omindramning til konvertering af lodrette videoer

En platform til genbrug af indhold skulle automatisk konvertere horisontale (16:9) videoer i langt format til lodrette (9:16) klip i kort format, samtidig med at talere og emner holdtes perfekt centreret — uden manuel beskæring eller keyframing.

Diskuter Dit Projekt
ai-face-tracking-vertical-reframing.webp
Video Creation
Domain
7
Technologies
4
Key Results
Delivered
Status

Udfordringen

Konvertering af horisontal video til lodret format var et af de mest besværlige trin i produktionen af indhold i kort format:

  • Manuel beskæring og genplacering af billedet for hvert klip var tidskrævende
  • Samtaler med flere personer krævede dynamisk omindramning, når talere skiftede
  • Statisk midterbeskæring klippede talere af, som bevægede sig eller sad uden for midten
  • Traditionel ansigtsgenkendelse var for langsom til realtidsbeslutninger om omindramning på tværs af tusindvis af klip
  • Forskellige indholdstyper (interviews, solo-vlogs, præsentationer) krævede forskellige indramningsstrategier

Vores Løsning

Vi byggede en AI-drevet motor til ansigtssporing og smart omindramning, der registrerer ansigter i videobilleder, sporer deres bevægelser og dynamisk justerer den lodrette beskæringsregion for at holde det aktive emne centreret.

Arkitektur

  • Ansigtsgenkendelse: YOLO-baseret ansigtsgenkendelsesmodel optimeret til hastighed
  • Ansigtssporing: IoU-baseret frame-to-frame sporing med persistente emne-ID'er
  • Omindramningsmotor: Dynamisk beregning af beskæringsregion baseret på ansigtspositioner og bevægelse
  • Kobling af aktiv taler: Integration med talergenkendelse for at prioritere den talende person
  • Rendering: FFmpeg-beskæringsfilterkæde med jævne panorerings-overgange

Omindramnings-pipeline

  1. Ansigtsgenkendelse - Kør YOLO-ansigtsgenkendelse på tværs af samplede billeder
  2. Emne-sporing - Forbind ansigtsgenkendelser på tværs af billeder ved hjælp af IoU-baseret sporing
  3. Talerprioritet - Når koblet med aktiv talergenkendelse, prioriteres det talende emne
  4. Beskæringsberegning - Bestem optimal 9:16 beskæringsregion baseret på primært emnes position
  5. Udglatning - Anvend easing på beskæringsbevægelsen for at undgå bratte spring
  6. Rendering - FFmpeg anvender den dynamiske beskæring med jævne panorerings-overgange

Nøglefunktioner

  1. Håndtering af flere emner - Sporer flere ansigter og bestemmer det primære emne pr. segment
  2. Talerbevidst indramning - Prioriterer den aktive taler, når integreret med talergenkendelse
  3. Jævne overgange - Udglattet panorering mellem emner eliminerer bratte klip
  4. Tilpasning til indholdstype - Forskellige indramningsstrategier for solo-, interview- og gruppeindhold
  5. Batchbehandling - Omindram hundreder af klip fra en enkelt video i langt format
  6. Ingen manuel indgriben - Fuldt automatiseret fra genkendelse til endelig rendering

Resultater

Tidsbesparelser: Eliminerede 2-5 minutters manuel beskæring pr. klip
Kvalitet: Emner forblev centreret 95%+ af tiden på tværs af testet indhold
Skalerbarhed: Behandlede tusindvis af klip dagligt uden menneskelig indgriben

Teknologistak

YOLOPythonFFmpegOpenCVIoU TrackingNode.jsGPU-Accelerated Inference

caseStudyDetail.more Casestudier

Udforsk flere af vores tekniske implementeringer

Video Creation

Planlægning af sociale medier på tværs af platforme & analyse af ydeevne

Indholdsskabere, der ugentligt producerer snesevis af kortformede klip, havde brug for et samlet planlægnings- og analysesystem til at distribuere indhold på tværs af TikTok, YouTube Shorts og Instagram Reels fra et enkelt dashboard — med indsigt til at optimere opslagsstrategien.

Læs Casestudie
Video Creation

Flersproget undertekstoversættelse til global indholdsdistribution

Indholdsskabere med internationalt publikum havde brug for at udvide deres rækkevidde ved at oversætte video-undertekster til over 30 sprog, samtidig med at den originale lyd blev bevaret, så seere over hele verden kunne forbruge indhold på deres modersmål.

Læs Casestudie

Ofte stillede spørgsmål

MicrocosmWorks implemented a hybrid tracking approach that combines a lightweight face detector running every 5th frame with a KCF optical flow tracker for inter-frame predictions. When occlusion is detected via confidence score drops, the system maintains the last known trajectory with Kalman filtering and re-acquires the face within 200ms of it becoming visible again.

MicrocosmWorks built a saliency-weighted cropping algorithm that prioritizes detected faces, then text regions, then motion areas when determining the 9:16 crop window position. For multi-person scenes, the system uses a configurable priority ranking, defaulting to the active speaker or the largest face, with smooth interpolation between crop positions to avoid jarring shifts.

Yes, MicrocosmWorks implemented a fallback saliency detection mode that activates when no faces are present, using a combination of motion detection, visual attention modeling, and mouse cursor tracking for screen recordings. The system intelligently follows the most relevant content region even in purely visual or text-based footage.

MicrocosmWorks optimized the pipeline for batch workflows, achieving 8x real-time processing speed on a single NVIDIA T4 GPU, meaning a 10-minute video is reframed in approximately 75 seconds. The system supports parallel processing across multiple GPUs, scaling linearly for high-volume content operations.

MicrocosmWorks develops AI video reframing systems at rates of $25-$45/hr, with a full face tracking and smart reframing solution including model optimization, batch processing support, and API integration typically requiring 350-550 development hours. This investment eliminates the need for manual reframing editors, which typically cost $5-$15 per video.

Klar til at Transformere Din Virksomhed?

Lad os drøfte, hvordan vi kan anvende lignende løsninger til dine udfordringer.

Kontakt OscaseStudyDetail.viewAllCaseStudies
Tilfredshed hos skabere: Lodrette klip så professionelt indrammede ud uden manuel redigering
Video Creation

Automatiseret Motor til Styling af Undertekster og Videoeksport

Videoproducenter havde brug for et hurtigt, pålideligt system til at anvende professionelle animerede undertekster på kortformatvideoer med pixel-perfekt gengivelse på tværs af forskellige stilarter og platforme.

Læs Casestudie