AI-drevet registrering af aktiv taler til videoproduktion med flere kameraer
Et mediebureau, der håndterer optagelser af interviews og paneldebatter med flere kameraer, havde brug for en automatiseret måde at identificere, hvem der taler på et givet tidspunkt i komplekst videomateriale.
Diskuter Dit Projekt
Udfordringen
Produktion af indhold med flere kameraer (interviews, podcasts, paneldebatter) krævede, at redaktører manuelt gennemgik timevis af optagelser for at identificere aktive talere og klippe. Denne proces var:
- Ekstremt tidskrævende (10-15 gange realtid for manuel gennemgang)
- Udsat for menneskelige fejl i tilskrivning af taler
- En flaskehals, der forhindrede hurtig indholdslevering
Vores Løsning
Vi byggede en AI-drevet videoanalyseplatform med en deep learning pipeline, der automatisk registrerer aktive talere ved at fusionere lyd- og visuelle signaler.
Arkitektur
- Backend: Python/Flask REST API med MongoDB og Redis
- ML Pipeline: TalkNet audio-visuel fusionsmodel, YOLOv8 Nano til ansigtsgenkendelse, OpenAI Whisper til transskription
- GPU Optimering: PyTorch med CUDA, billedreduktion for 3x hastighedsforøgelse, batch processing
- Infrastruktur: Multi-instance-implementering med distribueret MongoDB-baseret låsning
Behandlingspipeline
- Medieudtræk - Videodownload og lyd-/videoseparation
- Scenedetektion - Indholdsbaseret grænsedetektion via PySceneDetect
- Ansigtsgenkendelse - YOLOv8 Nano ansigtsgenkendelse med billedreduktion
- Ansigtssporing - IoU-baseret sammenkædning på tværs af billeder
- TalkNet Inferens - Audio-visuel fusion med multi-varighedsscoring (1s, 2s, 4s, 6s vinduer)
- Transskription - Whisper-baseret tale-til-tekst med tidsstempler på ordniveau
Nøglefunktioner
- Registrering af aktiv taler med krydsmodal opmærksomhed (læbebevægelser + lyd)
- Konfidensscoring over flere varigheder for robust taleridentifikation
- Automatisk transskription med tidsstempler på ordniveau
- Planlægning af baggrundsjob med understøttelse af annullering
- Ydeevneovervågning og GPU-hukommelsesstyring
Resultater
Teknologistak
caseStudyDetail.more Casestudier
Udforsk flere af vores tekniske implementeringer
Sporing af videoobjekter i realtid med automatisk centrering og genopretning
Et videoproduktionsteam havde brug for et værktøj, der kunne spore et valgt objekt i videomateriale og automatisk holde det centreret i rammen, når det bevægede sig — med jævne overgange, flere sporingsalgoritmeindstillinger og automatisk genopretning, når sporingen mistede målet.
Redigering af mobilvideo på tværs af platforme med AI-drevet analyse
Indholdsskabere og medieprofessionelle havde brug for en mobilfokuseret videoredigeringsløsning, der kunne udnytte AI-drevne analyseresultater til smartere redigeringsarbejdsgange på farten.
Ofte stillede spørgsmål
MicrocosmWorks developed a multimodal fusion model that correlates lip movement visual features extracted from each camera feed with the audio signal using cross-attention layers. The model outputs per-frame speaker probability scores for each visible face, achieving 94% accuracy even when multiple participants speak simultaneously.
MicrocosmWorks optimized the inference pipeline to run on NVIDIA T4 GPUs with TensorRT acceleration, achieving under 150ms end-to-end latency from frame capture to speaker identification. This latency is well within the acceptable range for live production switching, where typical cut delays are 300-500ms.
MicrocosmWorks trained the model on diverse occlusion scenarios and implemented a temporal smoothing algorithm that maintains speaker tracking through brief occlusions using audio-only confidence scores. When visual confidence drops below a threshold, the system falls back to audio source localization using beamforming data from multi-microphone arrays.
MicrocosmWorks built a companion control module that translates speaker detection outputs into standard tally/control signals compatible with Blackmagic ATEM via the ATEM SDK and NewTek NDI for TriCaster systems. Production directors can set the system to auto-switch or advisory mode where it suggests cuts without executing them.
MicrocosmWorks builds custom AI video analysis systems at rates of $30-$50/hr, with a multi-camera active speaker detection system including model training, TensorRT optimization, and switcher integration typically requiring 500-750 development hours. The model training phase requires GPU compute resources that usually add $2,000-$5,000 to the project cost.
Klar til at Transformere Din Virksomhed?
Lad os drøfte, hvordan vi kan anvende lignende løsninger til dine udfordringer.