MicrocosmWorksІнновації та архітектура цифрового космосу
Про насКонтакт
MicrocosmWorksІнновації та архітектура цифрового космосу

Надаємо IT-рішення, які мають значення. Ми захоплені технологіями, безпекою та допомогою бізнесу зростати завдяки надійній, інноваційній IT-інфраструктурі.

[email protected]
+91 7011868196
New Delhi, India

Центр зростання AI

AI HubІнновації для стартапівПрискорювач для підприємств

Рішення

Всі рішенняДодатки для здоров'я та фітнесуAI відео платформаРозробка AI агентів

Ресурси

ІнсайтиГалузеві ПосібникиШаблони ВикористанняАрхітектурні ШаблониКейси

Компанія

Про НасКонтактНаша Робота

Послуги

Цифровий КонсалтингХмарна ІнфраструктураРозробка SaaSРозробка AIВідео Технології
Розробка ERPНалаштування ZohoРозробка OdooІнтеграція SalesforceРозробка Користувацьких CRM
Інтеграція QuickBooksРішення IoTРозробка Блокчейну
Консалтинг з КібербезпекиІТ Підтримка - L3

© 2026 MicrocosmWorks. Усі права захищено.

Політика КонфіденційностіУмови Обслуговування
Назад до Кейсів
Video AnalysisОпубліковано June 22, 2026 · Оновлено June 22, 2026

Виявлення активного мовця за допомогою ШІ для багатокамерного виробництва відео

Компанія з медіавиробництва, що займається зйомками багатокамерних інтерв'ю та панельних дискусій, потребувала автоматизованого способу ідентифікації того, хто говорить у будь-який момент у складному відеоматеріалі.

Обговоріть Ваш Проєкт
ai-active-speaker-detection.webp
Video Analysis
Domain
11
Technologies
4
Key Results
Delivered
Status

Виклик

Створення багатокамерного контенту (інтерв'ю, подкасти, панельні дискусії) вимагало від редакторів вручну переглядати години матеріалу, щоб ідентифікувати активних мовців та створювати монтажні склейки. Цей процес був:

  • Надзвичайно трудомістким (у 10-15 разів довшим за реальний час для ручного перегляду)
  • Схильним до людських помилок у визначенні мовця
  • Вузьким місцем, що перешкоджало швидкому виробництву контенту

Наше Рішення

Ми створили платформу для аналізу відео на основі AI з конвеєром глибокого навчання, яка автоматично виявляє активних мовців, об'єднуючи аудіо- та візуальні сигнали.

Архітектура

  • Бекенд: REST API на Python/Flask з MongoDB та Redis
  • ML Конвеєр: модель аудіовізуального злиття TalkNet, YOLOv8 Nano для виявлення облич, OpenAI Whisper для транскрипції
  • Оптимізація GPU: PyTorch з CUDA, децимація кадрів для прискорення в 3 рази, пакетна обробка
  • Інфраструктура: Багатоекземплярне розгортання з розподіленим блокуванням на основі MongoDB

Конвеєр обробки

  1. Витяг медіа - Завантаження відео та розділення аудіо/відео
  2. Виявлення сцен - Визначення меж на основі контенту за допомогою PySceneDetect
  3. Виявлення облич - Виявлення облич за допомогою YOLOv8 Nano з децимацією кадрів
  4. Відстеження облич - Зв'язування між кадрами на основі IoU
  5. TalkNet Inference - Аудіовізуальне злиття з оцінкою різної тривалості (вікна 1с, 2с, 4с, 6с)
  6. Транскрипція - Перетворення мови в текст на основі Whisper з мітками часу на рівні слів

Ключові особливості

  • Виявлення активного мовця з крос-модальною увагою (рухи губ + аудіо)
  • Оцінка достовірності різної тривалості для надійного розпізнавання мовця
  • Автоматична транскрипція з мітками часу на рівні слів
  • Планування фонових завдань з підтримкою скасування
  • Моніторинг продуктивності та управління пам'яттю GPU

Результати

Швидкість обробки: 30-хвилинне відео аналізується за 10-15 хвилин на GPU об'ємом 12 ГБ+
Точність: Високодостовірне визначення мовця за допомогою оцінки різної тривалості
Масштабованість: Розподілена архітектура, що підтримує горизонтальне масштабування між серверами

Технологічний Стек

PythonFlaskPyTorchTalkNetYOLOv8OpenAI WhisperMongoDBRedisFFmpegPySceneDetectCUDA

caseStudyDetail.more Кейси

Ознайомтесь з іншими нашими технічними впровадженнями

Video Analysis

Відстеження об'єктів на відео в реальному часі з автоматичним центруванням та відновленням

Команді з виробництва відео потрібен був інструмент, який міг би відстежувати вибраний об'єкт у відеозаписі та автоматично утримувати його в центрі кадру під час руху — з плавними переходами, кількома варіантами алгоритмів відстеження та автоматичним відновленням, коли трекер втрачав ціль.

Читати Кейс
Video Analysis

Кросплатформне мобільне редагування відео з аналізом на основі AI

Творці контенту та медіа-професіонали потребували мобільного рішення для редагування відео, яке могло б використовувати результати аналізу на основі AI для розумніших робочих процесів редагування в дорозі.

Читати Кейс

Часті запитання

MicrocosmWorks developed a multimodal fusion model that correlates lip movement visual features extracted from each camera feed with the audio signal using cross-attention layers. The model outputs per-frame speaker probability scores for each visible face, achieving 94% accuracy even when multiple participants speak simultaneously.

MicrocosmWorks optimized the inference pipeline to run on NVIDIA T4 GPUs with TensorRT acceleration, achieving under 150ms end-to-end latency from frame capture to speaker identification. This latency is well within the acceptable range for live production switching, where typical cut delays are 300-500ms.

MicrocosmWorks trained the model on diverse occlusion scenarios and implemented a temporal smoothing algorithm that maintains speaker tracking through brief occlusions using audio-only confidence scores. When visual confidence drops below a threshold, the system falls back to audio source localization using beamforming data from multi-microphone arrays.

MicrocosmWorks built a companion control module that translates speaker detection outputs into standard tally/control signals compatible with Blackmagic ATEM via the ATEM SDK and NewTek NDI for TriCaster systems. Production directors can set the system to auto-switch or advisory mode where it suggests cuts without executing them.

MicrocosmWorks builds custom AI video analysis systems at rates of $30-$50/hr, with a multi-camera active speaker detection system including model training, TensorRT optimization, and switcher integration typically requiring 500-750 development hours. The model training phase requires GPU compute resources that usually add $2,000-$5,000 to the project cost.

Готові Трансформувати Свій Бізнес?

Давайте обговоримо, як ми можемо застосувати подібні рішення для ваших завдань.

Зв'язатися з НамиcaseStudyDetail.viewAllCaseStudies
Ефективність: Прискорення в 3 рази завдяки оптимізації децимації кадрів
AI Accounting

Обробка рахунків-фактур за допомогою AI, OCR та інтеграції з QuickBooks

Середній бізнес, який щомісяця обробляє сотні рахунків-фактур від постачальників, потребував усунення ручного введення даних шляхом автоматичного вилучення даних рахунків-фактур за допомогою AI/OCR та їх прямої синхронізації з QuickBooks для ведення бухгалтерського обліку та відстеження платежів.

Читати Кейс