Відстеження облич за допомогою AI та розумне перекадрування для конвертації вертикального відео
Платформа для перепрофілювання контенту потребувала автоматичного перетворення горизонтальних (16:9) довгих відео у вертикальні (9:16) короткі кліпи, зберігаючи при цьому спікерів та об'єктів ідеально по центру — без будь-якого ручного обрізання чи ключових кадрів.
Обговоріть Ваш ПроєктВиклик
Перетворення горизонтального відео у вертикальний формат було одним із найнудніших етапів у виробництві короткого контенту:
- Ручне обрізання та переміщення кадру для кожного кліпу займало багато часу
- Розмови з кількома учасниками вимагали динамічного перекадрування зі зміною спікерів
- Статичне центральне обрізання відсікало спікерів, які рухалися або сиділи не по центру
- Традиційне розпізнавання облич було занадто повільним для рішень про перекадрування в реальному часі для тисяч кліпів
- Різні типи контенту (інтерв'ю, сольні влоги, презентації) вимагали різних стратегій кадрування
Наше Рішення
Ми розробили рушій відстеження облич та розумного перекадрування на базі AI, який виявляє обличчя у відеокадрах, відстежує їх рух та динамічно налаштовує вертикальну область обрізання, щоб утримувати активний об'єкт по центру.
Архітектура
- Розпізнавання облич: Модель розпізнавання облич на базі YOLO, оптимізована для швидкості
- Відстеження облич: Відстеження від кадру до кадру на базі IoU з постійними ідентифікаторами об'єктів
- Рушій перекадрування: Динамічний розрахунок області обрізання на основі положень та руху облич
- Зв'язок з активним спікером: Інтеграція з розпізнаванням спікерів для пріоритезації особи, що говорить
- Рендеринг: Ланцюжок фільтрів обрізання FFmpeg з плавними переходами панорамування
Конвеєр перекадрування
- Розпізнавання облич - Запуск розпізнавання облич YOLO по вибіркових кадрах
- Відстеження об'єктів - Зв'язування виявлених облич між кадрами за допомогою відстеження на базі IoU
- Пріоритет спікера - При поєднанні з розпізнаванням активного спікера, пріоритезувати особу, що говорить
- Розрахунок обрізання - Визначення оптимальної області обрізання 9:16 на основі положення основного об'єкта
- Згладжування - Застосування пом'якшення руху обрізання, щоб уникнути різких стрибків
- Рендеринг - FFmpeg застосовує динамічне обрізання з плавними переходами панорамування
Ключові особливості
- Обробка кількох об'єктів - Відстежує кілька облич та визначає основний об'єкт для кожного сегмента
- Кадрування з урахуванням спікера - Пріоритезує активного спікера при інтеграції з розпізнаванням спікерів
- Плавні переходи - Пом'якшене панорамування між об'єктами усуває різкі зміни кадру
- Адаптація до типу контенту - Різні стратегії кадрування для сольного, інтерв'ю та групового контенту
- Пакетна обробка - Перекадрування сотень кліпів з одного довгого відео
- Без ручного втручання - Повністю автоматизовано від виявлення до фінального рендерингу
Результати
Технологічний Стек
caseStudyDetail.more Кейси
Ознайомтесь з іншими нашими технічними впровадженнями
Кросплатформне планування публікацій у соціальних мережах та аналітика продуктивності
Творцям контенту, які щотижня створюють десятки коротких відеороликів, потрібна була єдина система планування та аналітики для розповсюдження контенту в TikTok, YouTube Shorts та Instagram Reels з єдиної панелі керування — з аналітичними даними для оптимізації стратегії публікацій.
Багатомовний переклад субтитрів для глобального розповсюдження контенту
Творці контенту з міжнародною аудиторією потребували розширення охоплення шляхом перекладу відеосубтитрів на понад 30 мов, зберігаючи при цьому оригінальний звук, що дозволяє глядачам по всьому світу споживати контент рідною мовою.
Часті запитання
MicrocosmWorks implemented a hybrid tracking approach that combines a lightweight face detector running every 5th frame with a KCF optical flow tracker for inter-frame predictions. When occlusion is detected via confidence score drops, the system maintains the last known trajectory with Kalman filtering and re-acquires the face within 200ms of it becoming visible again.
MicrocosmWorks built a saliency-weighted cropping algorithm that prioritizes detected faces, then text regions, then motion areas when determining the 9:16 crop window position. For multi-person scenes, the system uses a configurable priority ranking, defaulting to the active speaker or the largest face, with smooth interpolation between crop positions to avoid jarring shifts.
Yes, MicrocosmWorks implemented a fallback saliency detection mode that activates when no faces are present, using a combination of motion detection, visual attention modeling, and mouse cursor tracking for screen recordings. The system intelligently follows the most relevant content region even in purely visual or text-based footage.
MicrocosmWorks optimized the pipeline for batch workflows, achieving 8x real-time processing speed on a single NVIDIA T4 GPU, meaning a 10-minute video is reframed in approximately 75 seconds. The system supports parallel processing across multiple GPUs, scaling linearly for high-volume content operations.
MicrocosmWorks develops AI video reframing systems at rates of $25-$45/hr, with a full face tracking and smart reframing solution including model optimization, batch processing support, and API integration typically requiring 350-550 development hours. This investment eliminates the need for manual reframing editors, which typically cost $5-$15 per video.
Готові Трансформувати Свій Бізнес?
Давайте обговоримо, як ми можемо застосувати подібні рішення для ваших завдань.