Програмний фреймворк для анотації відео для ML та створення контенту
Дослідники ML та творці відеоконтенту потребували гнучкого, керованого кодом інструменту для анотації відео, який міг би створювати анотовані відео у великих масштабах, від підготовки навчальних даних до освітніх накладень.
Обговоріть Ваш Проєкт
Виклик
Існуючі інструменти анотації відео були або перевантажені графічним інтерфейсом без програмного API, або інструментами командного рядка з поганою візуалізацією:
- Команди ML потребували обмежувальних рамок, полігонів та міток для навчальних даних у великих масштабах
- Викладачам потрібні були анімовані накладення (стрілки, прожектори, текст) для навчальних відео
- Традиційні інструменти анотації не могли обробляти інтерполяцію ключових кадрів або анімації згладжування
- Жодне нативне рішення для десктопів не поєднувало обробку OpenCV з професійним виведенням відео
Наше Рішення
Ми створили фреймворк для анотації відео на базі React/Remotion з типобезпечною системою анотації, інтерполяцією ключових кадрів та десктопним редактором Tauri.
Архітектура
- Відеодвигун: Remotion 4.0 для програмного покадрового рендерингу
- Фронтенд: React 18 + TypeScript з Vite
- Десктопний застосунок: Tauri 2 з OpenCV.js та ONNX Runtime
- Експорт: FFmpeg для високоякісного виведення відео
Типи анотацій
- Обмежувальні рамки - Прямокутні області з мітками та оцінками впевненості
- Кола - Точкові анотації з настроюваним радіусом
- Полігони - Складні контури областей для нерегулярних фігур
- Текстові мітки - Стилізовані текстові накладення з позиціонуванням
- Стрілки - Вказівники напрямку для потоку або уваги
- Мальовані від руки шляхи - Анотації, намальовані користувачем
- Прожектори - Виділення областей із затемненим фоном
Система анімації
- Інтерполяція ключових кадрів - Плавні переходи між станами анотацій
- Функції згладжування - Spring, ease-in-out, bounce та власні криві
- Композиція сцени - Вступ, шари анотацій, комбінована часова шкала, висновок
- Ефекти згасання - Поява/зникнення з настроюваною тривалістю
Ключові особливості
- Типобезпечний API - Комплексні типи TypeScript для всіх примітивів анотацій
- Система сцен - Компонування складних відео з будівельних блоків сцен
- Анімація ключових кадрів - Анімація будь-якої властивості анотації з часом
- Десктопний редактор - Графічний інтерфейс на базі Tauri з попереднім переглядом у реальному часі
- Пакетний експорт - Рендеринг анотованих відео через FFmpeg
- Інтеграція OpenCV - Обробка комп'ютерного зору в десктопному застосунку
Результати
Технологічний Стек
caseStudyDetail.more Кейси
Ознайомтесь з іншими нашими технічними впровадженнями
Конвеєр генерації повнометражних фільмів на основі AI
Амбітний проєкт зі створення контенту, спрямований на демократизацію виробництва повнометражних фільмів шляхом побудови наскрізного AI-конвеєра, який перетворює простий текстовий запит на фільм тривалістю 15-90 хвилин.
Обробка рахунків-фактур за допомогою AI, OCR та інтеграції з QuickBooks
Середній бізнес, який щомісяця обробляє сотні рахунків-фактур від постачальників, потребував усунення ручного введення даних шляхом автоматичного вилучення даних рахунків-фактур за допомогою AI/OCR та їх прямої синхронізації з QuickBooks для ведення бухгалтерського обліку та відстеження платежів.
Вставка реклами на стороні клієнта (CSAI) з парсингом маркерів SCTE-35 та інтеграцією багатоплатформного плеєра
Платформа потокового відео потребувала впровадження вставки реклами на стороні клієнта (CSAI) для веб-, мобільних програм та програм для підключених телевізорів — що забезпечує персоналізований рекламний досвід на рівні пристрою з повною підтримкою взаємодії з рекламою (натискні оверлеї, супутні банери, кнопки пропуску), який не може забезпечити вставка на стороні сервера.
Часті запитання
MicrocosmWorks built this framework for teams that need to generate annotations at scale using code-driven rules rather than human clicking. It supports writing annotation pipelines as Python scripts that apply pre-trained detectors, temporal logic, and spatial rules to automatically generate training data, then exports in COCO, Pascal VOC, or YOLO formats.
Yes, MicrocosmWorks implemented a temporal annotation model that supports frame ranges, keyframe interpolation, and event-based labels with start/end timestamps. Annotators can define temporal rules like 'label as running when pose estimation detects both feet off ground for more than 3 consecutive frames' to automate action labeling.
MicrocosmWorks built a validation pipeline that computes agreement scores between programmatic annotations and a human-reviewed golden set, flagging any annotations that fall below a configurable IoU or temporal overlap threshold. The framework also supports active learning workflows that route low-confidence annotations to human reviewers.
MicrocosmWorks built the framework on top of FFmpeg and OpenCV, supporting all major container formats including MP4, MKV, AVI, and MOV, with codecs from H.264 to ProRes. The framework processes videos at their native resolution but supports configurable downscaling for the annotation pass to accelerate throughput on large datasets.
MicrocosmWorks delivers ML infrastructure projects at rates of $25-$45/hr, with a programmatic video annotation framework including the rule engine, format exporters, and quality validation pipeline typically requiring 300-500 development hours. The framework pays for itself quickly by reducing manual annotation costs that can run $5-$15 per minute of video.
Готові Трансформувати Свій Бізнес?
Давайте обговоримо, як ми можемо застосувати подібні рішення для ваших завдань.