Framework d'Annotation Vidéo Programmatique pour le ML et la Création de Contenu
Les chercheurs en ML et les créateurs de contenu vidéo avaient besoin d'un outil d'annotation vidéo flexible et piloté par le code, capable de produire des vidéos annotées à grande échelle, de la préparation des données d'entraînement aux superpositions éducatives.
Discutez de Votre Projet
Le Défi
Les outils d'annotation vidéo existants étaient soit trop axés sur l'interface graphique (GUI) sans API programmatique, soit des outils en ligne de commande avec une visualisation médiocre :
- Les équipes ML avaient besoin de bounding boxes, de polygones et d'étiquettes pour les données d'entraînement à grande échelle
- Les éducateurs avaient besoin de superpositions animées (flèches, spotlights, texte) pour les vidéos pédagogiques
- Les outils d'annotation traditionnels ne pouvaient pas gérer l'interpolation d'images clés ou les animations d'easing
- Aucune solution desktop-native ne combinait le traitement OpenCV avec une sortie vidéo professionnelle
Notre Solution
Nous avons construit un framework d'annotation vidéo basé sur React/Remotion avec un système d'annotation à sécurité de type (type-safe), l'interpolation d'images clés (keyframe interpolation) et un éditeur de bureau (desktop editor) Tauri.
Architecture
- Moteur Vidéo : Remotion 4.0 pour le rendu programmatique image par image (frame-by-frame rendering)
- Frontend : React 18 + TypeScript avec Vite
- Application de Bureau : Tauri 2 avec OpenCV.js et ONNX Runtime
- Exportation : FFmpeg pour une sortie vidéo de haute qualité
Types d'Annotations
- Bounding Boxes - Régions rectangulaires avec des étiquettes et des scores de confiance
- Cercles - Annotations ponctuelles avec rayon configurable
- Polygones - Contours de régions complexes pour les formes irrégulières
- Étiquettes de Texte - Superpositions de texte stylisées avec positionnement
- Flèches - Indicateurs directionnels pour le flux ou l'attention
- Chemins à Main Levée - Annotations dessinées sur mesure
- Projecteurs (Spotlights) - Régions mises en évidence avec un arrière-plan assombri
Système d'Animation
- Interpolation d'Images Clés (Keyframe Interpolation) - Transitions fluides entre les états d'annotation
- Fonctions d'Atténuation (Easing Functions) - Spring, ease-in-out, bounce, et courbes personnalisées
- Composition de Scène - Intro, calques d'annotation, timeline combinée, outro
- Effets de Fondu (Fade Effects) - Fondu d'entrée/sortie (fade-in/out) avec durée configurable
Fonctionnalités Clés
- API à Sécurité de Type (Type-Safe API) - Types TypeScript complets pour toutes les primitives d'annotation
- Système de Scènes - Composez des vidéos complexes à partir de blocs de construction de scènes
- Animation par Images Clés (Keyframe Animation) - Animez n'importe quelle propriété d'annotation au fil du temps
- Éditeur de Bureau (Desktop Editor) - GUI basé sur Tauri avec aperçu en temps réel
- Exportation par Lots (Batch Export) - Rendez des vidéos annotées via FFmpeg
- Intégration OpenCV - Traitement de vision par ordinateur (computer vision) dans l'application de bureau
Résultats
Stack Technologique
caseStudyDetail.more Études de Cas
Découvrez plus de nos implémentations techniques
Pipeline de génération de longs métrages optimisée par l'AI
Un projet ambitieux de création de contenu visant à démocratiser la production de longs métrages en construisant un pipeline d'AI de bout en bout qui transforme une simple invite textuelle en un film de 15 à 90 minutes.
Traitement de factures assisté par l'IA avec OCR et intégration QuickBooks
Une entreprise de taille moyenne, traitant des centaines de factures fournisseurs chaque mois, devait éliminer la saisie manuelle des données en extrayant automatiquement les données des factures à l'aide de l'IA/OCR et en les synchronisant directement dans QuickBooks pour la tenue de livres et le suivi des paiements.
Questions fréquemment posées
MicrocosmWorks built this framework for teams that need to generate annotations at scale using code-driven rules rather than human clicking. It supports writing annotation pipelines as Python scripts that apply pre-trained detectors, temporal logic, and spatial rules to automatically generate training data, then exports in COCO, Pascal VOC, or YOLO formats.
Yes, MicrocosmWorks implemented a temporal annotation model that supports frame ranges, keyframe interpolation, and event-based labels with start/end timestamps. Annotators can define temporal rules like 'label as running when pose estimation detects both feet off ground for more than 3 consecutive frames' to automate action labeling.
MicrocosmWorks built a validation pipeline that computes agreement scores between programmatic annotations and a human-reviewed golden set, flagging any annotations that fall below a configurable IoU or temporal overlap threshold. The framework also supports active learning workflows that route low-confidence annotations to human reviewers.
MicrocosmWorks built the framework on top of FFmpeg and OpenCV, supporting all major container formats including MP4, MKV, AVI, and MOV, with codecs from H.264 to ProRes. The framework processes videos at their native resolution but supports configurable downscaling for the annotation pass to accelerate throughput on large datasets.
MicrocosmWorks delivers ML infrastructure projects at rates of $25-$45/hr, with a programmatic video annotation framework including the rule engine, format exporters, and quality validation pipeline typically requiring 300-500 development hours. The framework pays for itself quickly by reducing manual annotation costs that can run $5-$15 per minute of video.
PrĂŞt Ă Transformer Votre Entreprise ?
Discutons de la façon dont nous pouvons appliquer des solutions similaires à vos défis.