MicrocosmWorksInnover et Architecturer le Cosmos Numérique
Ă€ proposContact
MicrocosmWorksInnover et architecturer des cosmos numériques

Fournir des solutions informatiques qui comptent. Nous sommes passionnés par la technologie, la sécurité et aidons les entreprises à croître grâce à une infrastructure informatique fiable et innovante.

[email protected]
+91 7011868196
New Delhi, India

Hub de Croissance IA

Hub IAInnovation pour les startupsAccélérateur d'entreprise

Solutions

Toutes les solutionsApplications de bien-être et de fitnessPlateforme vidéo IADéveloppement d'agents IA

Ressources

PerspectivesGuides de l'industriePlans d'utilisationModèles d'architectureÉtudes de cas

Entreprise

Ă€ propos de nousContactNotre travail

Services

Consultation numériqueInfrastructure cloudDéveloppement SaaSDéveloppement IATechnologie vidéo
Développement ERPPersonnalisation ZohoDéveloppement OdooIntégration SalesforceDéveloppement CRM personnalisé
Intégration QuickBooksSolutions IoTDéveloppement Blockchain
Consultation en cybersécuritéSupport IT - L3

© 2026 MicrocosmWorks. Tous droits réservés.

Politique de confidentialitéConditions d'utilisation
Retour aux Études de Cas
Video AnnotationPublié June 18, 2026 · Mis à jour May 25, 2026

Cadre d'Annotation Vidéo Programmatique pour le ML et la Création de Contenu

Les chercheurs en ML et les créateurs de contenu vidéo avaient besoin d'un outil d'annotation vidéo flexible et piloté par le code, capable de produire des vidéos annotées à grande échelle, depuis la préparation des données d'entraînement jusqu'aux superpositions éducatives.

Discutez de Votre Projet
programmatic-video-annotation-framework.webp
Video Annotation
Domain
8
Technologies
4
Key Results
Delivered
Status

Le Défi

Les outils d'annotation vidéo existants étaient soit lourds en GUI sans API programmatique, soit des outils en ligne de commande avec une visualisation médiocre :

  • Les Ă©quipes ML avaient besoin de bounding boxes, de polygones et de labels pour les donnĂ©es d'entraĂ®nement Ă  grande Ă©chelle
  • Les Ă©ducateurs avaient besoin de superpositions animĂ©es (flèches, projecteurs, texte) pour les vidĂ©os pĂ©dagogiques
  • Les outils d'annotation traditionnels ne pouvaient pas gĂ©rer l'interpolation de keyframes ou les animations d'allĂ©gement
  • Aucune solution native de bureau ne combinait le traitement OpenCV avec une sortie vidĂ©o professionnelle

Notre Solution

Nous avons construit un cadre d'annotation vidéo basé sur React/Remotion avec un système d'annotation typé (type-safe), une interpolation de keyframes et un éditeur de bureau Tauri.

Architecture

  • Moteur VidĂ©o : Remotion 4.0 pour le rendu programmatique image par image
  • Frontend : React 18 + TypeScript avec Vite
  • Application de Bureau : Tauri 2 avec OpenCV.js et ONNX Runtime
  • Exportation : FFmpeg pour une sortie vidĂ©o de haute qualitĂ©

Types d'Annotation

  1. Boîtes Englobantes - Régions rectangulaires avec des labels et des scores de confiance
  2. Cercles - Annotations ponctuelles avec rayon configurable
  3. Polygones - Contours de régions complexes pour des formes irrégulières
  4. Labels Textuels - Superpositions de texte stylisé avec positionnement
  5. Flèches - Indicateurs directionnels pour le flux ou l'attention
  6. Tracés à Main Levée - Annotations dessinées sur mesure
  7. Projecteurs - Régions mises en évidence avec un arrière-plan assombri

Système d'Animation

  • Interpolation de Keyframes - Transitions fluides entre les Ă©tats d'annotation
  • Fonctions d'AllĂ©gement - Spring, ease-in-out, bounce et courbes personnalisĂ©es
  • Composition de Scène - Intro, calques d'annotation, timeline combinĂ©e, outro
  • Effets de Fondu - Fondu en entrĂ©e/sortie avec durĂ©e configurable

Fonctionnalités Clés

  1. API Typée (Type-Safe) - Types TypeScript complets pour toutes les primitives d'annotation
  2. Système de Scène - Composer des vidéos complexes à partir de blocs de construction de scènes
  3. Animation par Keyframes - Animer toute propriété d'annotation au fil du temps
  4. Éditeur de Bureau - GUI basé sur Tauri avec aperçu en temps réel
  5. Exportation par Lots - Rendu de vidéos annotées via FFmpeg
  6. Intégration OpenCV - Traitement de vision par ordinateur dans l'application de bureau

Résultats

Automatisation : L'API programmatique a permis l'annotation par lots de milliers de vidéos
Qualité : Remotion a rendu des annotations au pixel près à n'importe quelle résolution
Flexibilité : Le même outil a servi à la préparation des données d'entraînement ML et au contenu éducatif

Stack Technologique

ReactTypeScriptRemotion 4.0ViteTauri 2OpenCV.jsONNX RuntimeFFmpeg

caseStudyDetail.more Études de Cas

Découvrez plus de nos implémentations techniques

Video Annotation

Pipeline de génération de longs métrages optimisée par l'AI

Un projet ambitieux de création de contenu visant à démocratiser la production de longs métrages en construisant un pipeline d'AI de bout en bout qui transforme une simple invite textuelle en un film de 15 à 90 minutes.

Lire l'Étude de Cas
AI Accounting

Traitement de factures assisté par l'IA avec OCR et intégration QuickBooks

Une entreprise de taille moyenne, traitant des centaines de factures fournisseurs chaque mois, devait éliminer la saisie manuelle des données en extrayant automatiquement les données des factures à l'aide de l'IA/OCR et en les synchronisant directement dans QuickBooks pour la tenue de livres et le suivi des paiements.

Lire l'Étude de Cas

PrĂŞt Ă  Transformer Votre Entreprise ?

Discutons de la façon dont nous pouvons appliquer des solutions similaires à vos défis.

Contactez-NouscaseStudyDetail.viewAllCaseStudies
Performance de Bureau : Tauri a fourni un traitement à vitesse native avec la commodité de l'interface utilisateur web
Video Encoding

Insertion d'annonces côté client (CSAI) avec analyse des marqueurs SCTE-35 et intégration de lecteurs multiplateformes

Une plateforme de streaming vidéo devait implémenter l'insertion d'annonces côté client (CSAI) sur les applications web, mobiles et de télévision connectée — permettant des expériences publicitaires personnalisées au niveau de l'appareil avec un support complet d'interaction publicitaire (superpositions cliquables, bannières complémentaires, boutons de saut) que l'insertion côté serveur ne peut pas offrir.

Lire l'Étude de Cas

Questions fréquemment posées

MicrocosmWorks a construit ce cadre pour les équipes qui ont besoin de générer des annotations à grande échelle en utilisant des règles pilotées par le code plutôt que des clics humains. Il prend en charge l'écriture de pipelines d'annotation sous forme de scripts Python qui appliquent des détecteurs pré-entraînés, une logique temporelle et des règles spatiales pour générer automatiquement des données d'entraînement, puis les exporte aux formats COCO, Pascal VOC ou YOLO.

Oui, MicrocosmWorks a mis en œuvre un modèle d'annotation temporelle qui prend en charge les plages d'images, l'interpolation de keyframes et les étiquettes basées sur des événements avec des horodatages de début/fin. Les annotateurs peuvent définir des règles temporelles comme « étiqueter comme en cours d'exécution lorsque l'estimation de pose détecte les deux pieds décollés du sol pendant plus de 3 images consécutives » pour automatiser l'étiquetage d'actions.

MicrocosmWorks a construit un pipeline de validation qui calcule les scores de concordance entre les annotations programmatiques et un ensemble de référence validé par l'humain, signalant toute annotation qui tombe en dessous d'un seuil d'IoU ou de chevauchement temporel configurable. Le cadre prend également en charge les flux de travail d'apprentissage actif qui acheminent les annotations de faible confiance vers des réviseurs humains.

MicrocosmWorks a construit le cadre sur FFmpeg et OpenCV, prenant en charge tous les principaux formats de conteneur, y compris MP4, MKV, AVI et MOV, avec des codecs de H.264 à ProRes. Le cadre traite les vidéos à leur résolution native mais prend en charge un sous-échantillonnage configurable pour la passe d'annotation afin d'accélérer le débit sur de grands ensembles de données.

MicrocosmWorks livre des projets d'infrastructure ML à des tarifs de 25 à 45 $/heure, un cadre d'annotation vidéo programmatique incluant le moteur de règles, les exportateurs de formats et le pipeline de validation de la qualité nécessitant généralement 300 à 500 heures de développement. Le cadre est rapidement rentabilisé en réduisant les coûts d'annotation manuelle qui peuvent s'élever à 5 à 15 $ par minute de vidéo.