Video AnnotationVeröffentlicht June 22, 2026 · Aktualisiert June 22, 2026

Programmatisches Video-Annotations-Framework für ML & Inhaltserstellung

ML-Forschende und Video-Content-Ersteller benötigten ein flexibles, codebasiertes Video-Annotations-Tool, das annotierte Videos im großen Maßstab produzieren konnte, von der Vorbereitung der Trainingsdaten bis zu edukativen Overlays.

Ihr Projekt besprechen

Video Annotation

Domain

Technologies

Key Results

Delivered

Status

Die Herausforderung

Bestehende Video-Annotations-Tools waren entweder GUI-lastig ohne programmatische API oder Kommandozeilen-Tools mit schlechter Visualisierung:

ML-Teams benötigten Bounding Boxes, Polygone und Labels für Trainingsdaten im großen Maßstab
Pädagogen benötigten animierte Overlays (Pfeile, Spotlights, Text) für Lehrvideos
Herkömmliche Annotations-Tools konnten Keyframe-Interpolation oder Easing-Animationen nicht handhaben
Keine Desktop-native Lösung kombinierte OpenCV-Verarbeitung mit professioneller Videoausgabe

Unsere Lösung

Wir entwickelten ein React/Remotion-basiertes Video-Annotations-Framework mit einem typensicheren Annotationssystem, Keyframe-Interpolation und einem Tauri Desktop Editor.

Architektur

Video-Engine: Remotion 4.0 für programmatisches Frame-für-Frame-Rendering
Frontend: React 18 + TypeScript mit Vite
Desktop-App: Tauri 2 mit OpenCV.js und ONNX Runtime
Export: FFmpeg für hochwertige Videoausgabe

Annotationstypen

Bounding Boxes – Rechteckige Bereiche mit Labels und Konfidenzwerten
Kreise – Punkt-Annotationen mit konfigurierbarem Radius
Polygone – Komplexe Umrisse von Regionen für unregelmäßige Formen
Text-Labels – Gestaltete Text-Overlays mit Positionierung
Pfeile – Richtungsindikatoren für Fluss oder Aufmerksamkeit
Freihandpfade – Benutzerdefinierte gezeichnete Annotationen
Spotlights – Hervorgehobene Bereiche mit gedimmtem Hintergrund

Animationssystem

Keyframe-Interpolation – Sanfte Übergänge zwischen Annotationszuständen
Easing Functions – Spring, ease-in-out, bounce und benutzerdefinierte Kurven
Szenenkomposition – Intro, Annotations-Layer, kombinierte Timeline, Outro
Überblendungseffekte – Ein-/Ausblenden mit konfigurierbarer Dauer

Hauptmerkmale

Type-Safe API – Umfassende TypeScript-Typen für alle Annotations-Primitive
Szenensystem – Erstellen komplexer Videos aus Szenenbausteinen
Keyframe-Animation – Animieren beliebiger Annotationseigenschaften über die Zeit
Desktop-Editor – Tauri-basierte GUI mit Echtzeit-Vorschau
Batch-Export – Rendern annotierter Videos via FFmpeg
OpenCV-Integration – Computer-Vision-Verarbeitung in der Desktop-App

Ergebnisse

Automatisierung: Programmatische API ermöglichte die Batch-Annotation von Tausenden von Videos

Qualität: Remotion rendert pixelgenaue Annotationen in jeder Auflösung

Flexibilität: Dasselbe Tool diente der ML-Trainingsdatenaufbereitung und edukativen Inhalten

Technologie-Stack

ReactTypeScriptRemotion 4.0ViteTauri 2OpenCV.jsONNX RuntimeFFmpeg

caseStudyDetail.more Fallstudien

Entdecken Sie mehr unserer technischen Implementierungen

Video Annotation

KI-gestützte Pipeline zur Generierung von Spielfilmen

Ein ambitioniertes Projekt zur Inhaltserstellung, das darauf abzielt, die Spielfilmproduktion zu demokratisieren, indem eine End-to-End-AI-Pipeline aufgebaut wird, die eine einfache Texteingabeaufforderung in einen 15-90-minütigen Film verwandelt.

Fallstudie lesen

Kickly: KI-gestützte Projektplattform für Startups

Kickly ist eine KI-gestützte Projektmanagementplattform, die für Startups entwickelt wurde – und intelligente Aufgabenautomatisierung, Teamkollaboration und Echtzeit-Fortschrittsverfolgung in einem Produkt vereint.

Fallstudie lesen

Häufig gestellte Fragen

MicrocosmWorks hat dieses Framework für Teams entwickelt, die Annotationen in großem Maßstab mithilfe code-gesteuerter Regeln statt durch manuelles Klicken generieren müssen. Es unterstützt das Schreiben von Annotations-Pipelines als Python-Skripte, die vortrainierte Detektoren, temporale Logik und räumliche Regeln anwenden, um Trainingsdaten automatisch zu generieren, und exportiert diese dann in COCO-, Pascal VOC- oder YOLO-Formaten.

Ja, MicrocosmWorks hat ein Modell für temporale Annotationen implementiert, das Frame-Bereiche, Keyframe-Interpolation und ereignisbasierte Labels mit Start-/Endzeitstempeln unterstützt. Annotatoren können temporale Regeln definieren, wie 'als Laufen labeln, wenn die Pose Estimation mehr als 3 aufeinanderfolgende Frames lang beide Füße vom Boden erkennt', um das Aktions-Labeling zu automatisieren.

MicrocosmWorks hat eine Validierungspipeline entwickelt, die Übereinstimmungswerte zwischen programmatischen Annotationen und einem von Menschen überprüften Golden Set berechnet und alle Annotationen kennzeichnet, die unter einen konfigurierbaren IoU- oder zeitlichen Überlappungsschwellenwert fallen. Das Framework unterstützt auch Active-Learning-Workflows, die Annotationen mit geringem Vertrauen an menschliche Prüfer weiterleiten.

MicrocosmWorks hat das Framework auf FFmpeg und OpenCV aufgebaut und unterstützt alle gängigen Containerformate, einschließlich MP4, MKV, AVI und MOV, mit Codecs von H.264 bis ProRes. Das Framework verarbeitet Videos in ihrer nativen Auflösung, unterstützt aber konfigurierbares Downscaling für den Annotationsdurchlauf, um den Durchsatz bei großen Datensätzen zu beschleunigen.

MicrocosmWorks liefert ML-Infrastrukturprojekte zu Preisen von $25-$45/Stunde, wobei ein programmatisches Video-Annotierungs-Framework, einschließlich des rule engine, format exporters und der quality validation pipeline, typischerweise 300-500 Entwicklungsstunden erfordert. Das Framework amortisiert sich schnell durch die Reduzierung manueller Annotierungskosten, die $5-$15 pro Videominute betragen können.

Bereit, Ihr Unternehmen zu transformieren?

Lassen Sie uns besprechen, wie wir ähnliche Lösungen für Ihre Herausforderungen anwenden können.

Kontakt aufnehmen caseStudyDetail.viewAllCaseStudies