程序化视频标注框架与 CVAT 或 Labelbox 等手动标注工具有何不同？

MicrocosmWorks 构建此框架旨在为需要通过代码驱动的规则而非人工点击来大规模生成标注的团队服务。它支持将标注管线编写为 Python 脚本，应用预训练检测器、时序逻辑和空间规则来自动生成训练数据，然后以 COCO、Pascal VOC 或 YOLO 格式导出。

该框架能否处理跨越多个帧的时间性标注，例如行为识别标签？

是的，MicrocosmWorks 实现了一个时序标注模型，支持帧范围、关键帧插值以及带有开始/结束时间戳的事件型标签。标注员可以定义时序规则，例如“当姿态估计检测到双脚离地超过3个连续帧时，将其标注为跑步”以自动化行为标注。

MicrocosmWorks 构建了一个验证管道，能够计算程序化标注和人工审查的黄金集之间的一致性得分，标记任何低于可配置的 IoU 或时间重叠阈值的标注。该框架还支持主动学习工作流，将低置信度标注路由给人工审阅者。

MicrocosmWorks 基于 FFmpeg 和 OpenCV 构建了该框架，支持所有主流容器格式，包括 MP4、MKV、AVI 和 MOV，编解码器从 H.264 到 ProRes。该框架以原始分辨率处理视频，但支持为标注过程配置可缩放的降采样，以加速处理大型数据集时的吞吐量。

MicrocosmWorks 提供 ML 基础设施项目，费率为每小时 $25-$45。一个程序化视频标注框架，包含规则引擎、格式导出器和质量验证管道，通常需要 300-500 个开发小时。该框架通过降低每分钟视频 $5-$15 的手动标注成本，可以很快收回成本。

现有视频标注工具要么过于依赖 GUI 且没有编程 API，要么是可视化效果差的命令行工具：

我们构建了一个基于 React/Remotion 的视频标注框架，该框架具有类型安全的标注系统、关键帧插值功能和一个 Tauri 桌面编辑器。

自动化：编程 API 实现了数千个视频的批量标注

质量：Remotion 能够以任何分辨率渲染像素完美的标注

灵活性：同一工具可用于 ML 训练数据准备和教育内容

桌面性能：Tauri 提供了原生速度处理和 Web UI 的便利性

ReactTypeScriptRemotion 4.0ViteTauri 2OpenCV.jsONNX RuntimeFFmpeg