编程视频标注框架与 CVAT 或 Labelbox 等手动标注工具有何不同？

MicrocosmWorks 为需要使用代码驱动规则而非人工点击大规模生成标注的团队构建了此框架。它支持将标注流程编写为 Python 脚本，应用预训练检测器、时间逻辑和空间规则来自动生成训练数据，然后导出为 COCO、Pascal VOC 或 YOLO 格式。

该框架能否处理跨越多个帧的时间标注，例如动作识别标签？

是的，MicrocosmWorks 实现了一个时间标注模型，支持帧范围、关键帧插值以及带有起始/结束时间戳的基于事件的标签。标注人员可以定义时间规则，例如“当姿态估计检测到双脚离地超过 3 个连续帧时标注为‘跑步’”，以自动化动作标注。

MicrocosmWorks 构建了一个验证流程，计算编程标注与人工审核的黄金数据集之间的一致性分数，并标记任何低于可配置的 IoU 或时间重叠阈值的标注。该框架还支持主动学习工作流，将低置信度标注路由给人工审核员。

MicrocosmWorks 基于 FFmpeg 和 OpenCV 构建了该框架，支持所有主要的容器格式，包括 MP4、MKV、AVI 和 MOV，以及从 H.264 到 ProRes 的编解码器。该框架以原始分辨率处理视频，但支持为标注过程进行可配置的降采样，以加速大型数据集的吞吐量。

MicrocosmWorks 以 $25-$45/小时的费率提供机器学习基础设施项目，其中一个编程视频标注框架，包括规则引擎、格式导出器和质量验证流程，通常需要 300-500 开发小时。该框架通过降低每分钟视频可能高达 $5-$15 的手动标注成本，从而迅速收回成本。

现有的视频标注工具要么 GUI 繁重且没有可编程 API，要么是可视化效果差的命令行工具：

我们构建了一个基于 React/Remotion 的视频标注框架，该框架具有类型安全的标注系统、关键帧插值功能和一个 Tauri 桌面编辑器。

自动化：可编程 API 实现了数千个视频的批量标注

质量：Remotion 以任何分辨率渲染像素完美的标注

灵活性：同一工具服务于 ML 训练数据准备和教育内容

桌面性能：Tauri 提供了原生速度的处理能力和 Web UI 的便利性

ReactTypeScriptRemotion 4.0ViteTauri 2OpenCV.jsONNX RuntimeFFmpeg