挑战
将横屏视频转换为竖屏格式是短视频内容制作中最繁琐的步骤之一:
- 为每个片段手动裁剪和重新定位画面非常耗时
- 多人物对话需要随着说话者的变化进行动态重构帧
- 静态中心裁剪会切掉移动或偏离中心坐着的说话者
- 传统的面部检测对于数千个片段的实时重构帧决策来说太慢了
- 不同内容类型(访谈、个人Vlog、演示文稿)需要不同的构图策略
我们的解决方案
我们构建了一个 AI 驱动的人脸追踪与智能重构帧引擎,它能检测视频帧中的人脸,追踪其运动,并动态调整竖屏裁剪区域,以保持活动主体居中。
架构
- 人脸检测: 基于 YOLO 的人脸检测模型,针对速度进行了优化
- 人脸追踪: 基于 IoU 的帧间追踪,具有持久的主体 ID
- 重构帧引擎: 基于人脸位置和运动的动态裁剪区域计算
- 活动说话者耦合: 与说话者检测集成,优先考虑正在说话的人
- 渲染: FFmpeg 裁剪滤镜链,具有平滑的平移过渡
重构帧流程
- 人脸检测 - 对采样帧运行 YOLO 人脸检测
- 主体追踪 - 使用基于 IoU 的追踪,连接跨帧的人脸检测结果
- 说话者优先级 - 当与活动说话者检测耦合时,优先考虑正在说话的主体
- 裁剪计算 - 根据主要主体位置确定最佳 9:16 裁剪区域
- 平滑处理 - 对裁剪运动应用缓动效果,避免生硬的跳跃
- 渲染 - FFmpeg 应用具有平滑平移过渡的动态裁剪
主要功能
- 多主体处理 - 追踪多个人脸,并确定每个片段的主要主体
- 说话者感知构图 - 与说话者检测集成时,优先考虑活动说话者
- 平滑过渡 - 主体之间的缓动平移消除了生硬的剪切
- 内容类型适应 - 针对个人、访谈和团体内容的不同构图策略
- 批量处理 - 从一个长视频中重构数百个片段
- 无需手动干预 - 从检测到最终渲染完全自动化
成果
技术栈
常见问题
MicrocosmWorks 实施了一种混合追踪方法,该方法将每第5帧运行的轻量级面部检测器与用于帧间预测的 KCF 光流追踪器结合起来。当通过置信度分数下降检测到遮挡时,系统会通过 Kalman filtering 保持上次已知的轨迹,并在面部再次可见后的200毫秒内重新捕捉到面部。
MicrocosmWorks 构建了一种显著性加权裁剪算法,在确定9:16裁剪窗口位置时,它会优先考虑检测到的面部,然后是文本区域,最后是运动区域。对于多人物场景,系统使用可配置的优先级排序,默认选择活跃发言人或最大面部,并通过裁剪位置之间的平滑插值来避免突兀的画面切换。
是的,MicrocosmWorks 实施了一种备用显著性检测模式,在没有面部时激活,它结合了运动检测、视觉注意力建模和屏幕录制的鼠标光标追踪。即使在纯视觉或基于文本的素材中,系统也能智能地跟随最相关的内容区域。
MicrocosmWorks 优化了批量工作流的管道,在单个 NVIDIA T4 GPU 上实现了8倍实时处理速度,这意味着一个10分钟的视频在大约75秒内完成重新构图。系统支持跨多个 GPU 的并行处理,为高容量内容操作实现线性扩展。
MicrocosmWorks 以每小时$25-$45的费率开发 AI 视频重新构图系统,其中完整的面部追踪和智能重新构图解决方案(包括模型优化、批量处理支持和 API 集成)通常需要350-550个开发小时。这项投资消除了对人工重新构图编辑器的需求,而人工编辑通常每个视频花费$5-$15。