挑战
手动为视频添加样式化字幕是短视频内容制作中最大的瓶颈:
- 每个平台 (TikTok, Instagram, YouTube) 都需要不同的字幕格式
- 流行的创作者风格 (MrBeast, Hormozi) 需要特定的字体、颜色和动画
- 字级动画(卡拉OK高亮、弹跳效果)无法大规模手动创建
- 对单个长视频中的50多个片段进行批量处理会使标准工具不堪重负
我们的解决方案
我们构建了一个专用的字幕样式和渲染引擎,该引擎使用 FFmpeg 支持 Advanced SubStation Alpha (ASS) 字幕,并结合了 AI 驱动的转录校正功能。
架构
- 渲染引擎: FFmpeg 结合 ASS 字幕生成
- 转录: OpenAI Whisper 提供字级时间戳
- 校正: GPT-4o 用于提高 AI 驱动的转录准确性
- 处理: Node.js 结合内存优化批量处理
- 存储: 多云 (Azure, AWS S3, Google Cloud Storage, Cloudflare R2)
字幕样式
- KARAOKE - 伴随音频播放逐字高亮
- ALI - 受 Ali Abdaal 启发,简洁的排版风格
- MR_BEAST - 粗体、引人注目的冲击性文字
- HORMOZI - Alex Hormozi 风格的专业字幕
- BOX - 框选/高亮单词强调
- 平台优化 - 针对 TikTok, Instagram, YouTube 的特定样式
处理流程
- 音频提取 - 从视频中分离音频轨道
- Whisper 转录 - 生成带置信分数的字级时间戳
- AI 校正 - GPT-4o 清理转录错误和格式问题
- ASS 生成 - 将样式化字幕转换为 ASS 字幕格式
- FFmpeg 渲染 - 将字幕合成到视频帧上
- 批量处理 - 通过内存优化处理50多个片段
主要特性
- 14+ 种字幕样式 - 每种都具有独特的字体、颜色、动画和定位
- 字级动画 - 卡拉OK高亮、弹跳、渐变、缩放效果
- AI 转录校正 - GPT-4o 提高 Whisper 输出准确性
- 批量渲染 - 并行处理整个视频库
- 内存优化 - 处理大文件而不会出现 OOM 错误
- 多云存储 - 自动上传到配置的云提供商
成果
技术栈
常见问题
MicrocosmWorks 构建了一个模板引擎,包含40多种预设字幕样式,包括逐词高亮、卡拉OK式渐进显示和动画文本效果。该引擎分析视频背景,自动选择对比色、阴影深度和定位,以确保在不同场景构图中都具有可读性。
可以,MicrocosmWorks 集成了说话人分离功能,可以从音轨中识别出单个说话者,并为每个说话者的字幕分配独特的配色方案或定位。对于具有固定说话者的播客式内容,系统会学习说话者身份,并在不同剧集间保持其分配的样式。
MicrocosmWorks 集成了 Whisper large-v3 作为转录后端,对于清晰的英语音频,实现了95-98%的词准确率;对于带口音的语音或嘈杂环境,则达到90-95%。该系统包含一个手动校正界面,可以更新转录文本并自动重新渲染带有校正文本的带样式字幕。
MicrocosmWorks 构建了导出管道,可将带样式字幕直接嵌入到采用 H.264 和 H.265 编码的 MP4 文件中,支持从 720p 到 4K 的任何分辨率。该引擎还可导出单独的 SRT、VTT 和 ASS 字幕文件,其中包含样式元数据,供本机支持带样式字幕渲染的平台使用。
MicrocosmWorks 提供字幕技术项目,费率为20-40美元/小时,一个完整的字幕样式引擎,包括转录集成、40多种样式模板和多格式导出,通常需要350-500个开发小时。对于目前每个视频花费15-30分钟手动设置字幕样式的内容团队来说,该系统能迅速回本。
