Video Creation
Domain
21
Technologies
4
Key Results
Delivered
Status
挑战
将长篇内容重新用于短视频是一个手动且耗时的过程:
- 从数小时的素材中识别最引人入胜的片段需要手动审查
- 字幕样式在不同平台和受众之间各不相同,需要专业的编辑技能
- 没有针对多人内容的自动化活跃发言人检测
- 在多个平台上的分发需要单独上传和格式化
我们的解决方案
我们构建了一个全栈 AI 驱动的视频创作平台,可自动剪辑、添加字幕并大规模分发短视频内容。
架构
- 前端:React 18 + Vite + TypeScript,使用 Chakra UI 和 Tailwind CSS
- 后端:Node.js/Express,使用 MongoDB 和 Redis
- 视频渲染:FFmpeg,使用 Advanced SubStation Alpha (ASS) 字幕
- 发言人检测:Python/Flask,使用 TalkNet、YOLO 人脸检测、Whisper 转录
- YouTube 下载器:Node.js,使用 yt-dlp 和 Mullvad VPN 进行 IP 轮换
- AI/LLM:Claude 3(主要)、Gemini 2.0 Flash、GPT-4o(回退链)
- 基础设施:混合本地 + Azure 云,使用 Cloudflare R2/CDN
AI 流程
- 内容摄取 - YouTube URL 或文件上传
- AI 剪辑 - LLM 驱动的引人入胜片段识别
- 转录 - OpenAI Whisper,带词级时间戳
- 发言人检测 - TalkNet 音视频融合,用于多人内容
- 字幕样式 - 14+ 种动画样式(MrBeast、Hormozi、Ali Abdaal、Karaoke 等)
- 渲染 - FFmpeg,带 ASS 字幕渲染和批量处理
- 分发 - 直接上传到 YouTube、TikTok 和 Instagram
主要功能
- AI 片段检测 - 自动查找最具病毒传播潜力的片段
- 14+ 种字幕样式 - 为不同平台优化的专业模板
- 活跃发言人检测 - 识别多人视频中的发言者
- 多平台发布 - 安排并发布到 YouTube、TikTok、Instagram
- 模板系统 - 预设模板(Baby Podcast、App Explainer、Supplement Doctor)
- 基于积分的计费 - 与 Stripe 集成并支持订阅等级
成果
内容发布速度:短视频制作速度提高 10 倍
AI 可靠性:三模型回退链(Claude -> Gemini -> OpenAI)确保 99.9% 的正常运行时间
成本节约:混合基础设施将成本比纯云方案降低了 67%
可扩展性:通过基于队列的处理支持数千并发用户
技术栈
ReactViteTypeScriptNode.jsExpressMongoDBRedisFFmpegPythonFlaskTalkNetYOLOWhisperClaude 3
常见问题
MicrocosmWorks通过对病毒式短视频内容的训练数据集进行学习,以掌握与高互动性相关的结构模式,例如吸引点时长(前1.5秒)、节奏以及文字叠加位置。该平台为每个需求生成多个变体,并使用预测互动模型对其进行评分,然后呈现最佳选项。
是的,MicrocosmWorks构建了一个自动化内容生产线,可以接收文本简介、产品URL或博客文章,并从中提取关键信息,生成故事板,选择或创建视觉素材,应用动态图形,并添加画外音。每30秒视频的端到端生成大约需要3-5分钟,无需人工编辑。
MicrocosmWorks实施了一个品牌工具包系统,客户可以在其中上传他们的标志、字体、调色板和经批准的库存素材库。每个生成的视频都将受限于这些品牌准则,并且文本转语音的声音可以从30秒的样本中克隆,以在所有内容中保持一致的音频品牌。
MicrocosmWorks集成了多语言支持,涵盖25种语言,并提供原生文本转语音声音和自动字幕生成。该平台还会针对不同市场调整内容节奏和文本密度,因为与西方受众相比,亚洲社交媒体受众通常偏爱更快的剪辑和更密集的文本叠加。
MicrocosmWorks以每小时25-50美元的费率构建AI内容创作平台,一个完整的短视频生成系统,包括故事板AI、渲染引擎和品牌工具包管理,通常需要600-900个开发小时。持续的AI模型托管成本根据生成量从每月2,000-8,000美元不等。
