挑战
使用AI处理多个RTSP流需要解决几个复杂问题:
- GPU内存限制限制了并发流处理
- 录制机器和推理机器之间的时钟偏差导致时间戳漂移
- 传统检测模型对于实时多流场景来说速度太慢
- 事件需要精确映射到视频播放位置以便进行审查
我们的解决方案
我们设计了一个针对多流实时处理并采用基于PTS的时间戳同步的分布式AI推理平台。
架构
- 推理引擎: YOLO11在NVIDIA RTX 4000 Ada上进行TensorRT加速
- 追踪: ByteTrack多目标追踪与持久ID分配
- 流媒体: MediaMTX用于RTSP/HLS/RTMP协议转换
- 通信: 双WebSocket通道 (实时检测叠加 + 事件警报)
- 基础设施: DigitalOcean (录制) + RunPod (GPU推理)
优化技术
- TensorRT加速 - 模型编译为TensorRT以实现约15毫秒的批量推理
- 微批处理 - 将来自多个流的帧进行批处理以提高GPU效率
- 内存管理 - 10-12个并发流使用4-6GB VRAM
- PTS时间戳同步 - 基于演示时间戳的同步,解决跨机器时钟偏差问题
- 跨机器偏移校正 - 自动计算分布式节点之间的时间偏移
检测流程
- 人员/车辆检测及置信度评分
- 通过EasyOCR进行车牌识别和文本提取
- 火灾和烟雾检测 (灵敏度可配置)
- 行为分析 (徘徊时长、入侵区域、占用阈值)
主要功能
- 双WebSocket通道 - 用于视频叠加数据和警报事件的独立流
- PTS同步 - 事件时间戳与精确的视频播放位置匹配
- 持久对象追踪 - ByteTrack在帧之间保持ID以实现一致的追踪
- 可配置检测区域 - 为每台摄像机定义入侵/徘徊区域
- 自动扩缩容 - 基于GPU可用性进行动态流分配
成果
技术栈
caseStudyDetail.more 案例研究
探索更多我们的技术实施案例
基于 VPN 的 RTSP 流媒体,具备自动扩展的转发、HLS 传输和录制
一个监控平台需要通过 VPN 隧道安全地接收来自远程位置的 RTSP 摄像机流,将其转发用于基于网页的查看和 AI 处理,根据需求自动扩展转发基础设施,并录制流以供存档——所有这些都要在不可预测的网络条件下保持低延迟和可靠连接。
具有双编排器和零丢包的自动扩缩容 RTSP 流媒体架构
一个监控平台需要动态扩缩容其视频流媒体基础设施,以处理从 10 到 200 多个 IP 摄像头,以及数百名并发观看者和 AI 处理工作者,同时保证在扩缩容操作期间零丢包,并保持永不改变的稳定流 URL。
常见问题
MicrocosmWorks 优化了管道,通过将来自多个流的帧批量处理到单个 GPU 推理调用中,并使用 NVIDIA TensorRT,这最大化了 GPU 利用率,即使在每个节点处理 20 多个并发流时,也能实现每帧低于 100 毫秒的延迟。该架构使用 CUDA 加速的视频解码,将帧提取任务从 CPU 卸载,从而防止了通常限制多流性能的解码瓶颈。
MicrocosmWorks 构建了容错流处理器,它们维护每个摄像头的状态机,采用指数退避机制自动重新连接中断的流,同时不中断地处理所有正常的信号。损坏的帧通过校验和验证被检测到并被优雅地跳过,系统会跟踪流健康度指标,当摄像头的可靠性低于可配置阈值时,这些指标会触发警报。
是的,MicrocosmWorks 提供了一个自定义模型训练管道,您需要提供您特定检测目标的标注好的示例,团队将微调基础检测模型以识别行业特定的对象、行为或异常。该平台支持在生产环境中无需停机地进行模型热插拔,因此随着您从部署的摄像头中收集更多训练数据,您可以迭代地提高检测准确性。
MicrocosmWorks 将该分析平台设计在基于 Kubernetes 的架构上,其中 GPU worker pods 会根据数据流数量和处理负载进行水平扩展。增加容量就像配置额外的 GPU nodes 一样简单,编排层会自动将数据流重新分配到可用的 workers,从而无论总部署规模如何,都能保持一致的 latency 和检测准确性。
MicrocosmWorks 实施了边缘预处理选项,其中初始帧提取和可选的轻量级 inference 在靠近摄像头的地方进行,通过仅传输关键帧或事件触发的片段,从而减少了中央 analytics cluster 所需的带宽。对于完全集中式的部署,该平台支持可配置分辨率的 H.265 流,典型的带宽为每路 1080p 视频流在 15fps analytics 采样率下为 2-4 Mbps。
