你已经在笔记本中验证了一个ML模型有效。现在你需要将其投入生产——大规模地提供预测、在新数据上进行再训练、监控漂移,以及在新模型表现不如当前模型时进行回滚。一个工作原型与生产级ML系统之间的差距是巨大的。你需要一个管道,以可重复、自动化的方式处理数据摄取、特征工程、训练、验证、部署和监控。没有它,你的“AI产品”就是一个数据科学家每周手动运行的笔记本。
AI/ML 管道架构将ML生命周期划分为不同的自动化阶段:数据摄取和验证、特征工程和存储、模型训练和超参数调优、模型评估和验证、模型服务和推理,以及持续监控。每个阶段都是版本化、可复现和可观测的。该架构支持批处理(计划再训练)和在线(实时特征计算)工作流。特征存储将特征工程与模型训练解耦,实现特征在模型间的重用,并确保训练和服务的特征一致性。
Explore more design patterns and system architectures
MicrocosmWorks 采用模型注册表模式,利用 MLflow 或 Weights & Biases 等工具跟踪每个模型版本及其训练数据快照、超参数和评估指标。我们的部署管道支持金丝雀发布,即新模型服务一小部分流量,同时我们监控关键性能指标。如果准确性或延迟超出设定的阈值,将触发自动回滚。这确保了性能不佳的模型不会影响超过受控比例的用户。
MicrocosmWorks 设计的 ML 管道具有独立的训练和服务基础设施,并通过一个 artifact store 连接。因此,重新训练作业在临时的 GPU 集群上运行,不会与生产推理端点争夺资源。我们使用 Kubeflow Pipelines 或 Apache Airflow 等编排工具,在检测到数据漂移或按固定计划触发重新训练,并通过自动化验证门控,只有当重新训练的模型性能优于当前版本时才将其推向生产。这种架构确保您的模型持续改进,且不会有任何服务停机时间。
MicrocosmWorks 将漂移检测功能内置到每个生产 ML 管道中,利用诸如用于特征分布的 Kolmogorov-Smirnov test 等统计测试,以及跟踪预测准确性与可用真实标签的性能监控仪表板。当漂移超出配置阈值时,我们的管道会自动触发使用最新数据进行重新训练,或者在漂移模式出乎意料时提醒团队进行手动审查。这种主动方法能在通过下游业务指标发现模型性能下降前数周捕获到它。
MicrocosmWorks 构建端到端 ML 管道,团队按 $15-$45/小时收费。一个典型的生产管道,涵盖数据摄取、特征工程、训练编排、模型注册表和服务基础设施,通常需要 10-20 周,具体取决于数据复杂性和合规性要求。我们通过为训练工作负载使用 spot instances 并根据实际推理需求进行 auto-scaling 来调整服务基础设施规模,从而降低成本。每次合作都从为期 2 周的探索性冲刺开始,在此期间会产出详细的架构计划和成本预测,然后才开始全面构建。
MicrocosmWorks 建立实验跟踪基础设施,自动捕获每次训练运行的代码版本、数据集哈希、环境配置、随机种子和超参数,使任何过去的实验在数月后仍能完全重现。我们使用固定依赖版本的容器化训练环境,并结合 Git 使用 DVC (Data Version Control) 来版本控制数据集,使其与代码更改同步。这消除了结果在某个数据科学家的机器上有效但团队无法复制的常见问题。
管道从数据源(数据库、APIs、事件流)流经一个特征工程层,该层计算特征并将其存储在特征存储中(在线用于服务,离线用于训练)。一个训练编排器运行实验,记录参数和指标,并生成存储在模型注册表中的版本化模型产物。一个部署管道通过自动化金丝雀评估将模型从预生产提升到生产环境。模型服务运行在负载均衡器之后,并支持A/B测试。一个监控层跟踪预测漂移、数据漂移和业务指标,以触发再训练。
核心组件:| 层 | 技术 |
|---|---|
| 训练 | PyTorch, TensorFlow, scikit-learn, XGBoost, Hugging Face Transformers |
| 编排 | Kubeflow, SageMaker Pipelines, Airflow, Prefect, Dagster |
| 特征存储 | Feast, Tecton, SageMaker Feature Store |
| 模型服务 | TorchServe, Triton Inference Server, SageMaker Endpoints, FastAPI |
| 实验跟踪 | MLflow, Weights & Biases, Neptune |
| 监控 | Evidently AI, WhyLabs, custom Prometheus metrics |
| 使用场景 | 避免场景 |
|---|---|
| 你拥有需要定期再训练的生产环境ML模型 | 你仍在探索ML是否能解决问题——从笔记本开始 |
| 多个模型共享特征并需要一致的特征工程 | 你只有一个每季度再训练一次的模型——一个脚本和 cron 作业可能就足够了 |
| 你需要带有版本化数据、代码和模型的可复现训练 | ML组件是对托管LLM的单个API调用(改用AI SDK模式) |
| 模型性能下降直接影响业务指标 | 团队不具备操作管道的ML工程技能 |
MW以“生产优先”的心态构建ML管道——我们在优化模型之前,首先构建服务和监控基础设施。一个鲁棒管道中的平庸模型胜过笔记本中的优秀模型。我们的管道包括自动化数据验证(Great Expectations)、训练-服务偏差测试、影子模式部署(新模型接收流量但不提供结果),以及在指标退化时自动回滚的渐进式发布。我们已在医疗保健、金融科技和计算机视觉领域部署了处理每天5000万次以上预测的管道。
让您的 LLM 无需微调即可访问您的数据。RAG 弥合了通用语言模型与领域特定知识之间的鸿沟。