

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 为成功做好规划 MLOps
<a name="welcome"></a>

*Bruno Klein，Amazon Web Services ()AWS*

*2021 年 12 月*（[文档历史记录](doc-history.md)）

在生产环境中部署机器学习 (ML) 解决方案会带来许多在标准软件开发项目中不会出现的挑战。机器学习解决方案一开始就更复杂、更棘手。它们还存在于通常不稳定的环境中，由于各种预期和意想不到的原因，数据分布会随着时间的推移而出现显著的偏差。

许多机器学习从业者不是来自软件工程背景，因此他们可能不熟悉该行业的最佳实践，例如编写可测试的代码、模块化组件和有效使用版本控制，这一事实进一步加剧了这些问题。这些挑战造成了技术债务，随着时间的推移，在复合效应的推动下，机器学习团队的解决方案变得更加复杂和难以维护。

本指南列举了有助于缓解机器学习项目和工作负载中这些挑战的机器学习操作 (MLOps) 最佳实践。

由于 MLOps 这是一个[跨领域的问题](https://en.wikipedia.org/wiki/Cross-cutting_concern)，因此这些问题不仅会影响部署和监控流程，还会影响整个模型生命周期。在本指南中， MLOps 最佳实践分为四个主要领域：
+ [数据](data.md)
+ [训练](training.md)
+ [部署](deployment.md)
+ [监控](monitoring.md)

## 目标业务成果
<a name="business-outcomes"></a>

在生产环境中部署机器学习模型是一项需要持续努力和专门的团队来维护这些资源的整个生命周期（在某些情况下甚至是几年）。机器学习模型可以从业务数据中释放可观的价值，但它们的成本很高。为了最大限度地降低成本，企业应遵循软件开发和数据科学方面的良好实践。他们应该意识到机器学习系统的细微差别，例如数据漂移，这会使模型在一段时间后出人意料地运行。通过意识到这些问题，企业可以在短期和长期内安全、灵活地实现其业务目标。

机器学习模型有几种，它们所针对的行业有不同类型的机器学习任务和业务问题，因此您需要为每种模型和行业考虑不同的问题。本指南中列出的实践并非特定于模型或业务，而是适用于各种模型和行业，以缩短部署时间、提高生产率并建立更强的治理和安全性。

将模型投入生产是一项多学科任务，需要数据科学家、机器学习工程师、数据工程师和软件工程师。在组建机器学习团队时，我们建议您以这些技能和背景为目标。