

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 規劃成功的 MLOps
<a name="welcome"></a>

*Bruno Klein，Amazon Web Services (AWS)*

*2021 年 12 月* ([文件歷史記錄](doc-history.md))

在生產環境中部署機器學習 (ML) 解決方案會帶來許多標準軟體開發專案中未出現的挑戰。ML 解決方案更複雜、更棘手，一開始就正確。它們也存在於通常不穩定的環境中，其中資料分佈會隨著時間的推移而明顯偏離各種預期和非預期的原因。

許多 ML 從業人員並非來自軟體工程背景，因此這些問題會進一步加重，因此他們可能不熟悉這個產業的最佳實務，例如撰寫可測試程式碼、模組化元件，以及有效使用版本控制。這些挑戰會為 ML 團隊帶來技術債務，而且解決方案會隨著時間的推移而變得更加複雜且難以維持。

本指南列舉 ML 操作 (MLOps) 最佳實務，以協助減輕 ML 專案和工作負載中的這些挑戰。

由於 MLOps 是一個[交叉切削問題](https://en.wikipedia.org/wiki/Cross-cutting_concern)，這些問題不僅會影響部署和監控程序，還影響整個模型生命週期。在本指南中，MLOps 最佳實務分為四個主要領域：
+ [資料](data.md)
+ [訓練](training.md)
+ [部署](deployment.md)
+ [監控](monitoring.md)

## 目標業務成果
<a name="business-outcomes"></a>

在生產環境中部署 ML 模型是一項任務，需要持續努力和專屬的團隊，才能在其生命週期內 （在某些情況下甚至數年） 維護這些資源。ML 模型可以從商業資料中釋放大量價值，但成本很高。為了將成本降至最低，企業應遵循軟體開發和資料科學的良好實務。他們應該注意 ML 系統的細微差別，例如資料偏離，這可讓模型在一段時間後意外執行。透過了解這些疑慮，企業可以在短期和長期中安全且靈活地達成業務目標。

ML 模型有幾種類型，而其目標產業有不同類型的 ML 任務和業務問題，因此您需要考慮每個模型和產業的不同問題集。本指南中列出的實務並非特定於模型或業務，但適用於廣泛的模型和產業，以改善部署時間、產生更高的生產力，並建置更強大的治理和安全性。

將模型放入生產是一個多學科任務，需要資料科學家、機器學習工程師、資料工程師和軟體工程師。當您建置您的 ML 團隊時，我們建議您以這些技能和背景為目標。