本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 Amazon EKS 協作的 SageMaker HyperPod 叢集上執行任務
下列主題提供存取運算節點,以及在與 Amazon EKS 協作的佈建 SageMaker HyperPod 叢集上執行 ML 工作負載的程序和範例。根據您在 HyperPod 叢集上設定環境的方式,在 HyperPod 叢集上執行 ML 工作負載的方法有很多種。
注意
透過 SageMaker HyperPod CLI 或 kubectl 執行任務時,HyperPod 可以跨命名空間 (團隊) 追蹤運算使用率 (GPU/CPU 時數)。這些指標驅動用量報告,其中提供:
-
配置資源耗用量與借用資源耗用量的可見性
-
用於稽核的團隊資源使用率 (最多 180 天)
-
符合任務治理政策的成本歸因
若要使用用量報告,您必須安裝用量報告基礎設施。強烈建議設定任務治理以強制執行運算配額,並啟用精細的成本歸因。
如需設定和產生用量報告的詳細資訊,請參閱在 HyperPod 中報告運算用量。
提示
如需有關如何設定和使用與 Amazon EKS 協作的 SageMaker HyperPod 叢集的實作體驗和指引,我們建議您參加 SageMaker HyperPod 中的 Amazon EKS 支援
資料科學家使用者可以使用已設定為 SageMaker HyperPod 叢集協調器的 EKS 叢集來訓練基礎模型。科學家利用 SageMaker HyperPod CLIkubectl 命令,來尋找可用的 SageMaker HyperPod 叢集、提交訓練任務 (Pod),以及管理其工作負載。SageMaker HyperPod CLI 使用訓練任務結構描述檔案啟用任務提交,並提供任務列示、描述、取消和執行的功能。科學家可以根據 HyperPod 管理的運算配額使用 Kubeflow Training Operator