

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 使用 Amazon EKS 協作 SageMaker HyperPod 叢集
<a name="sagemaker-hyperpod-eks"></a>

SageMaker HyperPod 是一項 SageMaker AI 受管服務，可在長時間執行且具彈性的運算叢集上啟用大規模訓練基礎模型，從而與 Amazon EKS 整合以協作 HyperPod 運算資源。您可以使用 Amazon EKS 叢集搭配 HyperPod 彈性功能，大規模持續數週或數月執行不間斷的訓練任務，這些功能會檢查各種硬體故障並自動復原故障的節點。

叢集管理員使用者的重要功能包括下列操作。
+ 佈建具彈性的 HyperPod 叢集並將其連接到 EKS 控制平面
+ 啟用動態容量管理，例如新增更多節點、更新軟體和刪除叢集
+ 啟用透過 `kubectl` 或 SSM/SSH 直接存取叢集執行個體
+ 提供[彈性功能](sagemaker-hyperpod-eks-resiliency.md)，包括基本運作狀態檢查、深度運作狀態檢查、運作狀態監控代理程式，以及支援 PyTorch 任務自動繼續
+ 與 [Amazon CloudWatch Container Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html)、[Amazon Managed Service for Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html) 和 [Amazon Managed Grafana ](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html)等可觀測性工具整合

對於資料科學家使用者，HyperPod 中的 EKS 支援會啟用下列操作。
+ 在 HyperPod 叢集上執行用於訓練基礎模型的容器化工作負載
+ 利用 HyperPod 與 EKS 之間的整合，在 EKS 叢集上執行推論
+ 利用任務自動繼續功能進行 [Kubeflow PyTorch 訓練 (PyTorchJob)](https://www.kubeflow.org/docs/components/training/user-guides/pytorch/)

**注意**  
Amazon EKS 透過 Amazon EKS 控制平面，在 SageMaker HyperPod 上啟用任務和基礎設施的使用者受管協同運作。確保使用者透過 Kubernetes API Server 端點存取叢集時遵循最低權限原則，並確保 HyperPod 叢集的網路輸出受到保護。  
若要進一步了解如何保護對 Amazon EKS API 伺服器的存取，請參閱[控制叢集 API 伺服器端點的網路存取](https://docs.aws.amazon.com/eks/latest/userguide/cluster-endpoint.html)。  
若要進一步了解如何在 HyperPod 上保護網路存取，請參閱[使用自訂 Amazon VPC 設定 SageMaker HyperPod](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-optional-vpc)。

HyperPod 中 Amazon EKS 支援的高階架構涉及 EKS 叢集 (控制平面) 與 VPC 內 HyperPod 叢集 (工作節點) 之間的一對一對應，如下圖所示。

![透過 VPC 內的跨帳戶 ENIs 連接到 HyperPod 叢集 節點的 EKS 控制平面。 VPCs](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/hyperpod-eks-diagram.png)
