

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 支援的架構和 AWS 區域
<a name="distributed-model-parallel-support-v2"></a>

使用 SageMaker 模型平行處理程式庫 v2 (SMP v2) 之前，請檢查支援的架構和執行個體類型，並判斷 AWS 您的帳戶和 中是否有足夠的配額 AWS 區域。

**注意**  
若要檢查程式庫的最新更新和版本備註，請參閱 [SageMaker 模型平行化程式庫的版本備註](model-parallel-release-notes.md)。

## 支援的架構
<a name="distributed-model-parallel-supported-frameworks-v2"></a>

SMP v2 支援下列深度學習架構，可透過 SMP Docker 容器和 SMP Conda 頻道取得。當您使用 SageMaker Python SDK 中的架構估算器類別，並指定要使用 SMP v2 的分佈組態時，SageMaker AI 會自動挑選 SMP Docker 容器。若要使用 SMP v2，建議您在開發環境中隨時將 SageMaker Python SDK 保持在最新狀態。

**SageMaker 模型平行化程式庫支援的 PyTorch 版本**



- **v2.5.1**
  - **SageMaker 模型平行化程式庫版本:** smdistributed-modelparallel==v2.8.0
  - **SMP Docker 映像檔 URI:** 658645717510.dkr.ecr.{{<us-west-2>}}.amazonaws.com/smdistributed-modelparallel:2.5.1-gpu-py311-cu124
  - **SMP Enroot 映像檔 URI:** https://sagemaker-distributed-model-parallel.s3.{{<us-west-2>}}.amazonaws.com/enroot/2.5.1-gpu-py311-cu124.sqsh

- **v2.4.1**
  - **SageMaker 模型平行化程式庫版本:** smdistributed-modelparallel==v2.7.0 / **SMP Enroot 映像檔 URI:** https://sagemaker-distributed-model-parallel.s3.{{<us-west-2>}}.amazonaws.com/enroot/2.4.1-gpu-py311-cu121.sqsh
  - **SageMaker 模型平行化程式庫版本:** smdistributed-modelparallel==v2.6.1 / **SMP Enroot 映像檔 URI:** N/A
  - **SageMaker 模型平行化程式庫版本:** smdistributed-modelparallel==v2.6.0 / **SMP Enroot 映像檔 URI:** N/A
  - **SMP Docker 映像檔 URI:** 658645717510.dkr.ecr.{{<us-west-2>}}.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121

- **v2.3.1**
  - **SageMaker 模型平行化程式庫版本:**
    - smdistributed-modelparallel==v2.5.0
    - smdistributed-modelparallel==v2.4.0
  - **SMP Docker 映像檔 URI:** 658645717510.dkr.ecr.{{us-west-2}}.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121
  - **SMP Enroot 映像檔 URI:** N/A

- **v2.2.0**
  - **SageMaker 模型平行化程式庫版本:**
    - smdistributed-modelparallel==v2.3.0
    - smdistributed-modelparallel==v2.2.0
  - **SMP Docker 映像檔 URI:** 658645717510.dkr.ecr.{{us-west-2}}.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
  - **SMP Enroot 映像檔 URI:** N/A

- **v2.1.2**
  - **SageMaker 模型平行化程式庫版本:** smdistributed-modelparallel==v2.1.0
  - **SMP Docker 映像檔 URI:** 658645717510.dkr.ecr.{{us-west-2}}.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121
  - **SMP Enroot 映像檔 URI:** N/A

- **v2.0.1**
  - **SageMaker 模型平行化程式庫版本:** smdistributed-modelparallel==v2.0.0
  - **SMP Docker 映像檔 URI:** 658645717510.dkr.ecr.{{us-west-2}}.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121
  - **SMP Enroot 映像檔 URI:** N/A



**SMP Conda 頻道**

下列 Amazon S3 儲存貯體是由 SMP 服務團隊託管的公有 Conda 頻道。如果您想要在 SageMaker HyperPod 叢集等環境中安裝 SMP v2 程式庫，請使用此 Conda 頻道來正確安裝 SMP 程式庫。

```
https://sagemaker-distributed-model-parallel.s3.{{us-west-2}}.amazonaws.com/smp-v2/
```

如需 Conda 頻道的一般詳細資訊，請參閱 *Conda 文件*中的[頻道](https://docs.conda.io/projects/conda/en/latest/user-guide/concepts/channels.html)。

**注意**  
若要尋找舊版 SMP 程式庫 v1.x 和預先封裝DLCs，請參閱 *SMP v1 文件*中的[支援的架構](distributed-model-parallel-support.md#distributed-model-parallel-supported-frameworks)。

### 搭配開放原始碼程式庫使用 SMP v2
<a name="distributed-model-parallel-supported-frameworks-v2-open-source"></a>

SMP v2 程式庫適用於其他 PyTorch 型開放原始碼程式庫，例如 PyTorch Lightning、Hugging Face Transformer 和 Hugging Face Accelerate，因為 SMP v2 與 PyTorch FSDP APIs 相容。如果您對搭配其他第三方程式庫使用 SMP 程式庫有其他問題，請透過 `sm-model-parallel-feedback@amazon.com` 聯絡 SMP 服務團隊。

## AWS 區域
<a name="distributed-model-parallel-availablity-zone-v2"></a>

下列提供 SMP v2 AWS 區域。如果您想要使用 SMP Docker 映像檔 URI 或 SMP Conda 頻道，請檢查下列清單並選擇與您的項目相符的 AWS 區域 ，並相應地更新映像檔 URI 或頻道 URL。
+ ap-northeast-1
+ ap-northeast-2
+ ap-northeast-3
+ ap-south-1
+ ap-southeast-1
+ ap-southeast-2
+ ca-central-1
+ eu-central-1
+ eu-north-1
+ eu-west-1
+ eu-west-2
+ eu-west-3
+ sa-east-1
+ us-east-1
+ us-east-2
+ us-west-1
+ us-west-2

## 支援的執行個體類型
<a name="distributed-model-parallel-supported-instance-types-v2"></a>

SMP v2 需要下列其中一個 ML 執行個體類型。


| 執行個體類型 | 
| --- | 
| ml.p4d.24xlarge | 
| ml.p4de.24xlarge | 
| ml.p5.48xlarge | 
| ml.p5e.48xlarge | 

**提示**  
從支援 PyTorch v2.2.0 和更新版本的 SMP v2.2.0 開始，[使用轉換器引擎在 P5 執行個體上使用 FP8 進行混合精確度訓練](model-parallel-core-features-v2-mixed-precision.md#model-parallel-core-features-v2-mixed-precision-fp8-training-on-p5) 可供使用。

對於 SageMaker 機器學習執行個體類型的一般規格，請參閱 [Amazon EC2 執行個體類型頁面](https://aws.amazon.com/ec2/instance-types/)中的**加速運算**區段。有關執行個體定價資訊，請參閱 [Amazon SageMaker AI 定價](https://aws.amazon.com/sagemaker/pricing/)。

如果您遇到類似下列內容的錯誤訊息，請按照《AWS Service Quotas 使用者指南》**中的[要求提高配額](https://docs.aws.amazon.com/servicequotas/latest/userguide/request-quota-increase.html)指示進行操作。

```
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling
    the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge
    for training job usage' is 0 Instances, with current utilization of 0 Instances
    and a request delta of 1 Instances.
    Please contact AWS support to request an increase for this limit.
```