

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 讓 SageMaker AI 訓練任務可以存取 Amazon VPC 中的資源
<a name="train-vpc"></a>

**注意**  
對於訓練任務，您只能使用執行個體在共用硬體執行所在的預設租用 VPC 來設定子網路。如需 VPC 租用屬性的詳細資訊，請參閱[專用執行個體](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/dedicated-instance.html)。

## 設定訓練任務以存取 Amazon VPC
<a name="train-vpc-configure"></a>

若要控制對訓練任務的存取，請在具有無法存取網際網路的私有子網路的 Amazon VPC 中執行訓練任務。

您可以在 VPC 內指定子網路和安全群組 ID 來設定訓練任務。您不需要為訓練任務容器指定子網路。Amazon SageMaker AI 會自動從 Amazon ECR 提取訓練容器。

建立訓練任務時，您可以使用 Amazon SageMaker AI 主控台或 API，在您的 VPC 中指定子網路和安全群組。

若要使用 API，請在 [CreateTrainingJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTrainingJob.html) 操作的 `VpcConfig` 參數中指定子網路和安全群組 ID。SageMaker AI 會使用子網路和安全群組詳細資料來建立網路介面，並將其連接至訓練容器。網路介面在您的 VPC 內提供具有網路連線的訓練容器。這可讓訓練任務連線至您的 VPC 中存在的資源。

以下為您包含在對 `CreateTrainingJob` 作業的呼叫內的 `VpcConfig` 參數的範例：

```
VpcConfig: {
      "Subnets": [
          "subnet-0123456789abcdef0",
          "subnet-0123456789abcdef1",
          "subnet-0123456789abcdef2"
          ],
      "SecurityGroupIds": [
          "sg-0123456789abcdef0"
          ]
        }
```

## 為 SageMaker AI 訓練設定私有 VPC
<a name="train-vpc-vpc"></a>

在為您的 SageMaker AI 訓練任務設定私有 VPC 時，請使用以下指導方針。如需如何設定 VPC 的相關資訊，請參閱 *Amazon VPC 使用者指南*中的[使用 VPC 和子網路](https://docs.aws.amazon.com/AmazonVPC/latest/UserGuide/working-with-vpcs.html)的相關文章。

**Topics**
+ [確保子網路擁有充足的 IP 地址](#train-vpc-ip)
+ [建立 Amazon S3 VPC 端點](#train-vpc-s3)
+ [使用自訂端點政策來限制存取 S3](#train-vpc-policy)
+ [設定路由表](#train-vpc-route-table)
+ [設定 VPC 安全群組](#train-vpc-groups)
+ [連線至您的 VPC 外部的資源](#train-vpc-nat)
+ [使用 CloudWatch Logs 和指標監控 Amazon SageMaker 訓練任務](#train-vpc-cloudwatch)

### 確保子網路擁有充足的 IP 地址
<a name="train-vpc-ip"></a>

*不使用* Elastic Fabric Adapter (EFA) 的訓練執行個體至少應具有 2 個私有 IP 地址。使用 EFA 的訓練執行個體至少應具有 5 個私有 IP 地址。如需詳細資訊，請參閱 Amazon EC2 使用者指南中的[多個 IP 地址](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/MultipleIP.html)。

您的 VPC 子網路應至少具有兩個私有 IP 地址，以供訓練任務中的各個執行個體使用。如需詳細資訊，請參閱 *Amazon VPC 使用者指南*中的[IPv4 的 VPC 與子網路的大小調整](https://docs.aws.amazon.com/AmazonVPC/latest/UserGuide/VPC_Subnets.html#vpc-sizing-ipv4)的相關文章。

### 建立 Amazon S3 VPC 端點
<a name="train-vpc-s3"></a>

若要對您的 VPC 進行設定以讓訓練容器無法存取網際網路，除非您建立的 VPC 端點允許存取，否則也會無法連線至含有訓練資料的 Amazon S3 儲存貯體。建立 VPC 端點可讓您的訓練容器存取您存放資料和模型成品的儲存貯體。建議也建立一個自訂政策，只允許來自您私有 VPC 的請求存取您的 S3 儲存貯體。如需詳細資訊，請參閱 [Amazon S3 的端點](https://docs.aws.amazon.com/AmazonVPC/latest/UserGuide/vpc-endpoints-s3.html)。

**建立 S3 VPC 端點：**

1. 在 [https://console.aws.amazon.com/vpc/](https://console.aws.amazon.com/vpc/) 開啟 Amazon VPC 主控台。

1. 在導覽窗格中，選擇**端點**，然後選擇**建立端點**

1. 對於**服務名稱**，搜尋 **com.amazonaws.{{region}}.s3**，其中 {{region}} 是您的 VPC 所在區域的名稱。

1. 選擇**閘道**類型。

1. 對於 **VPC**，選擇您要用於此端點的 VPC。

1. 針對**設定路由表**，選取要供端點使用的路由表。每個 VPC 服務會自動將路由新增到您選擇的路由表，以便將任何 S3 流量導向新的端點。

1. 對於**政策**，選擇**完整存取**，以允許 VPC 內的任何使用者或服務完整存取 S3 服務。選擇**自訂**，以進一步限制存取權。如需相關資訊，請參閱[使用自訂端點政策來限制存取 S3](#train-vpc-policy)。

### 使用自訂端點政策來限制存取 S3
<a name="train-vpc-policy"></a>

預設端點政策可讓您的 VPC 中的任何使用者或服務完整存取 S3。若要進一步限制存取 S3，請建立自訂端點政策。如需詳細資訊，請參[ Amazon S3 使用端點政策](https://docs.aws.amazon.com/vpc/latest/userguide/vpc-endpoints-s3.html#vpc-endpoints-policies-s3)。您也可以使用儲存貯體政策，以限制只有來自 Amazon VPC 流量才能存取您的 S3 儲存貯體。如需資訊，請參閱[使用 Amazon S3 儲存貯體政策](https://docs.aws.amazon.com/vpc/latest/userguide/vpc-endpoints-s3.html#vpc-endpoints-s3-bucket-policies)。

#### 限制在訓練容器上安裝套件
<a name="train-vpc-policy-repos"></a>

預設端點政策允許使用者在訓練容器上安裝來自 Amazon Linux 和 Amazon Linux 2 儲存庫的套件。如果不希望使用者從該儲存庫安裝套件，請建立自訂端點政策，明確拒絕至 Amazon Linux 和 Amazon Linux 2 儲存庫的存取。以下為拒絕存取上述儲存庫的政策範例：

```
{ 
    "Statement": [ 
      { 
        "Sid": "AmazonLinuxAMIRepositoryAccess",
        "Principal": "*",
        "Action": [ 
            "s3:GetObject" 
        ],
        "Effect": "Deny",
        "Resource": [
            "arn:aws:s3:::packages.*.amazonaws.com/*",
            "arn:aws:s3:::repo.*.amazonaws.com/*"
        ] 
      } 
    ] 
} 

{ 
    "Statement": [ 
        { "Sid": "AmazonLinux2AMIRepositoryAccess",
          "Principal": "*",
          "Action": [ 
              "s3:GetObject" 
              ],
          "Effect": "Deny",
          "Resource": [
              "arn:aws:s3:::amazonlinux.*.amazonaws.com/*" 
              ] 
         } 
    ] 
}
```

### 設定路由表
<a name="train-vpc-route-table"></a>

請為端點路由表使用預設的 DNS 設定，如此才能解析標準 Amazon S3 URL (例如 `http://s3-aws-region.amazonaws.com/amzn-s3-demo-bucket`)。若未使用預設的 DNS 設定，請將端點路由表設定妥當，確保您用來指定訓練工作的資料所在位置的 URL 可解析。如需 VPC 端點路由表的相關資訊，請參閱 *Amazon VPC 使用者指南*中的[閘道端點路由](https://docs.aws.amazon.com/AmazonVPC/latest/UserGuide/vpce-gateway.html#vpc-endpoints-routing)的相關文章。

### 設定 VPC 安全群組
<a name="train-vpc-groups"></a>

在分散式的訓練中，必須允許同一訓練工作內不同容器之間的通訊。若要執行此操作，請為安全群組設定規則，允許相同安全群組成員彼此間的傳入連線。針對啟用 EFA 的執行個體，請確保輸入和輸出連線都允許來自相同安全群組的所有流量。如需詳細資訊，請參閱 *Amazon Virtual Private Cloud 使用者指南*中的[安全群組規則](https://docs.aws.amazon.com/AmazonVPC/latest/UserGuide/VPC_SecurityGroups.html#SecurityGroupRules)。

### 連線至您的 VPC 外部的資源
<a name="train-vpc-nat"></a>

若您將您的 VPC 設為無網際網路存取權限，使用該 VPC 的訓練工作即無法存取 VPC 以外的資源。若您的訓練任務需要存取您的 VPC 之外的資源，請以下列其中一種方式提供存取權限：
+ 如果您的訓練任務需要存取支援介面 VPC 端點的 AWS 服務，請建立端點以連線至該服務。如需支援介面端點的服務之清單，請參閱 [Amazon Virtual Private Cloud 使用者指南](https://docs.aws.amazon.com/AmazonVPC/latest/UserGuide/vpc-endpoints.html) 中的*VPC 端點*。如需有關建立介面 VPC 端點的資訊，請參閱《*Amazon Virtual Private Cloud 使用者指南*》中的[介面 VPC 端點 (AWS PrivateLink)](https://docs.aws.amazon.com/AmazonVPC/latest/UserGuide/vpce-interface.html)。
+ 如果您的訓練任務需要存取不支援介面 VPC 端點 AWS 的服務，或存取 外部的資源 AWS，請建立 NAT 閘道並設定安全群組以允許傳出連線。如需替您的 VPC 設定 NAT 閘道的相關資訊，請參閱 [Amazon Virtual Private Cloud 使用者指南](https://docs.aws.amazon.com/AmazonVPC/latest/UserGuide/VPC_Scenario2.html)中的*案例 2：VPC 搭配公有與私有子網路 (NAT)* 的相關文章。

### 使用 CloudWatch Logs 和指標監控 Amazon SageMaker 訓練任務
<a name="train-vpc-cloudwatch"></a>

Amazon SageMaker AI 提供 Amazon CloudWatch 日誌和指標，以監控訓練任務。CloudWatch 提供 CPU、GPU、記憶體、GPU 記憶體和磁碟指標，以及事件記錄。如需監控 Amazon SageMaker 訓練任務的更多相關資訊，請參閱[Amazon CloudWatch 中的 Amazon SageMaker AI 指標](monitoring-cloudwatch.md)和[SageMaker AI 任務指標](monitoring-cloudwatch.md#cloudwatch-metrics-jobs)。