

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# MIG を使用したタスク送信
<a name="sagemaker-hyperpod-eks-gpu-partitioning-task-submission"></a>

**Topics**
+ [Kubernetes YAML の使用](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-kubectl)
+ [HyperPod CLI の使用](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-cli)
+ [MIG を使用したモデルデプロイ](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-deployment)
+ [HyperPod CLI の使用](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-hyperpod-cli)

## Kubernetes YAML の使用
<a name="sagemaker-hyperpod-eks-gpu-partitioning-task-submission-kubectl"></a>

```
apiVersion: batch/v1
kind: Job
metadata:
  name: mig-job
  namespace: default
spec:
  template:
    spec:
      containers:
      - name: pytorch
        image: pytorch/pytorch:latest
        resources:
          requests:
            nvidia.com/mig-1g.5gb: 1
            cpu: "100m"
            memory: "128Mi"
          limits:
            nvidia.com/mig-1g.5gb: 1
      restartPolicy: Never
```

## HyperPod CLI の使用
<a name="sagemaker-hyperpod-eks-gpu-partitioning-task-submission-cli"></a>

HyperPod CLI を使用して、MIG をサポートする JumpStart モデルをデプロイします。次の例は、GPU パーティショニングの新しい CLI パラメータを示しています。

```
# Deploy JumpStart model with MIG
hyp create hyp-jumpstart-endpoint \
  --model-id deepseek-llm-r1-distill-qwen-1-5b \
  --instance-type ml.p5.48xlarge \
  --accelerator-partition-type mig-2g.10gb \
  --accelerator-partition-validation True \
  --endpoint-name my-endpoint \
  --tls-certificate-output-s3-uri s3://certificate-bucket/ \
  --namespace default
```

## MIG を使用したモデルデプロイ
<a name="sagemaker-hyperpod-eks-gpu-partitioning-task-submission-deployment"></a>

HyperPod Inference では、Studio Classic `kubectl`および HyperPod CLI を介して MIG プロファイルにモデルをデプロイできます。JumpStart モデルを にデプロイするために`kubectl`、CRDs にはモデルを目的の MIG プロファイルにデプロイ`spec.server.acceleratorPartitionType`するために というフィールドがあります。CRD で選択された MIG プロファイルにモデルをデプロイできるように、検証を実行します。MIG 検証チェックを無効にする場合は、 `spec.server.validations.acceleratorPartitionValidation`を に使用します`False`。

### JumpStart モデル
<a name="sagemaker-hyperpod-eks-gpu-partitioning-task-submission-jumpstart"></a>

```
apiVersion: inference.sagemaker.aws.amazon.com/v1
kind: JumpStartModel
metadata:
  name: deepseek-model
  namespace: default
spec:
  sageMakerEndpoint:
    name: deepseek-endpoint
  model:
    modelHubName: SageMakerPublicHub
    modelId: deepseek-llm-r1-distill-qwen-1-5b
  server:
    acceleratorPartitionType: mig-7g.40gb
    instanceType: ml.p4d.24xlarge
```

### InferenceEndpointConfig を使用して Amazon S3 からモデルをデプロイする InferenceEndpointConfig
<a name="sagemaker-hyperpod-eks-gpu-partitioning-task-submission-s3"></a>

InferenceEndpointConfig を使用すると、Amazon S3 からカスタムモデルをデプロイできます。モデルを MIG にデプロイするには、 `requests`と で MIG プロファイルについて`spec.worker.resources`言及します`limits`。以下の簡単なデプロイを参照してください。

```
apiVersion: inference.sagemaker.aws.amazon.com/v1
kind: InferenceEndpointConfig
metadata:
  name: custom-model
  namespace: default
spec:
  replicas: 1
  modelName: my-model
  endpointName: my-endpoint
  instanceType: ml.p4d.24xlarge
  modelSourceConfig:
    modelSourceType: s3
    s3Storage:
      bucketName: my-model-bucket
      region: us-east-2
    modelLocation: model-path
  worker:
    resources:
      requests:
        nvidia.com/mig-3g.20gb: 1
        cpu: "5600m"
        memory: "10Gi"
      limits:
        nvidia.com/mig-3g.20gb: 1
```

### InferenceEndpointConfig を使用して FSx for Lustre からモデルをデプロイする
<a name="sagemaker-hyperpod-eks-gpu-partitioning-task-submission-fsx"></a>

InferenceEndpointConfig を使用すると、FSx for Lustre からカスタムモデルをデプロイできます。モデルを MIG にデプロイするには、 `requests`と で MIG プロファイルについて`spec.worker.resources`言及します`limits`。以下の簡単なデプロイを参照してください。

```
apiVersion: inference.sagemaker.aws.amazon.com/v1
kind: InferenceEndpointConfig
metadata:
  name: custom-model
  namespace: default
spec:
  replicas: 1
  modelName: my-model
  endpointName: my-endpoint
  instanceType: ml.p4d.24xlarge
  modelSourceConfig:
    modelSourceType: fsx
    fsxStorage:
      fileSystemId: fs-xxxxx
    modelLocation: location-on-fsx
  worker:
    resources:
      requests:
        nvidia.com/mig-3g.20gb: 1
        cpu: "5600m"
        memory: "10Gi"
      limits:
        nvidia.com/mig-3g.20gb: 1
```

### Studio Classic UI の使用
<a name="sagemaker-hyperpod-eks-gpu-partitioning-task-submission-studio"></a>

#### MIG を使用した JumpStart モデルのデプロイ
<a name="sagemaker-hyperpod-eks-gpu-partitioning-task-submission-studio-deploy"></a>

1. **Studio Classic** を開き、**JumpStart** に移動します。

1. 目的のモデルを参照または検索する (DeepSeek」、「Llama」など)

1. モデルカードをクリックし、**デプロイ** を選択します。

1. デプロイ設定では、次の操作を行います。
   + デプロイターゲットとして **HyperPod** を選択する
   + ドロップダウンから MIG 対応クラスターを選択する
   + **[インスタンス設定]** で次の設定を行なってください。
     + インスタンスタイプを選択する (例: `ml.p4d.24xlarge`)
     + 使用可能なオプションから **GPU パーティションタイプ**を選択する
     + **インスタンス数**と **Auto Scaling** の設定を構成する

1. **デプロイ**を確認してクリックする

1. **「エンドポイント」セクションの「デプロイの進行状況をモニタリングする**」

#### モデル設定オプション
<a name="sagemaker-hyperpod-eks-gpu-partitioning-task-submission-studio-config"></a>

**エンドポイント設定:**
+ **エンドポイント名** - デプロイの一意の識別子
+ **バリアント名** - 設定バリアント (デフォルト: AllTraffic)
+ **インスタンスタイプ** - GPU パーティション (p シリーズ) をサポートする必要があります
+ **MIG プロファイル** - GPU パーティション
+ **初期インスタンス数** - デプロイするインスタンスの数
+ **自動スケーリング** - トラフィックに基づいて動的スケーリングを有効にします

**詳細設定:**
+ **モデルデータの場所** - カスタムモデルの Amazon S3 パス
+ **コンテナイメージ** - カスタム推論コンテナ (オプション)
+ **環境変数** - モデル固有の設定
+ **Amazon VPC 設定** - ネットワーク分離設定

#### デプロイされたモデルのモニタリング
<a name="sagemaker-hyperpod-eks-gpu-partitioning-task-submission-studio-monitor"></a>

1. **Studio Classic** > **デプロイ >** **エンドポイント**に移動する

1. MIG 対応エンドポイントを選択する

1. 次のようなメトリクスを表示します。
   + **MIG 使用率** - GPU パーティションあたりの使用量
   + **メモリ消費量** - GPU パーティションごと
   + **推論レイテンシ**ー - リクエスト処理時間
   + **スループット** - 1 秒あたりのリクエスト数

1. 自動モニタリング用の **Amazon CloudWatch アラーム**を設定する

1. MIG 使用率に基づいて**自動スケーリングポリシー**を設定する

## HyperPod CLI の使用
<a name="sagemaker-hyperpod-eks-gpu-partitioning-task-submission-hyperpod-cli"></a>

### JumpStart デプロイ
<a name="sagemaker-hyperpod-eks-gpu-partitioning-task-submission-hyperpod-cli-jumpstart"></a>

HyperPod CLI JumpStart コマンドには、MIG サポート用の 2 つの新しいフィールドが含まれています。
+ `--accelerator-partition-type` - MIG 設定を指定します (例: mig-4g.20gb)
+ `--accelerator-partition-validation` - モデルと MIG プロファイル間の互換性を検証します (デフォルト: true)

```
hyp create hyp-jumpstart-endpoint \
  --version 1.1 \
  --model-id deepseek-llm-r1-distill-qwen-1-5b \
  --instance-type ml.p4d.24xlarge \
  --endpoint-name js-test \
  --accelerator-partition-type "mig-4g.20gb" \
  --accelerator-partition-validation true \
  --tls-certificate-output-s3-uri s3://my-bucket/certs/
```

### カスタムエンドポイントのデプロイ
<a name="sagemaker-hyperpod-eks-gpu-partitioning-task-submission-hyperpod-cli-custom"></a>

カスタムエンドポイント経由でデプロイ`--resources-limits`するには、既存のフィールド`--resources-requests`と を使用して MIG プロファイル機能を有効にします。

```
hyp create hyp-custom-endpoint \
  --namespace default \
  --metadata-name deepseek15b-mig-10-14-v2 \
  --endpoint-name deepseek15b-mig-endpoint \
  --instance-type ml.p4d.24xlarge \
  --model-name deepseek15b-mig \
  --model-source-type s3 \
  --model-location deep-seek-15b \
  --prefetch-enabled true \
  --tls-certificate-output-s3-uri s3://sagemaker-bucket \
  --image-uri lmcache/vllm-openai:v0.3.7 \
  --container-port 8080 \
  --model-volume-mount-path /opt/ml/model \
  --model-volume-mount-name model-weights \
  --s3-bucket-name model-storage-123456789 \
  --s3-region us-east-2 \
  --invocation-endpoint invocations \
  --resources-requests '{"cpu":"5600m","memory":"10Gi","nvidia.com/mig-3g.20gb":"1"}' \
  --resources-limits '{"nvidia.com/mig-3g.20gb":"1"}' \
  --env '{
    "OPTION_ROLLING_BATCH":"vllm",
    "SERVING_CHUNKED_READ_TIMEOUT":"480",
    "DJL_OFFLINE":"true",
    "NUM_SHARD":"1",
    "SAGEMAKER_PROGRAM":"inference.py",
    "SAGEMAKER_SUBMIT_DIRECTORY":"/opt/ml/model/code",
    "MODEL_CACHE_ROOT":"/opt/ml/model",
    "SAGEMAKER_MODEL_SERVER_WORKERS":"1",
    "SAGEMAKER_MODEL_SERVER_TIMEOUT":"3600",
    "OPTION_TRUST_REMOTE_CODE":"true",
    "OPTION_ENABLE_REASONING":"true",
    "OPTION_REASONING_PARSER":"deepseek_r1",
    "SAGEMAKER_CONTAINER_LOG_LEVEL":"20",
    "SAGEMAKER_ENV":"1"
  }'
```