翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。 # MIG を使用したタスク送信 **Topics** + [Kubernetes YAML の使用](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-kubectl) + [HyperPod CLI の使用](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-cli) + [MIG を使用したモデルデプロイ](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-deployment) + [HyperPod CLI の使用](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-hyperpod-cli) ## Kubernetes YAML の使用 ``` apiVersion: batch/v1 kind: Job metadata: name: mig-job namespace: default spec: template: spec: containers: - name: pytorch image: pytorch/pytorch:latest resources: requests: nvidia.com/mig-1g.5gb: 1 cpu: "100m" memory: "128Mi" limits: nvidia.com/mig-1g.5gb: 1 restartPolicy: Never ``` ## HyperPod CLI の使用 HyperPod CLI を使用して、MIG をサポートする JumpStart モデルをデプロイします。次の例は、GPU パーティショニングの新しい CLI パラメータを示しています。 ``` # Deploy JumpStart model with MIG hyp create hyp-jumpstart-endpoint \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p5.48xlarge \ --accelerator-partition-type mig-2g.10gb \ --accelerator-partition-validation True \ --endpoint-name my-endpoint \ --tls-certificate-output-s3-uri s3://certificate-bucket/ \ --namespace default ``` ## MIG を使用したモデルデプロイ HyperPod Inference では、Studio Classic `kubectl`および HyperPod CLI を介して MIG プロファイルにモデルをデプロイできます。JumpStart モデルをにデプロイするために`kubectl`、CRDs にはモデルを目的の MIG プロファイルにデプロイ`spec.server.acceleratorPartitionType`するためにというフィールドがあります。CRD で選択された MIG プロファイルにモデルをデプロイできるように、検証を実行します。MIG 検証チェックを無効にする場合は、 `spec.server.validations.acceleratorPartitionValidation`をに使用します`False`。 ### JumpStart モデル ``` apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: JumpStartModel metadata: name: deepseek-model namespace: default spec: sageMakerEndpoint: name: deepseek-endpoint model: modelHubName: SageMakerPublicHub modelId: deepseek-llm-r1-distill-qwen-1-5b server: acceleratorPartitionType: mig-7g.40gb instanceType: ml.p4d.24xlarge ``` ### InferenceEndpointConfig を使用して Amazon S3 からモデルをデプロイする InferenceEndpointConfig InferenceEndpointConfig を使用すると、Amazon S3 からカスタムモデルをデプロイできます。モデルを MIG にデプロイするには、 `requests`とで MIG プロファイルについて`spec.worker.resources`言及します`limits`。以下の簡単なデプロイを参照してください。 ``` apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: s3 s3Storage: bucketName: my-model-bucket region: us-east-2 modelLocation: model-path worker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1 ``` ### InferenceEndpointConfig を使用して FSx for Lustre からモデルをデプロイする InferenceEndpointConfig を使用すると、FSx for Lustre からカスタムモデルをデプロイできます。モデルを MIG にデプロイするには、 `requests`とで MIG プロファイルについて`spec.worker.resources`言及します`limits`。以下の簡単なデプロイを参照してください。 ``` apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: fsx fsxStorage: fileSystemId: fs-xxxxx modelLocation: location-on-fsx worker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1 ``` ### Studio Classic UI の使用 #### MIG を使用した JumpStart モデルのデプロイ 1. **Studio Classic** を開き、**JumpStart** に移動します。 1. 目的のモデルを参照または検索する (DeepSeek」、「Llama」など) 1. モデルカードをクリックし、**デプロイ** を選択します。 1. デプロイ設定では、次の操作を行います。 + デプロイターゲットとして **HyperPod** を選択する + ドロップダウンから MIG 対応クラスターを選択する + **[インスタンス設定]** で次の設定を行なってください。 + インスタンスタイプを選択する (例: `ml.p4d.24xlarge`) + 使用可能なオプションから **GPU パーティションタイプ**を選択する + **インスタンス数**と **Auto Scaling** の設定を構成する 1. **デプロイ**を確認してクリックする 1. **「エンドポイント」セクションの「デプロイの進行状況をモニタリングする**」 #### モデル設定オプション **エンドポイント設定:** + **エンドポイント名** - デプロイの一意の識別子 + **バリアント名** - 設定バリアント (デフォルト: AllTraffic) + **インスタンスタイプ** - GPU パーティション (p シリーズ) をサポートする必要があります + **MIG プロファイル** - GPU パーティション + **初期インスタンス数** - デプロイするインスタンスの数 + **自動スケーリング** - トラフィックに基づいて動的スケーリングを有効にします **詳細設定:** + **モデルデータの場所** - カスタムモデルの Amazon S3 パス + **コンテナイメージ** - カスタム推論コンテナ (オプション) + **環境変数** - モデル固有の設定 + **Amazon VPC 設定** - ネットワーク分離設定 #### デプロイされたモデルのモニタリング 1. **Studio Classic** > **デプロイ >** **エンドポイント**に移動する 1. MIG 対応エンドポイントを選択する 1. 次のようなメトリクスを表示します。 + **MIG 使用率** - GPU パーティションあたりの使用量 + **メモリ消費量** - GPU パーティションごと + **推論レイテンシ**ー - リクエスト処理時間 + **スループット** - 1 秒あたりのリクエスト数 1. 自動モニタリング用の **Amazon CloudWatch アラーム**を設定する 1. MIG 使用率に基づいて**自動スケーリングポリシー**を設定する ## HyperPod CLI の使用 ### JumpStart デプロイ HyperPod CLI JumpStart コマンドには、MIG サポート用の 2 つの新しいフィールドが含まれています。 + `--accelerator-partition-type` - MIG 設定を指定します (例: mig-4g.20gb) + `--accelerator-partition-validation` - モデルと MIG プロファイル間の互換性を検証します (デフォルト: true) ``` hyp create hyp-jumpstart-endpoint \ --version 1.1 \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p4d.24xlarge \ --endpoint-name js-test \ --accelerator-partition-type "mig-4g.20gb" \ --accelerator-partition-validation true \ --tls-certificate-output-s3-uri s3://my-bucket/certs/ ``` ### カスタムエンドポイントのデプロイカスタムエンドポイント経由でデプロイ`--resources-limits`するには、既存のフィールド`--resources-requests`とを使用して MIG プロファイル機能を有効にします。 ``` hyp create hyp-custom-endpoint \ --namespace default \ --metadata-name deepseek15b-mig-10-14-v2 \ --endpoint-name deepseek15b-mig-endpoint \ --instance-type ml.p4d.24xlarge \ --model-name deepseek15b-mig \ --model-source-type s3 \ --model-location deep-seek-15b \ --prefetch-enabled true \ --tls-certificate-output-s3-uri s3://sagemaker-bucket \ --image-uri lmcache/vllm-openai:v0.3.7 \ --container-port 8080 \ --model-volume-mount-path /opt/ml/model \ --model-volume-mount-name model-weights \ --s3-bucket-name model-storage-123456789 \ --s3-region us-east-2 \ --invocation-endpoint invocations \ --resources-requests '{"cpu":"5600m","memory":"10Gi","nvidia.com/mig-3g.20gb":"1"}' \ --resources-limits '{"nvidia.com/mig-3g.20gb":"1"}' \ --env '{ "OPTION_ROLLING_BATCH":"vllm", "SERVING_CHUNKED_READ_TIMEOUT":"480", "DJL_OFFLINE":"true", "NUM_SHARD":"1", "SAGEMAKER_PROGRAM":"inference.py", "SAGEMAKER_SUBMIT_DIRECTORY":"/opt/ml/model/code", "MODEL_CACHE_ROOT":"/opt/ml/model", "SAGEMAKER_MODEL_SERVER_WORKERS":"1", "SAGEMAKER_MODEL_SERVER_TIMEOUT":"3600", "OPTION_TRUST_REMOTE_CODE":"true", "OPTION_ENABLE_REASONING":"true", "OPTION_REASONING_PARSER":"deepseek_r1", "SAGEMAKER_CONTAINER_LOG_LEVEL":"20", "SAGEMAKER_ENV":"1" }' ```