Amazon SageMaker HyperPod Inference リリースノート

このトピックでは、Amazon SageMaker HyperPod Inference の更新、修正、新機能を追跡するリリースノートについて説明します。SageMaker HyperPod Inference を使用すると、エンタープライズグレードの信頼性で HyperPod クラスターに機械学習モデルをデプロイおよびスケーリングできます。Amazon SageMaker HyperPod プラットフォームの一般的なリリース、更新、改善については、「」を参照してくださいAmazon SageMaker HyperPod リリースノート。

SageMaker HyperPod 推論機能とデプロイオプションの詳細については、「」を参照してくださいAmazon SageMaker HyperPod にモデルをデプロイする。

SageMaker HyperPod Inference リリースノート: v3.1.2

リリース日: 2026 年 5 月 6 日

[概要]

Inference Operator v3.1.2 では、エンドポイントトラフィックのログ記録用の推論データキャプチャ、直接モデルデプロイ用の HuggingFace Hub 統合、カスタムドメイン用の Route 53 DNS 管理、コールドスタートレイテンシーを低減するためのローカル NVMe モデルデプロイ、および IRSA サポート付きのカスタムサービスアカウントが導入されています。

新機能

推論データキャプチャ – SageMaker AI エンドポイント、ロードバランサー (ALB アクセスログ）、モデルポッドの 3 つのキャプチャポイントで入出力を記録します。CRD dataCaptureでを介して任意の組み合わせを有効にします。「HyperPod での推論のためのデータキャプチャ」を参照してください。
HuggingFace モデルソース – S3 または FSx に事前ステージングすることなく、HuggingFace Hub から直接モデルをデプロイします。を介したゲートモデルtokenSecretRef、を介したリビジョンピン留めcommitSHA、トークン分離をサポートします。vLLM、TGI、SGLang ランタイムと互換性があります。「kubectl を使用して Amazon S3、Amazon FSx、または Hugging Face Hub からモデルをデプロイする」を参照してください。
Route 53 DNS 管理 – を介してカスタムドメインの DNS レコードを自動的に作成および管理しますdnsConfig。「HyperPod Inference のカスタム証明書と Route 53 DNS 管理」を参照してください。
ローカル NVMe モデルのデプロイ — を介してノードローカル NVMe ストレージからモデルの重みをロードmodelSourceType: kubernetesVolumeし、コールドスタートレイテンシーを減らします。S3 へのフォールバックをサポートします。「kubectl を使用してローカル NVMe ストレージからモデルをデプロイする」を参照してください。
カスタムサービスアカウント – IRSA をサポートするカスタム ServiceAccounts を経由で推論ポッドに割り当てますspec.kubernetes.serviceAccountName。

バグ修正

タグの伝播 — のユーザー定義タグが SageMakerEndpointRegistration CRD およびダウンストリームの SageMaker AI リソースに正しく伝達されるInferenceEndpointConfigようになりました。以前は、エンドポイント登録の作成時または更新時にタグが渡されませんでした。
Auto Scaling Replica Preservation – InferenceEndpointConfigまたは JumpStartModel CR を更新すると、レプリカ数が仕様値にリセットされ、現在の HPA/KEDA マネージドレプリカ数が上書きされる問題を修正しました。演算子は、CR 更新中にアクティブなレプリカ数を保持するようになりました。
自動スケーリング CRD 検証 – 末尾のパスセグメントが誤って必要になり、KEDA が AMP ワークスペース URL に追加されると /api/v1/query 404 エラーが発生するprometheusTrigger.serverAddress検証正規表現を修正しました。
証明書のローテーション — オペレータポッドの再起動後に ALB に伝達されないカスタム証明書のローテーションを修正しました。

v3.1.2 へのアップグレード

Helm のアップグレード:

Helm 経由で Inference Operator が既にインストールされている場合は、次のコマンドを使用してアップグレードします。


helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.1
    
# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'

EKS アドオンのアップグレード:

EKS アドオンとして推論演算子をインストールした場合は、最新バージョンにアップグレードします。

まず、 hyperpodClusterArnが既にアドオン設定にあるかどうかを確認します。


CLUSTER=EKS_CLUSTER_NAME
REGION=REGION

aws eks describe-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --region $REGION \
  --query 'addon.configurationValues' --output text | jq .

出力に hyperpodClusterArnが存在する場合は、次のコマンドを実行してアップグレードします。


aws eks update-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --addon-version v1.2.0-eksbuild.1 \
  --resolve-conflicts OVERWRITE \
  --region $REGION

hyperpodClusterArn が存在しない場合は、現在の設定を取得し、追加してアップグレードします。


HP_ARN=HYPERPOD_CLUSTER_ARN

CURRENT_CONFIG=$(aws eks describe-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --region $REGION \
  --query 'addon.configurationValues' --output text)

# Add hyperpodClusterArn to the configuration
NEW_CONFIG=$(echo "$CURRENT_CONFIG" | jq --arg arn "$HP_ARN" \
  '. + {hyperpodClusterArn: $arn}')

aws eks update-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --addon-version v1.2.0-eksbuild.1 \
  --configuration-values "$NEW_CONFIG" \
  --resolve-conflicts OVERWRITE \
  --region $REGION

モデルをデプロイする前に、アドオンがアクティブになるまで待ちます。

SageMaker HyperPod Inference リリースノート: v3.1

リリース日: 2026 年 4 月 3 日

[概要]

Inference Operator v3.1 では、カスタム Kubernetes ポッド設定、カスタム証明書のサポート、ポッドごとのリクエスト制限が導入されています。

主な機能

カスタム Kubernetes ポッド設定 – 推論ポッド設定をカスタマイズできる新しいkubernetesフィールドを InferenceEndpointConfig CRD に追加しました。
- カスタム init コンテナ – 推論サーバーが起動する前にユーザー定義の init コンテナを実行します (キャッシュウォームアップ、GDS セットアップなど）。Init コンテナは、オペレータのプリフェッチコンテナの後に挿入されます。
- カスタムボリューム – ポッド仕様に追加のボリューム (emptyDir、hostPath、 configMapなど) を追加します。これは、経由で init コンテナで参照できますvolumeMounts。
- カスタムスケジューラ名 – ポッド配置用のカスタム Kubernetes スケジューラを指定します。
カスタム証明書 – を介して設定された、オペレータが生成した自己署名証明書の代わりに、推論エンドポイントに独自の ACM 証明書を使用しますcustomCertificateConfig。パブリックに信頼された ACM 証明書、 AWS プライベート CA 証明書、および外部 CAs からインポートされた証明書をサポートします。オペレーターは証明書の状態をモニタリングし、自動更新検出をサポートします。
リクエストの制限 – 以下の設定可能なフィールドを使用してWorker、の新しいRequestLimits設定を介してポッドあたりのリクエスト処理を制御します。
- maxConcurrentRequests – ポッドあたりの同時処理中のリクエストの最大数。
- maxQueueSize – 拒否する前に同時実行数の制限に達したときにキューに入れるリクエスト。
- overflowStatusCode – 制限を超えたときに返される HTTP ステータスコード (デフォルト: 429)。

前提条件やアップグレード手順などの詳細については、以下のセクションを参照してください。

前提条件

カスタム証明書機能を使用するには、推論オペレーターの実行ロールに次のアクセス許可を追加します。


{  
    "Sid": "ACMCertificateAccess",  
    "Effect": "Allow",  
    "Action": [  
        "acm:DescribeCertificate",  
        "acm:GetCertificate"  
    ],  
    "Resource": "arn:aws:acm:*:*:certificate/*"  
}

v3.1 へのアップグレード

Helm 経由で Inference Operator が既にインストールされている場合は、次のコマンドを使用してアップグレードします。


helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.1
    
# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'

SageMaker HyperPod Inference リリースノート: v3.0

リリース日: 2026 年 2 月 23 日

[概要]

Inference Operator 3.0 では、ライフサイクル管理を簡素化するための EKS アドオン統合、詳細なスケジューリング制御のための Node Affinity サポート、リソースタグ付けの改善が導入されています。既存の Helm ベースのインストールは、提供された移行スクリプトを使用して EKS アドオンに移行できます。アップグレードする前に、Inference Operator 実行ロールを新しいタグ付けアクセス許可で更新します。

主な機能

EKS アドオン統合 — シンプルなインストールエクスペリエンスによるエンタープライズグレードのライフサイクル管理
ノードアフィニティ – スポットインスタンスの除外、アベイラビリティーゾーンの優先、カスタムラベルによるノードのターゲット設定のためのきめ細かなスケジューリング制御

前提条件、アップグレード手順、移行ガイダンスなどの詳細については、以下のセクションを参照してください。

前提条件

Helm バージョンを 3.0 にアップグレードする前に、推論演算子の実行ロールにタグ付けアクセス許可を追加する必要があります。リソースのタグ付けとセキュリティの向上の一環として、推論オペレーターは ALB、S3、および ACM リソースにタグ付けするようになりました。この機能強化には、推論演算子の実行ロールに追加のアクセス許可が必要です。推論演算子の実行ロールに次のアクセス許可を追加します。


{  
    "Sid": "CertificateTagginPermission",  
    "Effect": "Allow",  
    "Action": [  
        "acm:AddTagsToCertificate"  
    ],  
    "Resource": "arn:aws:acm:*:*:certificate/*",  
},  
{  
    "Sid": "S3PutObjectTaggingAccess",  
    "Effect": "Allow",  
    "Action": [  
        "s3:PutObjectTagging"  
    ],  
    "Resource": [  
        "arn:aws:s3:::<TLS_BUCKET>/*" # Replace * with your TLS bucket  
    ]  
}

v3.0 へのアップグレード

Helm 経由で Inference Operator が既にインストールされている場合は、次のコマンドを使用してアップグレードします。


helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.0
    
# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'

Helm から EKS へのアドオン移行

3.0 バージョンより前に Helm 経由で推論演算子がインストールされている場合は、EKS アドオンに移行して、推論演算子用にリリースされる新機能をタイムリーに更新することをお勧めします。このスクリプトは、SageMaker HyperPod Inference Operator を Helm ベースのインストールから EKS アドオンインストールに移行します。

概要: スクリプトはクラスター名とリージョンをパラメータとして受け取り、既存の Helm インストール設定を取得し、EKS アドオンデプロイに移行します。これにより、推論オペレーター、ALB コントローラー、KEDA オペレーターの新しい IAM ロールが作成されます。

Inference Operator を移行する前に、スクリプトは必要な依存関係 (S3 CSI ドライバー、FSx CSI ドライバー、cert-manager、および metrics-server) が存在することを確認します。存在しない場合は、アドオンとしてデプロイされます。

Inference Operator アドオンの移行が完了すると、スクリプトは S3、FSx、およびその他の依存関係 (ALB、KEDA、cert-manager、metrics-server) も移行します。を使用して--skip-dependencies-migration、S3 CSI ドライバー、FSx CSI ドライバー、cert-manager、および metrics-server のこのステップをスキップします。ALB と KEDA は、推論演算子と同じ名前空間のアドオンの一部としてインストールされ、推論演算子アドオンの一部として移行されることに注意してください。

重要

移行中は、移行が完了するまでデプロイされないため、新しいモデルをデプロイしないでください。Inference Operator アドオンが ACTIVE 状態になると、新しいモデルをデプロイできます。移行には通常 15～20 分かかり、現在デプロイされているモデルが少数しかない場合は 30 分以内に完了します。

移行の前提条件:

AWS CLI 適切な認証情報で設定されている
EKS クラスターへのアクセスで設定された kubectl
Helm のインストール
hyperpod-inference-operator の既存の Helm インストール

注記

すでに実行されているエンドポイントは、移行プロセス中に中断されません。既存のエンドポイントは、移行中も中断することなくトラフィックを引き続き処理します。

移行スクリプトの取得:


git clone https://github.com/aws/sagemaker-hyperpod-cli.git
cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator/migration

使用:


./helm_to_addon.sh [OPTIONS] \
  --cluster-name <cluster-name> (Required) \
  --region <region> (Required) \
  --helm-namespace kube-system (Optional) \
  --auto-approve (Optional) \
  --skip-dependencies-migration (Optional) \
  --s3-mountpoint-role-arn <s3-mountpoint-role-arn> (Optional) \
  --fsx-role-arn <fsx-role-arn> (Optional)

オプション:

--cluster-name NAME – EKS クラスター名 (必須)
--region REGION – AWS リージョン (必須)
--helm-namespace NAMESPACE – Helm チャートがインストールされている名前空間 (デフォルト: kube-system) (オプション)
--s3-mountpoint-role-arn ARN – S3 Mountpoint CSI ドライバー IAM ロール ARN (オプション)
--fsx-role-arn ARN – FSx CSI ドライバー IAM ロール ARN (オプション)
--auto-approve – このフラグが有効になっている場合は確認プロンプトをスキップします。 step-by-stepと auto-approve は相互に排他的です。 --auto-approve が指定されている場合は、指定しないでください --step-by-step (オプション)
--step-by-step – 主要な各ステップの後、レビューのために一時停止します。--auto-approve が既に追加されている場合、これは言及しないでください (オプション)
--skip-dependencies-migration – Helm にインストールされた依存関係のアドオンへの移行をスキップします。依存関係が推論演算子 Helm チャートを介してインストールされなかった場合、または個別に管理する場合は (オプション）。

例:

基本的な移行 (依存関係の移行):


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1

プロンプトなしでの自動承認:


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --auto-approve

FSx、S3 マウントポイント、証明書マネージャー、メトリクスサーバーの依存関係移行をスキップします。


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --skip-dependencies-migration

既存の S3 および FSx IAM ロールを指定します。


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --s3-mountpoint-role-arn arn:aws:iam::123456789012:role/s3-csi-role \
  --fsx-role-arn arn:aws:iam::123456789012:role/fsx-csi-role

バックアップの場所:

バックアップはに保存されます。 /tmp/hyperpod-migration-backup-<timestamp>/

バックアップにより、安全な移行と復旧が可能になります。

失敗時のロールバック – 移行が失敗した場合、スクリプトはバックアップされた設定を使用してクラスターを移行前の状態に自動的に復元できます。
監査証跡 – トラブルシューティングとコンプライアンスのために、移行前に存在していたものの完全な記録を提供します。
設定リファレンス – 移行前と移行後の設定を比較できます
手動復旧 – 必要に応じて、バックアップディレクトリから特定のリソースを手動で検査および復元できます。

ロールバック:

移行が失敗した場合、スクリプトはロールバックを開始して前の状態を復元する前に、ユーザーの確認を求めます。

SageMaker HyperPod Inference リリースノート: v2.3

最新情報

このリリースでは、デプロイ設定の柔軟性を高めるために、カスタムリソース定義 (CRDs) に新しいオプションフィールドが導入されました。

特徴

マルチインスタンスタイプ
- デプロイの信頼性の向上 – 優先オプションに容量がない場合、代替インスタンスタイプへの自動フェイルオーバーでマルチインスタンスタイプの設定をサポートします。
- インテリジェントなリソーススケジューリング – Kubernetes ノードアフィニティを使用してインスタンスタイプに優先順位を付け、優先リソースが利用できない場合でもデプロイを保証します
- コストとパフォーマンスの最適化 – インスタンスタイプの設定を維持し、クラスターの変動中の容量関連の障害を防止します。

バグ修正

の仕様invocationEndpointのフィールドへの変更が有効InferenceEndpointConfigになりました。

invocationEndpoint フィールドがパッチ適用または更新されている場合、、Load BalancerIngress、、SageMakerEndpointRegistrationSageMaker エンドポイントなどの依存リソースは正規化で更新されます。
invocationEndpoint 指定されたの値は、InferenceEndpointConfig仕様自体にそのまま保存されます。この値を使用してLoad Balancerを作成し、有効になっている場合は SageMaker エンドポイントを作成すると、スラッシュが先頭に 1 つ付くように正規化されます。
- v1/chat/completions は、、AWS Load BalancerIngress、および SageMaker エンドポイント/v1/chat/completionsに対してに正規化されます。の場合SageMakerEndpointRegistration、仕様にはとして表示されますv1/chat/completions。
- ///invoke は、、AWS Load BalancerIngress、および SageMaker エンドポイント/invokeに対してに正規化されます。の場合SageMakerEndpointRegistration、仕様にはとして表示されますinvoke。

Helm のインストール:

フォロー: https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart

推論演算子のインストールのみに重点を置いている場合は、ステップ 1、つまりの後Set Up Your Helm Environment、を実行しますcd HyperPodHelmChart/charts/inference-operator。推論演算子グラフディレクトリ自体にあるため、コマンドでが表示される場所であればhelm_chart/HyperPodHelmChart、を . に置き換えます。

既にインストールされている場合は、オペレータを v2.3 にアップグレードします。


cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

helm upgrade hyperpod-inference-operator . \
  -n kube-system \
  -f current-values.yaml \
  --set image.tag=v2.3

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Hugging Face Hub モデルのデプロイの失敗

Studio での HyperPod