SageMaker 推論
カスタム Amazon Nova モデルが SageMaker 推論で利用可能になりました。SageMaker の Amazon Nova を使用すると、トレーニングされたカスタム Amazon Nova モデルから予測または推論の取得を開始できます。SageMaker の広範な ML インフラストラクチャとモデルデプロイオプションは、ML 推論のあらゆるニーズを満たすのに役立ちます。SageMaker 推論を使用すると、モデルのデプロイをスケールし、本番環境でモデルをより効果的に管理して、運用上の負担を軽減できます。
SageMaker には、低遅延推論を取得するためのリアルタイムエンドポイント、リクエストのバッチ用の非同期エンドポイントなど、さまざまな推論オプションが用意されています。ユースケースに適した推論オプションを活用することで、効率的なモデルのデプロイと推論を確保できます。SageMaker 推論の詳細については、「推論のためのモデルをデプロイする」を参照してください。
重要
SageMaker 推論では、フルランクのカスタムモデルと LoRA マージモデルのみがサポートされています。マージされていない LoRA モデルとベースモデルの場合は、Amazon Bedrock を使用します。
機能
SageMaker 推論の Amazon Nova モデルでは、以下の機能を使用できます。
モデル機能
-
テキスト生成
デプロイとスケーリング
-
カスタムインスタンス選択によるリアルタイムエンドポイント
-
Auto Scaling – トラフィックパターンに基づいてキャパシティを自動的に調整し、コストと GPU 使用率を最適化します。詳細については、「Amazon SageMaker モデルを自動スケーリングする」を参照してください。
-
リアルタイムトークン生成のためのストリーミング API サポート
モニタリングと最適化
-
モニタリングとアラートのための Amazon CloudWatch 統合
-
VPC 設定によるアベイラビリティーゾーンを考慮したレイテンシー最適化
開発用ツール
-
AWS CLI サポート – 詳細については、「SageMaker の AWS CLI コマンドリファレンス」を参照してください。
-
SDK サポートによるノートブックの統合
サポートされているモデルとインスタンス
SageMaker 推論エンドポイントを作成するときに、CONTEXT_LENGTH と MAX_CONCURRENCY の 2 つの環境変数を設定してデプロイを設定できます。
-
CONTEXT_LENGTH– リクエストあたりのトークンの最大合計長 (入力 + 出力) -
MAX_CONCURRENCY– エンドポイントが処理する同時リクエストの最大数
以下の表に、サポートされている Amazon Nova モデル、インスタンスタイプ、およびサポートされている設定を示します。MAX_CONCURRENCY 値は、各 CONTEXT_LENGTH 設定でサポートされている最大同時実行数を表します。
| モデル | インスタンスタイプ | サポートされる設定 | FP8 量子化が必要 |
|---|---|---|---|
| Amazon Nova Micro | ml.g5.12xlarge |
CONTEXT_LENGTH: 4000、MAX_CONCURRENCY: 12 CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 6 |
いいえ |
| ml.g5.24xlarge | CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 8 | いいえ | |
| ml.g6e.xlarge |
CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 2 |
いいえ | |
| ml.g6e.2xlarge |
CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 2 |
いいえ | |
| ml.g6e.4xlarge |
CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 4 |
いいえ | |
| ml.g6.12xlarge |
CONTEXT_LENGTH: 4000、MAX_CONCURRENCY: 12 CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 6 |
いいえ | |
| ml.g6.24xlarge | CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 8 | いいえ | |
| ml.g6.48xlarge | CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 12 | いいえ | |
| ml.p5.48xlarge |
CONTEXT_LENGTH: 16000、MAX_CONCURRENCY: 128 CONTEXT_LENGTH: 64000、MAX_CONCURRENCY: 32 CONTEXT_LENGTH: 128000、MAX_CONCURRENCY: 8 |
いいえ | |
| Amazon Nova Lite | ml.g6.12xlarge |
CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 2 |
はい - デフォルトで有効 |
| ml.g6.24xlarge |
CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 4 |
はい - デフォルトで有効 | |
| ml.g6.48xlarge |
CONTEXT_LENGTH: 4000、MAX_CONCURRENCY: 16 CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 8 |
いいえ | |
| ml.p5.48xlarge |
CONTEXT_LENGTH: 16000、MAX_CONCURRENCY: 128 CONTEXT_LENGTH: 60000、MAX_CONCURRENCY: 8 |
いいえ | |
| Nova 2 Lite | ml.g6.48xlarge |
CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 8 |
はい - デフォルトで有効 |
| ml.p5.48xlarge |
CONTEXT_LENGTH: 16000、MAX_CONCURRENCY: 128 CONTEXT_LENGTH: 64000、MAX_CONCURRENCY: 32 CONTEXT_LENGTH: 128000、MAX_CONCURRENCY: 8 CONTEXT_LENGTH: 256000、MAX_CONCURRENCY: 2 |
いいえ |
注記
FP8 量子化が必要なインスタンスでは、デフォルトで有効になります。
表示される MAX_CONCURRENCY 値は、各 CONTEXT_LENGTH 設定の上限です。同じ同時実行性でより短いコンテキスト長を使用することもできますが、これらの値を超えると、SageMaker エンドポイントの作成が失敗します。
例えば、Amazon Nova Micro を ml.g5.12xlarge で使用する場合:
-
CONTEXT_LENGTH=2000、MAX_CONCURRENCY=12→ 有効 -
CONTEXT_LENGTH=8000、MAX_CONCURRENCY=12→ 拒否 (コンテキスト長 8000 の場合、同時実行制限は 6 です) -
CONTEXT_LENGTH=8000、MAX_CONCURRENCY=4→ 有効 -
CONTEXT_LENGTH=8000、MAX_CONCURRENCY=6→ 有効 -
CONTEXT_LENGTH=10000→ 拒否 (このインスタンスの最大コンテキスト長は 8000 であるため)
推論コンポーネント
SageMaker 推論コンポーネントを使用して Amazon Nova モデルをデプロイできます。これにより、単一のエンドポイントで複数のモデルをホストし、リソース使用率を最適化できます。推論コンポーネントを使用すると、各モデルに必要なコンピューティングリソース (CPU、メモリ、GPU) を指定できるため、共有インフラストラクチャでの効率的なマルチモデルホスティングが可能になります。
次の表に、推論コンポーネントを使用する場合の各 Amazon Nova モデルの最小コンピューティングリソース要件を示します。
| モデル | 最小 CPU コア | 最小メモリ (MB) | 最小 GPU 数 |
|---|---|---|---|
| Amazon Nova Micro | 15 | 25000 | 4 |
| Amazon Nova Lite | 20 | 35000 | 4 |
| Nova 2 Lite | 20 | 100000 | 4 |
注記
ComputeResourceRequirements 値は、デプロイするモデルの上記の表に記載されている最小要件を満たすか、超えている必要があります。最小値を下回る値を使用すると、推論コンポーネントの作成が失敗します。
リソース要件の合計がインスタンスの容量を超えない限り、複数の推論コンポーネントを同じエンドポイントにデプロイできます。
単一のエンドポイントでホストできる推論コンポーネントの数は、インスタンスタイプの使用可能なリソースと各モデルの最小要件によって異なります。例えば、ml.p5.48xlarge (8 GPU、192 vCPU、約 1 TB のメモリ) 上では:
-
1 Amazon Nova Micro 推論コンポーネント (4 GPU、15 CPU コア、25000 MB) → 有効
-
2 Amazon Nova Micro 推論コンポーネント (合計 8 GPU、30 CPU コア、50,000 MB) → 有効 (インスタンス容量内に適合)
-
1 Nova 2 Lite 推論コンポーネント (4 GPU、20 CPU コア、100,000 MB) → 有効
-
2 Nova 2 Lite 推論コンポーネント (合計 8 GPU、40 CPU コア、200,000 MB) → 有効
-
3 Amazon Nova Micro 推論コンポーネント (合計 12 GPU) → 拒否 (使用可能な 8 GPU を超過)
サポート対象の AWS リージョン
以下の表に、Amazon Nova モデルが SageMaker 推論で使用できる AWS リージョンを示します。
| リージョン名 | リージョンコード | 可用性 |
|---|---|---|
| 米国東部 (バージニア北部) | us-east-1 | 使用可能 |
| 米国西部 (オレゴン) | us-west-2 | 使用可能 |
サポートされているコンテナイメージ
以下の表に、SageMaker 推論の Amazon Nova モデルのコンテナイメージ URI をリージョン別に一覧表示します。SM-Inference-latest タグは現在 v1.4 を指しています。
| リージョン | コンテナイメージ URI |
|---|---|
| us-east-1 | 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest |
| us-west-2 | 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest |
ベストプラクティス
SageMaker でのモデルのデプロイと管理に関するベストプラクティスについては、「SageMaker のベストプラクティス」を参照してください。
サポート
SageMaker 推論における Amazon Nova モデルの問題とサポートについては、コンソールまたは AWS アカウントマネージャーを通じて AWS サポートにお問い合わせください。