View a markdown version of this page

最適化生成 AI 推論の推奨事項 - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

最適化生成 AI 推論の推奨事項

Amazon SageMaker AI は推論レコメンデーションをサポートするようになりました。推論レコメンデーションは、手動での最適化とベンチマークを排除して、最適な推論パフォーマンスを実現する機能です。GPU インスタンスタイプ、サービスコンテナ、並列処理戦略、最適化手法の組み合わせを手動でテストする代わりに、モデルとワークロードの要件を指定すると、SageMaker AI は実際のパフォーマンスメトリクスを使用して検証済みでデプロイ可能な設定を返します。

推論レコメンデーションは、モデルのアーキテクチャを分析し、設定領域を絞り込み、スループットの投機的デコードやレイテンシーのカーネルチューニングなどの目標に沿った最適化を適用します。複数のインスタンスタイプを評価することで、ワークロードに最も価格パフォーマンスの高いオプションを選択できます。実際の GPU インフラストラクチャで各設定をベンチマークするため、推論支出を自信を持って適切なサイズでデプロイできます。

仕組み

SageMaker AI Studio または SageMaker AI APIs を使用して推論レコメンデーションを開始することは簡単です。次の手順では、ワークフローについて説明します。

  1. モデルを準備します。Amazon S3 または SageMaker AI Model Registry のモデルアーティファクトをポイントします。推論レコメンデーションは、ベースモデル、カスタムモデル、ファインチューニングモデルなど、SafeTensor の重みを持つ HuggingFace チェックポイント形式をサポートしています。

  2. ワークロードを定義します。入出力トークンの分散や同時実行レベルなど、予想されるトラフィックパターンを記述します。Amazon S3 のインライン仕様または代表的なデータセットを使用できます。

  3. 目標を設定します。コストの最適化、レイテンシーの最小化、スループットの最大化という 1 つのパフォーマンス目標を選択します。比較するインスタンスタイプを最大 3 つ選択します。

  4. 結果を確認します。SageMaker AI は、最初のトークンまでの時間 (TTFT)、トークン間のレイテンシー、P50/P90/P99 でのリクエストレイテンシー、スループット、設定あたりのコストなどの実際のパフォーマンスメトリクスを含む検証済み設定を返します。各設定はデプロイ準備完了です。

  5. デプロイします。選択した設定を SageMaker AI Studio から単一のアクションで、または API を介してプログラムで SageMaker AI 推論エンドポイントにデプロイします。

既存の本番稼働用エンドポイントをベンチマークして、現在のパフォーマンスを検証したり、新しい設定と比較したりすることもできます。

ユースケース

推論レコメンデーションの一般的なユースケースを次に示します。

  • デプロイ前検証。本番デプロイにコミットする前に、新しいモデルを最適化してベンチマークします。スケーリングに投資する前に、モデルの動作を検証します。

  • 更新後の回帰テスト。コンテナの更新、フレームワークのアップグレード、または提供ライブラリのリリース後にパフォーマンスを検証します。本番環境にプッシュする前に、設定がまだ最適であることを確認します。

  • 条件が変更された際の適切なサイズ設定。トラフィックパターンがシフトしたり、新しいインスタンスタイプが利用可能になった場合は、数週間にわたる手動プロセスを再起動するのではなく、推論の推奨事項を数時間で再実行します。

  • モデルの比較。インスタンスタイプ間でさまざまなモデルバリアントのパフォーマンスとコストを比較して、本番デプロイ前に情報に基づいた選択を行います。

  • コスト最適化。既存の本番稼働用エンドポイントをベンチマークして、過剰にプロビジョニングされたインフラストラクチャを特定します。結果を使用して適切なサイズを設定し、定期的な推論支出を削減します。

料金

推論レコメンデーションには追加料金はかかりません。既存の ML 予約 (Flexible Training Plans) は、追加のコンピューティングコストなしで使用することも、自動的にプロビジョニングされるオンデマンドコンピューティングを使用することもできます。

サポート対象のリージョン

推論レコメンデーションは、次の AWS リージョンで利用できます。

  • 米国東部 (バージニア北部)

  • 米国東部 (オハイオ)

  • 米国西部 (オレゴン)

  • アジアパシフィック (シンガポール)

  • アジアパシフィック (東京)

  • 欧州 (フランクフルト)

  • 欧州 (アイルランド)