翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# モデルパフォーマンスをデバッグして改善する
<a name="train-debug-and-improve-model-performance"></a>

機械学習モデル、深層学習ニューラルネットワーク、トランスフォーマーモデルのトレーニングの本質は、安定したモデルの収束を実現することにあります。そのため、最先端のモデルには数百万、数十億、または数兆ものモデルパラメータがあります。各反復中に膨大な数のモデルパラメータを更新するためのオペレーションの数は、天文学的なものになりがちです。モデル収束の問題を特定するには、最適化プロセス中に計算されたモデルのパラメータ、活性化、勾配にアクセスできることが重要です。

Amazon SageMaker AI は、このような収束の問題を特定し、モデルを可視化するのに役立つ 2 つのデバッグツールを提供します。

**TensorBoard を備えた Amazon SageMaker AI**

SageMaker AI トレーニングプラットフォーム内のオープンソースコミュニティツールとの互換性を高めるために、SageMaker AI は TensorBoard を [SageMaker AI ドメイン](https://docs.aws.amazon.com/sagemaker/latest/dg/sm-domain.html)のアプリケーションとしてホストします。トレーニングジョブを SageMaker AI に持ち込み、引き続き TensorBoard サマリーライターを使用してモデル出力テンソルを収集できます。TensorBoard は [SageMaker AI ドメイン](https://docs.aws.amazon.com/sagemaker/latest/dg/sm-domain.html)に実装されているため、 AWS アカウントの SageMaker AI ドメインでユーザープロファイルを管理するオプションが増え、特定のアクションとリソースへのアクセスを許可することでユーザープロファイルを細かく制御できます。詳細については[Amazon SageMaker AI の TensorBoard](tensorboard-on-sagemaker.md)を参照してください。

**Amazon SageMaker Debugger**

Amazon SageMaker Debugger は、モデル出力テンソルを抽出して Amazon Simple Storage Service に保存するためにコールバックへのフックを登録するツールを提供する SageMaker AI の機能です。オーバーフィット、活性化関数の飽和、勾配の消失など、モデル収束の問題を検出するための[組み込みルール](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-built-in-rules.html)を提供します。Amazon CloudWatch Events と を使用して、検出された問題に対して自動アクションを実行 AWS Lambda するための組み込みルールを設定し、E メールまたはテキスト通知を受信するように Amazon Simple Notification Service を設定することもできます。詳細については[Amazon SageMaker デバッガー](train-debugger.md)を参照してください。

**Topics**
+ [Amazon SageMaker AI の TensorBoard](tensorboard-on-sagemaker.md)
+ [Amazon SageMaker デバッガー](train-debugger.md)
+ [リモートデバッグ AWS Systems Manager のために からトレーニングコンテナにアクセスする](train-remote-debugging.md)
+ [Amazon SageMaker AI のデバッグ機能に関するリリースノート](debugger-release-notes.md)