

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# 高度なモデル構築設定
<a name="canvas-advanced-settings"></a>

Amazon SageMaker Canvas は、モデルの構築時に設定できるさまざまな高度な設定をサポートしています。次のページでは、すべての詳細設定のほか、オプションと設定に関する追加情報を示します。

**注記**  
現在、次の詳細設定は、数値、カテゴリ、時系列予測モデルタイプでのみサポートされています。

## 数値およびカテゴリ予測モデルの詳細設定
<a name="canvas-advanced-settings-predictive"></a>

Canvas は、数値予測モデルタイプとカテゴリ予測モデルタイプに対して次の高度な設定をサポートしています。

### 目標メトリクス
<a name="canvas-advanced-settings-predictive-obj-metric"></a>

目標メトリクスは、モデルの構築中に Canvas で最適化するメトリクスです。メトリクスを選択しない場合、Canvas はデフォルトでメトリクスを選択します。利用可能なメトリクスの詳細については、「[メトリクスのリファレンス](canvas-metrics.md)」を参照してください。

### トレーニング方法
<a name="canvas-advanced-settings-predictive-method"></a>

Canvas は、データセットのサイズに基づいてトレーニング方法を自動的に選択することも、手動で選択することもできます。以下のトレーニング方法から選択できます。
+ **アンサンブル** – SageMaker AI は AutoGluon ライブラリを活用していくつかのベースモデルをトレーニングします。データセットに最適な組み合わせを見つけるために、アンサンブルモードではモデルとメタパラメータの設定を変えて 5 ～ 10 回の試行を実行します。次に、スタッキングアンサンブル方法を使用してこれらのモデルを組み合わせて、最適な予測モデルを作成します。表形式データのアンサンブルモードでサポートされているアルゴリズムのリストについては、次の「[アルゴリズム](#canvas-advanced-settings-predictive-algos)」のセクションを参照してください。
+ **ハイパーパラメータ最適化 (HPO)** – SageMaker AI は、データセットでトレーニングジョブを実行しながら、ベイズ最適化またはマルチフィデリティ最適化を使用してハイパーパラメータを調整することにより、モデルの最適なバージョンを模索します。HPO モードは、データセットに最も関連するアルゴリズムを選択し、モデルのチューニングに最適な範囲のハイパーパラメータを選択します。モデルを調整するために、HPO モードでは最大 100 回の試行 (デフォルト) を実行して、選択した範囲内で最適なハイパーパラメータ設定を見つけます。データセットのサイズが 100 MB 未満の場合、SageMaker AI はベイズ最適化を使用します。データセットが 100 MB より大きい場合、SageMaker AI はマルチフィデリティ最適化を選択します。

  表形式データの HPO モードによってサポートされているアルゴリズムのリストについては、次の「[アルゴリズム](#canvas-advanced-settings-predictive-algos)」のセクションを参照してください。
+ **自動** – SageMaker AI は、データセットのサイズに基づいてアンサンブルモードまたは HPO モードのどちらかを自動的に選択します。データセットのサイズが 100 MB 未満の場合、SageMaker AI は HPO モードを使用します。それ以外の場合は、アンサンブルモードを選択します。

### アルゴリズム
<a name="canvas-advanced-settings-predictive-algos"></a>

**アンサンブルモード**では、Canvas は機械学習アルゴリズムをサポートしています。
+ [LightGBM](https://docs.aws.amazon.com/sagemaker/latest/dg/lightgbm.html) – 勾配ブースティングを備えたツリーベースのアルゴリズムを使用する最適化されたフレームワーク。このアルゴリズムは、深さではなく幅が大きくなるツリーを使用しており、速度に関して高度に最適化されています。
+ [CatBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/catboost.html) – 勾配ブースティングを備えたツリーベースのアルゴリズムを使用する最適化されたフレームワーク。カテゴリ変数の処理に最適化されています。
+ [XGBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost.html) – ツリーベースのアルゴリズムと幅ではなく深さが増す勾配ブーストを使用するフレームワーク。
+ [ランダムフォレスト](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html) – データのランダムなサブサンプルに対して複数のデシジョンツリーを使用し、置換を行うツリーベースのアルゴリズム。ツリーは各レベルで最適なノードに分割されます。各ツリーの判断は、過剰適合を防ぎ、予測を改善するためにまとめて平均化されます。
+ [エクストラツリー](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.ExtraTreesClassifier.html#sklearn.ensemble.ExtraTreesClassifier) — データセット全体で複数のデシジョンツリーを使用するツリーベースのアルゴリズム。ツリーは各レベルでランダムに分割されます。各ツリーの判断は、過剰適合を防ぎ、予測を改善するために平均化されます。ツリーが追加され、ランダムフォレストアルゴリズムと比較してある程度のランダム化が可能になります。
+ [線形モデル](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.linear_model) – 線形方程式を使用して観測データ内の 2 つの変数間の関係をモデル化するフレームワーク。
+ ニューラルネットワーク torch – [Pytorch](https://pytorch.org/) を使用して実装されたニューラルネットワークモデル。
+ ニューラルネットワーク fast.ai – [fast.ai](https://www.fast.ai/) を使用して実装されたニューラルネットワークモデル。

**HPO モード**では、Canvas は次の機械学習アルゴリズムをサポートしています。
+ [XGBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost.html) – 一連のより単純でより弱いモデルから得られた推定のアンサンブルを組み合わせることで、ターゲット変数の正確な予測を試みる、教師あり学習アルゴリズム。
+ 深層学習アルゴリズム 多層パーセプトロン (MLP) とフィードフォワード人工ニューラルネットワーク。このアルゴリズムは、線形分離不可能なデータを処理できます。

### データの分割
<a name="canvas-advanced-settings-predictive-split"></a>

データセットをトレーニングセット (モデルの構築に使用されるデータセットの部分) と検証セット (モデルの精度の検証に使用されるデータセットの部分) の間で分割する方法を指定するオプションがあります。例えば、一般的な分割比率は 80% のトレーニングと 20% の検証です。この場合、データの 80% がモデルの構築に使用され、20% がモデルのパフォーマンスを測定するために確保されます。カスタム比率を指定しない場合は、データセットが自動的に分割されます。

### 最大候補数
<a name="canvas-advanced-settings-predictive-candidates"></a>

**注記**  
この機能は、HPO トレーニングモードでのみ使用できます。

Canvas がモデルの構築中に生成するモデル候補の最大数を指定できます。最も正確なモデルを構築するには、デフォルトの候補数である 100 を使用することをお勧めします。指定できる最大数は 250 です。モデル候補の数を減らすと、モデルの精度に影響する可能性があります。

### ジョブの最大ランタイム
<a name="canvas-advanced-settings-predictive-runtime"></a>

ジョブの最大ランタイム、つまり Canvas がモデルの構築に費やす最大時間を指定できます。制限時間が過ぎると、Canvas は構築を停止し、最適なモデル候補を選択します。

指定できる最大時間は 720 時間です。Canvas がモデル候補を生成し、モデルの構築を完了するのに十分な時間を確保できるように、ジョブの最大ランタイムは 30 分より長くしておくことを強くお勧めします。

## 高度な時系列予測モデル設定
<a name="canvas-advanced-settings-time-series"></a>

時系列予測モデルの場合、Canvas は前のセクションに記載されている目標メトリクスをサポートします。

時系列予測モデルは、次の高度な設定もサポートしています。

### アルゴリズムの選択
<a name="canvas-advanced-settings-time-series-algos"></a>

時系列予測モデルを構築する場合、Canvas では統計アルゴリズムと機械学習アルゴリズムの*アンサンブル* (組み合わせ) を使用して、高精度の時系列予測を提供します。デフォルトでは、Canvas はデータセットの時系列に基づいて、使用可能なすべてのアルゴリズムの最適な組み合わせを選択します。ただし、予測モデルに使用する 1 つ以上のアルゴリズムを指定することもできます。この場合、Canvas は選択したアルゴリズムのみを使用して最適なブレンドを決定します。モデルをトレーニングするために選択するアルゴリズムが不明な場合は、使用可能なアルゴリズムをすべて選択することをお勧めします。

**注記**  
アルゴリズムの選択は、標準ビルドでのみサポートされています。詳細設定でアルゴリズムを選択しない場合、SageMaker AI はデフォルトでクイックビルドを実行し、単一のツリーベースの学習アルゴリズムを使用してモデル候補をトレーニングします。クイックビルドと標準ビルドの違いの詳細については、「[カスタムモデルの仕組み](canvas-build-model.md)」を参照してください。

Canvas は、次の時系列予測アルゴリズムをサポートしています。
+ [自己回帰和分移動平均 (ARIMA)](https://en.wikipedia.org/wiki/Autoregressive_integrated_moving_average) – 統計分析を使用してデータを解釈し、将来の予測を行うシンプルな確率的時系列モデル。このアルゴリズムは、時系列が 100 未満の単純なデータセットに役立ちます。
+ [畳み込みニューラルネットワーク - 分位点回帰 (CNN-QR)](https://docs.aws.amazon.com/forecast/latest/dg/aws-forecast-algo-cnnqr.html) – 時系列の大規模なコレクションから 1 つのグローバルモデルをトレーニングし、分位数デコーダーを使用して予測を行う、独自の教師あり学習アルゴリズムです。CNN-QR は、数百の時系列を含む大規模なデータセットで最適に機能します。
+ [DeepAR \$1](https://docs.aws.amazon.com/forecast/latest/dg/aws-forecast-recipe-deeparplus.html) – リカレントニューラルネットワーク (RNN) を使用してスカラー時系列を予測し、すべての時系列にわたって単一のモデルを共同でトレーニングするための独自の教師あり学習アルゴリズムです。DeepAR\$1 は、数百の特徴時系列を含む大規模なデータセットで最適に機能します。
+ [非パラメトリック時系列 (NPTS)](https://docs.aws.amazon.com/forecast/latest/dg/aws-forecast-recipe-npts.html) — 過去の観測値からサンプリングすることで、特定の時系列の将来の値分布を予測するスケーラブルで確率的なベースライン予測機能です。NPTS は、スパースまたは断続的な時系列を操作する場合 (例えば、時系列のカウントが 0 または低い個々の項目に対する需要を予測する場合) に役立ちます。
+ [指数平滑法 (ETS)](https://en.wikipedia.org/wiki/Exponential_smoothing) – 古い観測の重みが指数的に減少する過去の観測の加重平均である予測を生成する予測方法。このアルゴリズムは、時系列が 100 未満の単純なデータセット、および季節性パターンのあるデータセットに役立ちます。
+ [Prophet](https://facebook.github.io/prophet/) – 強力な季節的効果と数シーズンの履歴データを持つ時系列に最も適した加法付加回帰モデルです。このアルゴリズムは、限界に近づく非線形成長トレンドがあるデータセットに役立ちます。

### 予測分位数
<a name="canvas-advanced-settings-time-series-quantiles"></a>

時系列予測の場合、SageMaker AI はターゲット時系列を使用して 6 つのモデル候補をトレーニングします。次に、スタッキングアンサンブル方法を使用してこれらのモデル候補を組み合わせて、特定の目標メトリクスに最適な予測モデルを作成します。各予測モデルは、P1 と P99 の間の分位数で予測を生成することによって確率予測を生成します。これらの分位数は、予測の不確実性を考慮するために使用されます。デフォルトでは、0.1 (`p10`)、0.5 (`p50`)、0.9 (`p90`) の予測が生成されます。0.01 (`p1`) から 0.99 (`p99`) までの独自の分位数を 0.01 以上の増分で最大 5 つまで指定できます。