コンテンツ分野 3: モデリング - AWS Certified Machine Learning - Specialty

コンテンツ分野 3: モデリング

タスク 3.1: ビジネス上の問題を ML の問題として捉える。

  • ML を使用すべき場合と使用すべきでない場合を判断する。

  • 教師あり学習と教師なし学習の違いを知る。

  • 分類、回帰、予測、クラスタリング、レコメンデーション、基盤の中からモデルを選択する。

タスク 3.2: 特定の ML 問題に適したモデルを選択する。

  • XGBoost、ロジスティック回帰、K-means、線形回帰、決定木、ランダムフォレスト、RNN、CNN、アンサンブル、転移学習、大規模言語モデル (LLM)

  • モデルの背景にある直感を表現する。

タスク 3.3: ML モデルをトレーニングする。

  • データをトレーニング用と検証用 (交差検証など) に分割する。

  • ML トレーニングの最適化手法 (最急降下法、損失関数、収束など) を理解する。

  • 適切なコンピューティングリソース (GPU または CPU、分散型または非分散型など) を選択する。

    • 適切なコンピューティングプラットフォーム (Spark または Spark 以外) を選択する。

  • モデルを更新して再トレーニングする。

    • バッチまたはリアルタイム/オンライン

タスク 3.4: ハイパーパラメータの最適化を実行する。

  • 正則化を実行する。

    • ドロップアウト

    • L1/L2

  • 交差検証を実行する。

  • モデルを初期化する。

  • ニューラルネットワークのアーキテクチャ (レイヤーとノード)、学習率、活性化関数を理解する。

  • ツリーベースのモデル (ツリーの数、レベルの数) を理解する。

  • 線形モデル (学習率) を理解する。

タスク 3.5: ML モデルを評価する。

  • オーバーフィットやアンダーフィットを避ける。

    • バイアスとバリアンスを検出して処理する。

  • メトリクス [曲線下面積 (AUC) - 受信者動作特性 (ROC)、正解率、適合率、再現率、二乗平均平方根誤差 (RMSE)、F1 スコアなど] を評価する。

  • 混同行列を解釈する。

  • オフラインおよびオンラインでのモデル評価 (A/B テスト) を実行する。

  • メトリクス (モデルのトレーニング時間、モデルの品質、エンジニアリングコストなど) を使用してモデルを比較する。

  • 交差検証を実行する。