View a markdown version of this page

コンテンツ分野 2: 探索的データ分析 - AWS Certified Machine Learning - Specialty

コンテンツ分野 2: 探索的データ分析

タスク 2.1: モデリング用のデータをサニタイズおよび準備する。

  • 欠損データ、破損データ、ストップワードを特定および処理する。

  • データをフォーマット、正規化、拡張、スケールする。

  • ラベル付けされたデータが十分にあるかどうかを判断する。

    • リスク軽減戦略を特定する。

    • データラベル付けツール (Amazon Mechanical Turk など) を使用する。

タスク 2.2: 特徴量エンジニアリングを実行する。

  • データセットから特徴量 (テキスト、音声、画像、パブリックデータセットなどのデータソースからの特徴量を含む) を特定および抽出する。

  • 特徴量エンジニアリングの概念 (ビニング、トークン化、外れ値、合成特徴量、ワンホットエンコーディング、データの次元低減など) を分析および評価する。

タスク 2.3: ML のデータを分析および視覚化する。

  • グラフ (散布図、時系列、ヒストグラム、箱ひげ図など) を作成する。

  • 記述統計 (相関、要約統計、p 値など) を解釈する。

  • クラスター分析 (階層分析、診断、エルボー図、クラスターサイズなど) を実行する。