# コンテンツ分野 2: 探索的データ分析 **Topics** + [ ## タスク 2.1: モデリング用のデータをサニタイズおよび準備する。 ](#machine-learning-specialty-01-domain2-task1) + [ ## タスク 2.2: 特徴量エンジニアリングを実行する。 ](#machine-learning-specialty-01-domain2-task2) + [ ## タスク 2.3: ML のデータを分析および視覚化する。 ](#machine-learning-specialty-01-domain2-task3) ## タスク 2.1: モデリング用のデータをサニタイズおよび準備する。 + 欠損データ、破損データ、ストップワードを特定および処理する。 + データをフォーマット、正規化、拡張、スケールする。 + ラベル付けされたデータが十分にあるかどうかを判断する。 + リスク軽減戦略を特定する。 + データラベル付けツール (Amazon Mechanical Turk など) を使用する。 ## タスク 2.2: 特徴量エンジニアリングを実行する。 + データセットから特徴量 (テキスト、音声、画像、パブリックデータセットなどのデータソースからの特徴量を含む) を特定および抽出する。 + 特徴量エンジニアリングの概念 (ビニング、トークン化、外れ値、合成特徴量、ワンホットエンコーディング、データの次元低減など) を分析および評価する。 ## タスク 2.3: ML のデータを分析および視覚化する。 + グラフ (散布図、時系列、ヒストグラム、箱ひげ図など) を作成する。 + 記述統計 (相関、要約統計、p 値など) を解釈する。 + クラスター分析 (階層分析、診断、エルボー図、クラスターサイズなど) を実行する。