

# コンテンツ分野 2: 探索的データ分析
<a name="machine-learning-specialty-01-domain2"></a>

**Topics**
+ [

## タスク 2.1: モデリング用のデータをサニタイズおよび準備する。
](#machine-learning-specialty-01-domain2-task1)
+ [

## タスク 2.2: 特徴量エンジニアリングを実行する。
](#machine-learning-specialty-01-domain2-task2)
+ [

## タスク 2.3: ML のデータを分析および視覚化する。
](#machine-learning-specialty-01-domain2-task3)

## タスク 2.1: モデリング用のデータをサニタイズおよび準備する。
<a name="machine-learning-specialty-01-domain2-task1"></a>
+ 欠損データ、破損データ、ストップワードを特定および処理する。
+ データをフォーマット、正規化、拡張、スケールする。
+ ラベル付けされたデータが十分にあるかどうかを判断する。
  + リスク軽減戦略を特定する。
  + データラベル付けツール (Amazon Mechanical Turk など) を使用する。

## タスク 2.2: 特徴量エンジニアリングを実行する。
<a name="machine-learning-specialty-01-domain2-task2"></a>
+ データセットから特徴量 (テキスト、音声、画像、パブリックデータセットなどのデータソースからの特徴量を含む) を特定および抽出する。
+ 特徴量エンジニアリングの概念 (ビニング、トークン化、外れ値、合成特徴量、ワンホットエンコーディング、データの次元低減など) を分析および評価する。

## タスク 2.3: ML のデータを分析および視覚化する。
<a name="machine-learning-specialty-01-domain2-task3"></a>
+ グラフ (散布図、時系列、ヒストグラム、箱ひげ図など) を作成する。
+ 記述統計 (相関、要約統計、p 値など) を解釈する。
+ クラスター分析 (階層分析、診断、エルボー図、クラスターサイズなど) を実行する。