コンテンツ分野 2: 探索的データ分析
タスク 2.1: モデリング用のデータをサニタイズおよび準備する。
欠損データ、破損データ、ストップワードを特定および処理する。
データをフォーマット、正規化、拡張、スケールする。
-
ラベル付けされたデータが十分にあるかどうかを判断する。
リスク軽減戦略を特定する。
データラベル付けツール (Amazon Mechanical Turk など) を使用する。
タスク 2.2: 特徴量エンジニアリングを実行する。
データセットから特徴量 (テキスト、音声、画像、パブリックデータセットなどのデータソースからの特徴量を含む) を特定および抽出する。
特徴量エンジニアリングの概念 (ビニング、トークン化、外れ値、合成特徴量、ワンホットエンコーディング、データの次元低減など) を分析および評価する。
タスク 2.3: ML のデータを分析および視覚化する。
グラフ (散布図、時系列、ヒストグラム、箱ひげ図など) を作成する。
記述統計 (相関、要約統計、p 値など) を解釈する。
クラスター分析 (階層分析、診断、エルボー図、クラスターサイズなど) を実行する。