

# 内容领域 2： 探索性数据分析
<a name="machine-learning-specialty-01-domain2"></a>

**Topics**
+ [任务 2.1： 清理和准备数据进行建模](#machine-learning-specialty-01-domain2-task1)
+ [任务 2.2： 执行特征工程](#machine-learning-specialty-01-domain2-task2)
+ [任务 2.3： 分析和可视化数据，进行 ML 处理](#machine-learning-specialty-01-domain2-task3)

## 任务 2.1： 清理和准备数据进行建模
<a name="machine-learning-specialty-01-domain2-task1"></a>
+ 确定和处理缺少的数据、损坏的数据和筛选停用词等。
+ 格式化、标准化、扩充和扩缩数据。
+ 确定是否有足够的已标记数据。
  + 确定缓解策略。
  + 使用数据标记工具（例如，Amazon Mechanical Turk）。

## 任务 2.2： 执行特征工程
<a name="machine-learning-specialty-01-domain2-task2"></a>
+ 从数据集（包括从文本、语音、图像和公开数据集等数据来源）中识别和提取特征。
+ 分析和评估特征工程概念（例如，分箱、词元化、异常值、合成特征、独热编码、降低数据维度）。

## 任务 2.3： 分析和可视化数据，进行 ML 处理
<a name="machine-learning-specialty-01-domain2-task3"></a>
+ 创建图形（例如，散点图、时间序列图、直方图、箱线图）。
+ 解释描述性统计数据（例如，相关性、汇总统计数据、p 值）。
+ 执行聚类分析（例如，分层分析、诊断、肘图、聚类大小）。