View a markdown version of this page

内容领域 2: 探索性数据分析 - AWS Certified Machine Learning - Specialty

内容领域 2: 探索性数据分析

任务 2.1: 清理和准备数据进行建模

  • 确定和处理缺少的数据、损坏的数据和筛选停用词等。

  • 格式化、标准化、扩充和扩缩数据。

  • 确定是否有足够的已标记数据。

    • 确定缓解策略。

    • 使用数据标记工具(例如,Amazon Mechanical Turk)。

任务 2.2: 执行特征工程

  • 从数据集(包括从文本、语音、图像和公开数据集等数据来源)中识别和提取特征。

  • 分析和评估特征工程概念(例如,分箱、词元化、异常值、合成特征、独热编码、降低数据维度)。

任务 2.3: 分析和可视化数据,进行 ML 处理

  • 创建图形(例如,散点图、时间序列图、直方图、箱线图)。

  • 解释描述性统计数据(例如,相关性、汇总统计数据、p 值)。

  • 执行聚类分析(例如,分层分析、诊断、肘图、聚类大小)。