内容领域 2: 探索性数据分析
任务 2.1: 清理和准备数据进行建模
确定和处理缺少的数据、损坏的数据和筛选停用词等。
格式化、标准化、扩充和扩缩数据。
-
确定是否有足够的已标记数据。
确定缓解策略。
使用数据标记工具(例如,Amazon Mechanical Turk)。
任务 2.2: 执行特征工程
从数据集(包括从文本、语音、图像和公开数据集等数据来源)中识别和提取特征。
分析和评估特征工程概念(例如,分箱、词元化、异常值、合成特征、独热编码、降低数据维度)。
任务 2.3: 分析和可视化数据,进行 ML 处理
创建图形(例如,散点图、时间序列图、直方图、箱线图)。
解释描述性统计数据(例如,相关性、汇总统计数据、p 值)。
执行聚类分析(例如,分层分析、诊断、肘图、聚类大小)。