内容领域 3: 建模
任务 3.1: 将业务问题转换为 ML 问题
确定何时使用以及何时不使用 ML。
了解有监督学习和无监督学习的区别。
从分类、回归、预测、聚类、建议以及基础模型中进行选择。
任务 3.2: 为给定 ML 问题选择相应的模型
XGBoost、逻辑回归、k-means、线性回归、决策树、随机森林、RNN、CNN、集成学习、迁移学习,以及大型语言模型 (LLM)
表达模型背后的直觉知识。
任务 3.3: 训练 ML 模型
拆分数据分别用于训练和验证(例如,交叉验证)。
了解 ML 训练的优化技术(例如,梯度下降、损失函数、收敛)。
-
选择合适的计算资源(例如 GPU 或 CPU,分布式或非分布式)。
选择合适的计算平台(Spark 或非 Spark)。
-
更新和重新训练模型。
批量或实时/线上
任务 3.4: 执行超参数优化
-
执行正则化。
随机失活
L1/L2
执行交叉验证。
初始化模型。
了解神经网络架构(层和节点)、学习率、激活函数。
了解基于树的模型(树数量、级别数量)。
了解线性模型(学习率)。
任务 3.5: 评估 ML 模型。
-
避免过拟合或欠拟合。
检测和处理偏差和方差。
评估指标(例如,曲线下面积 [AUC] - 接收方操作特性 [ROC]、准确率、查准率、查全率、均方根误差 [RMSE]、F1 分数)。
解释混淆矩阵。
执行离线和线上模型评估(A/B 测试)。
使用指标(例如,训练模型的时间、模型质量、工程成本)比较模型。
执行交叉验证。