# 内容领域 3：建模 **Topics** + [任务 3.1：将业务问题转换为 ML 问题](#machine-learning-specialty-01-domain3-task1) + [任务 3.2：为给定 ML 问题选择相应的模型](#machine-learning-specialty-01-domain3-task2) + [任务 3.3：训练 ML 模型](#machine-learning-specialty-01-domain3-task3) + [任务 3.4：执行超参数优化](#machine-learning-specialty-01-domain3-task4) + [任务 3.5：评估 ML 模型。](#machine-learning-specialty-01-domain3-task5) ## 任务 3.1：将业务问题转换为 ML 问题 + 确定何时使用以及何时不使用 ML。 + 了解有监督学习和无监督学习的区别。 + 从分类、回归、预测、聚类、建议以及基础模型中进行选择。 ## 任务 3.2：为给定 ML 问题选择相应的模型 + XGBoost、逻辑回归、k-means、线性回归、决策树、随机森林、RNN、CNN、集成学习、迁移学习，以及大型语言模型 (LLM) + 表达模型背后的直觉知识。 ## 任务 3.3：训练 ML 模型 + 拆分数据分别用于训练和验证（例如：交叉验证）。 + 了解 ML 训练的优化技术（例如：梯度下降、损失函数、收敛）。 + 选择合适的计算资源（例如：GPU 或 CPU，分布式或非分布式）。 + 选择合适的计算平台（Spark 或非 Spark）。 + 更新和重新训练模型。 + 批量或实时/线上 ## 任务 3.4：执行超参数优化 + 执行正则化。 + 随机失活 + L1/L2 + 执行交叉验证。 + 初始化模型。 + 了解神经网络架构（层和节点）、学习率、激活函数。 + 了解基于树的模型（树数量、级别数量）。 + 了解线性模型（学习率）。 ## 任务 3.5：评估 ML 模型。 + 避免过拟合或欠拟合。 + 检测和处理偏差和方差。 + 评估指标（例如：曲线下面积 [AUC] - 接收方操作特性 [ROC]、准确率、查准率、查全率、均方根误差 [RMSE]、F1 分数）。 + 解释混淆矩阵。 + 执行离线和线上模型评估（A/B 测试）。 + 使用指标（例如：训练模型的时间、模型质量、工程成本）比较模型。 + 执行交叉验证。