

# 内容领域 3： 建模
<a name="machine-learning-specialty-01-domain3"></a>

**Topics**
+ [任务 3.1： 将业务问题转换为 ML 问题](#machine-learning-specialty-01-domain3-task1)
+ [任务 3.2： 为给定 ML 问题选择相应的模型](#machine-learning-specialty-01-domain3-task2)
+ [任务 3.3： 训练 ML 模型](#machine-learning-specialty-01-domain3-task3)
+ [任务 3.4： 执行超参数优化](#machine-learning-specialty-01-domain3-task4)
+ [任务 3.5： 评估 ML 模型。](#machine-learning-specialty-01-domain3-task5)

## 任务 3.1： 将业务问题转换为 ML 问题
<a name="machine-learning-specialty-01-domain3-task1"></a>
+ 确定何时使用以及何时不使用 ML。
+ 了解有监督学习和无监督学习的区别。
+ 从分类、回归、预测、聚类、建议以及基础模型中进行选择。

## 任务 3.2： 为给定 ML 问题选择相应的模型
<a name="machine-learning-specialty-01-domain3-task2"></a>
+ XGBoost、逻辑回归、k-means、线性回归、决策树、随机森林、RNN、CNN、集成学习、迁移学习，以及大型语言模型 (LLM)
+ 表达模型背后的直觉知识。

## 任务 3.3： 训练 ML 模型
<a name="machine-learning-specialty-01-domain3-task3"></a>
+ 拆分数据分别用于训练和验证（例如：交叉验证）。
+ 了解 ML 训练的优化技术（例如：梯度下降、损失函数、收敛）。
+ 选择合适的计算资源（例如：GPU 或 CPU，分布式或非分布式）。
  + 选择合适的计算平台（Spark 或非 Spark）。
+ 更新和重新训练模型。
  + 批量或实时/线上

## 任务 3.4： 执行超参数优化
<a name="machine-learning-specialty-01-domain3-task4"></a>
+ 执行正则化。
  + 随机失活
  + L1/L2
+ 执行交叉验证。
+ 初始化模型。
+ 了解神经网络架构（层和节点）、学习率、激活函数。
+ 了解基于树的模型（树数量、级别数量）。
+ 了解线性模型（学习率）。

## 任务 3.5： 评估 ML 模型。
<a name="machine-learning-specialty-01-domain3-task5"></a>
+ 避免过拟合或欠拟合。
  + 检测和处理偏差和方差。
+ 评估指标（例如：曲线下面积 [AUC] - 接收方操作特性 [ROC]、准确率、查准率、查全率、均方根误差 [RMSE]、F1 分数）。
+ 解释混淆矩阵。
+ 执行离线和线上模型评估（A/B 测试）。
+ 使用指标（例如：训练模型的时间、模型质量、工程成本）比较模型。
+ 执行交叉验证。