内容领域 3: 建模 - AWS Certified Machine Learning - Specialty

内容领域 3: 建模

任务 3.1: 将业务问题转换为 ML 问题

  • 确定何时使用以及何时不使用 ML。

  • 了解有监督学习和无监督学习的区别。

  • 从分类、回归、预测、聚类、建议以及基础模型中进行选择。

任务 3.2: 为给定 ML 问题选择相应的模型

  • XGBoost、逻辑回归、k-means、线性回归、决策树、随机森林、RNN、CNN、集成学习、迁移学习,以及大型语言模型 (LLM)

  • 表达模型背后的直觉知识。

任务 3.3: 训练 ML 模型

  • 拆分数据分别用于训练和验证(例如,交叉验证)。

  • 了解 ML 训练的优化技术(例如,梯度下降、损失函数、收敛)。

  • 选择合适的计算资源(例如 GPU 或 CPU,分布式或非分布式)。

    • 选择合适的计算平台(Spark 或非 Spark)。

  • 更新和重新训练模型。

    • 批量或实时/线上

任务 3.4: 执行超参数优化

  • 执行正则化。

    • 随机失活

    • L1/L2

  • 执行交叉验证。

  • 初始化模型。

  • 了解神经网络架构(层和节点)、学习率、激活函数。

  • 了解基于树的模型(树数量、级别数量)。

  • 了解线性模型(学习率)。

任务 3.5: 评估 ML 模型。

  • 避免过拟合或欠拟合。

    • 检测和处理偏差和方差。

  • 评估指标(例如,曲线下面积 [AUC] - 接收方操作特性 [ROC]、准确率、查准率、查全率、均方根误差 [RMSE]、F1 分数)。

  • 解释混淆矩阵。

  • 执行离线和线上模型评估(A/B 测试)。

  • 使用指标(例如,训练模型的时间、模型质量、工程成本)比较模型。

  • 执行交叉验证。