

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Built-in Amazon 中的算法和预训练模型 SageMaker
<a name="algos"></a>

Amazon SageMaker 提供了一套内置算法、预训练模型和预先构建的解决方案模板，以帮助数据科学家和机器学习从业者快速开始训练和部署机器学习模型。对于新手来说 SageMaker，为你的特定用例选择正确的算法可能是一项艰巨的任务。下表提供了一个简短的备忘单，显示了如何从示例问题或用例入手，找到适用于 SageMaker 该问题类型的适当内置算法。该表后面的部分提供了按学习范式（有监督和无监督）和重要数据域（文本和图像）整理的更多指导。

表：将使用场景映射到内置算法



- **[Pre-trained 模型和预建的解决方案模板](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-jumpstart.html)**
  - ****问题类型**:** 图像分类<br />表格分类<br />表格回归<br />文本分类<br />对象检测<br />文本嵌入<br />问题回答<br />句子对分类<br />图像嵌入<br />命名实体识别<br />实例分段<br />文本生成<br />文本摘要<br />语义分割<br />机器翻译
  - ****示例问题和使用场景**:** 以下是亚马逊提供的预训练模型和预建解决方案模板可以解决的 15 种问题类型中的几个示例： SageMaker JumpStart<br />问题回答：对给定问题输出答案的聊天机器人。<br />文本分析：分析特定于金融等行业领域的模型中的文本。
  - ****数据输入格式**:** 图片、文本、表格
  - ****Built-in 算法**:** 热门机型，包括 Mobilenet、YOLO、Faster、BERT R-CNN、LightGBM 和 CatBoost<br />有关可用预训练模型的列表，请参阅[JumpStart 模型](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-jumpstart.html#jumpstart-models)。<br />有关可用的预建解决方案模板的列表，请参阅[JumpStart 解决方案](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-jumpstart.html#jumpstart-solutions)。

- ** [有监督学习](#algorithms-built-in-supervised-learning) **
  - ****问题类型**:** Binary/multi-class 分类 / ****示例问题和使用场景**:** 预测项目是否属于某个类别：垃圾电子邮件过滤器 / ****数据输入格式**:** 表格 / ****Built-in 算法**:** [AutoGluon-Tabular](autogluon-tabular.md), [CatBoost](catboost.md), [因子分解机算法](fact-machines.md), [K-Nearest 邻居 (k-nn) 算法](k-nearest-neighbors.md), [LightGBM](lightgbm.md), [线性学习器算法](linear-learner.md), [TabTransformer](tabtransformer.md), [使用亚马逊 AI 的 xgBoost 算法 SageMaker](xgboost.md)
  - ****问题类型**:** 回归 / ****示例问题和使用场景**:** 预测 numeric/continuous 价值：估计房屋的价值 / ****数据输入格式**:** 表格 / ****Built-in 算法**:** [AutoGluon-Tabular](autogluon-tabular.md), [CatBoost](catboost.md), [因子分解机算法](fact-machines.md), [K-Nearest 邻居 (k-nn) 算法](k-nearest-neighbors.md), [LightGBM](lightgbm.md), [线性学习器算法](linear-learner.md), [TabTransformer](tabtransformer.md), [使用亚马逊 AI 的 xgBoost 算法 SageMaker](xgboost.md)
  - ****问题类型**:** Time-series 预测 / ****示例问题和使用场景**:** 根据行为的历史数据，预测未来的行为：根据以前的销售数据预测新产品的销售额。 / ****数据输入格式**:** 表格 / ****Built-in 算法**:** [使用 SageMaker AI Deepar 预测算法](deepar.md)
  - ****问题类型**:** 嵌入：将高维度物体转换到低维度空间中。 / ****示例问题和使用场景**:** 改进高维度对象的数据嵌入：根据支持工单中的文本相似性，识别重复的支持工单或者查找正确的路线 / ****数据输入格式**:** 表格 / ****Built-in 算法**:** [Object2Vec 算法](object2vec.md)

- **[无监督学习](#algorithms-built-in-unsupervised-learning)**
  - ****问题类型**:** 特征工程：减少维度 / ****示例问题和使用场景**:** 从数据集中删除那些与 label/target 变量关系较弱的列：预测里程时的汽车颜色。 / ****数据输入格式**:** 表格 / ****Built-in 算法**:** [主成分分析 (PCA) 算法](pca.md)
  - ****问题类型**:** 异常检测 / ****示例问题和使用场景**:** 检测应用中的异常行为：发现 IoT 传感器何时发送异常读数 / ****数据输入格式**:** 表格 / ****Built-in 算法**:** [Random Cut Forest (RCF) 算法](randomcutforest.md)
  - ****问题类型**:** IP 异常检测 / ****示例问题和使用场景**:** 保护您的应用程序免受可疑用户的侵害：检测访问服务的 IP 地址是否来自恶意行为者 / ****数据输入格式**:** 表格 / ****Built-in 算法**:** [IP 洞察](ip-insights.md)
  - ****问题类型**:** 聚类或分组 / ****示例问题和使用场景**:**  objects/data 相似的分组：从交易历史中寻找高、中、低消费客户 / ****数据输入格式**:** 表格 / ****Built-in 算法**:** [K-Means 算法](k-means.md)
  - ****问题类型**:** 主题建模 / ****示例问题和使用场景**:** 将一组文档按照主题（事先未知）进行整理：根据文档中使用的词语，将文档标记为属于医疗类别。 / ****数据输入格式**:** 文本 / ****Built-in 算法**:** [潜在狄利克雷分配 (LDA) 算法](lda.md), [神经主题模型 (NTM) 算法](ntm.md)

- ** [文本分析](#algorithms-built-in-text-analysis) **
  - ****问题类型**:** 文本分类  / ****示例问题和使用场景**:** 为文集中的文档分配预定义的类别：将图书馆中的图书按学术学科分类 / ****数据输入格式**:** 文本 / ****Built-in 算法**:** [BlazingText 算法](blazingtext.md), [文本分类- TensorFlow](text-classification-tensorflow.md)
  - ****问题类型**:** 机器翻译算法 / ****示例问题和使用场景**:** 将文本从一种语言转换为其他语言：西班牙语到英 / ****数据输入格式**:** 文本 / ****Built-in 算法**:** [Sequence-to-Sequence 算法](seq-2-seq.md)
  - ****问题类型**:** 文本摘要 / ****示例问题和使用场景**:** 总结一篇长文本集：研究论文的摘要 / ****数据输入格式**:** 文本 / ****Built-in 算法**:** [Sequence-to-Sequence 算法](seq-2-seq.md)
  - ****问题类型**:** Speech-to-text / ****示例问题和使用场景**:** 将音频文件转换为文本：转录呼叫中心对话供进一步分析 / ****数据输入格式**:** 文本 / ****Built-in 算法**:** [Sequence-to-Sequence 算法](seq-2-seq.md)

- **[图像处理](#algorithms-built-in-image-processing)**
  - ****问题类型**:** 图像和多标签分类 / ****示例问题和使用场景**:** Label/tag 基于图片内容的图片：有关图片中成人内容的警报 / ****数据输入格式**:** Image / ****Built-in 算法**:** [图像分类 – MXNet](image-classification.md)
  - ****问题类型**:** 图像分类 / ****示例问题和使用场景**:** 使用迁移学习对图像中的某些内容进行分类。 / ****数据输入格式**:** Image / ****Built-in 算法**:** [图像分类- TensorFlow](image-classification-tensorflow.md)
  - ****问题类型**:** 对象检测和分类 / ****示例问题和使用场景**:** 检测图像中的人员和物体：警方在大型照片库中查找失踪人员 / ****数据输入格式**:** Image / ****Built-in 算法**:** [对象检测 – MXNet](object-detection.md), [物体检测- TensorFlow](object-detection-tensorflow.md)
  - ****问题类型**:** 计算机视觉 / ****示例问题和使用场景**:** 使用类别单独标记图像的每个像素：自动驾驶汽车准备识别道路中的物体 / ****数据输入格式**:** Image / ****Built-in 算法**:** [语义分割算法](semantic-segmentation.md)



有关 SageMaker AI 提供的所有内置算法共有的以下项目的重要信息，请参阅[Built-in 算法参数](common-info-all-im-models.md)。
+ Docker 注册表路径
+ 数据格式
+ 推荐的 Amazon EC2 实例类型
+ CloudWatch 日志

以下各节为按其所属的监督和无监督学习范式分组的 SageMaker Amazon AI 内置算法提供了更多指导。有关这些学习范式及其相关问题类型的描述，请参阅[算法类型](algorithms-choose.md)。还提供了有关 SageMaker 人工智能内置算法的章节，这些算法可用于解决两个重要的机器学习领域：文本分析和图像处理。
+ [Pre-trained 模型和解决方案模板](#algorithms-built-in-jumpstart)
+ [有监督学习](#algorithms-built-in-supervised-learning)
+ [无监督学习](#algorithms-built-in-unsupervised-learning)
+ [文本分析](#algorithms-built-in-text-analysis)
+ [图像处理](#algorithms-built-in-image-processing)

## Pre-trained 模型和解决方案模板
<a name="algorithms-built-in-jumpstart"></a>

Amazon SageMaker JumpStart 提供各种预训练模型、预先构建的解决方案模板和常见问题类型的示例。它们使用 SageMaker SDK 和 Studio Classic。有关这些型号、解决方案和 Amazon 提供的笔记本示例的更多信息 SageMaker JumpStart，请参阅[SageMaker JumpStart 预训练模型](studio-jumpstart.md)。

## 有监督学习
<a name="algorithms-built-in-supervised-learning"></a>

Amazon SageMaker AI 提供了几种内置的通用算法，可用于处理分类或回归问题。
+ [AutoGluon-Tabular](autogluon-tabular.md) – 开源 AutoML 框架，其成功之处在于组合模型并将模型堆叠成多个层。
+ [CatBoost](catboost.md) – 梯度增强树算法的实施，该算法引入了有序提升以及用于处理类别特征的创新算法。
+ [因子分解机算法](fact-machines.md) – 线性模型的扩展，旨在经济地捕获高维度稀疏数据集中的各特征之间的交互。
+ [K-Nearest 邻居 (k-nn) 算法](k-nearest-neighbors.md)：这是一种非参数方法，使用 k 个最近的标记点来赋值。对于分类，它是一个新数据点的标签。对于回归，它是根据 k 个最近点的平均值预测的目标值。
+ [LightGBM](lightgbm.md)：梯度增强树算法的实施，它增加了两种新技术来提高效率和可扩展性。这两种新颖的技术是 Gradient-based One-Side 采样 (GOSS) 和独家特征捆绑 (EFB)。
+ [线性学习器算法](linear-learner.md) – 学习用于回归的线性函数或者用于分类的线性阈值函数。
+ [TabTransformer](tabtransformer.md) – 一种新型深度表格数据建模架构，构建在基于自注意力的转换器上。
+ [使用亚马逊 AI 的 xgBoost 算法 SageMaker](xgboost.md) – 梯度增强树算法的实施，该算法结合了来自一组更简单和较弱模型的估计数组合。

Amazon SageMaker AI 还提供了几种内置的监督学习算法，用于在特征工程和根据时间序列数据进行预测期间执行更专业的任务。
+ [Object2Vec 算法](object2vec.md) – 用于特征工程的高度可定制的新型多用途算法。它可以学习高维度对象的低维度密集型嵌入，以生成能够提高下游模型训练效率的特征。这是一种有监督算法，但在许多情况下，可以纯粹从数据中的自然集群中获取关系标签。尽管需要标注数据来进行训练，但无需任何明确的人工注释即可实现。
+ [使用 SageMaker AI Deepar 预测算法](deepar.md) – 一种有监督学习算法，可使用递归神经网络 (RNN) 来预测标量（一维）时间序列。

## 无监督学习
<a name="algorithms-built-in-unsupervised-learning"></a>

Amazon SageMaker AI 提供了多种内置算法，可用于各种无人监督的学习任务。这些任务包括集群、降维、规律识别和异常检测等。
+ [主成分分析 (PCA) 算法](pca.md) – 通过将数据点投影到前几个主成份上来减少数据集中的维度（特征数量）。目标是尽可能保留尽可能多的信息或变体。对于数学家来说，主要成分是数据协方差矩阵的特征向量。
+ [K-Means 算法](k-means.md)：查找数据中的离散组。这种情况发生在一个组的成员尽可能彼此相似，而与其他组的成员尽可能互不相同。
+ [IP 洞察](ip-insights.md) – 了解 IPv4 地址的使用模式。它旨在捕获 IPv4 地址与各种实体（例如用户 ID 或账号）之间的关联。
+ [Random Cut Forest (RCF) 算法](randomcutforest.md) – 检测数据集中偏离了其他结构良好或模式化的数据的异常数据点。

## 文本分析
<a name="algorithms-built-in-text-analysis"></a>

SageMaker 人工智能提供了专为分析文本文档而量身定制的算法。这包括用于自然语言处理、文档分类或总结、主题建模或分类以及语言转录或翻译的文本。
+ [BlazingText 算法](blazingtext.md) – Word2vec 和文本分类算法的高度优化的实施，可轻松扩展到大型数据集。它对于许多下游自然语言处理 (NLP) 任务都很有用。
+ [Sequence-to-Sequence 算法](seq-2-seq.md) – 此有监督算法通常用于神经网络机器翻译。
+ [潜在狄利克雷分配 (LDA) 算法](lda.md) – 此算法适用于确定一组文档中的主题。它是一种*自主算法*，这意味着在训练期间不适用包含答案的示例数据。
+ [神经主题模型 (NTM) 算法](ntm.md) – 另一种无监督技术，它使用神经网络方法来确定一组文档中的主题。
+ [文本分类- TensorFlow](text-classification-tensorflow.md) –一种支持迁移学习的有监督算法，通过所提供的预训练模型进行文本分类。

## 图像处理
<a name="algorithms-built-in-image-processing"></a>

SageMaker AI 还提供用于图像分类、物体检测和计算机视觉的图像处理算法。
+ [图像分类 – MXNet](image-classification.md) – 使用包含答案的示例数据（称为*有监督算法*）。 使用此算法为图像分类。
+ [图像分类- TensorFlow](image-classification-tensorflow.md)— 使用预训练的 TensorFlow Hub 模型针对特定任务进行微调（称为*监督*算法）。 使用此算法为图像分类。
+ [语义分割算法](semantic-segmentation.md) – 提供一种细粒度的像素级方法来开发计算机视觉应用程序。
+ [对象检测 – MXNet](object-detection.md) – 使用单个深度神经网络检测和分类图像中的对象。它是一种指导式学习算法，将图像作为输入并识别图像场景中的所有对象实例。
+ [物体检测- TensorFlow](object-detection-tensorflow.md) – 检测图像中的边界框和对象标签。它是一种监督学习算法，支持使用可用的预训练 TensorFlow 模型进行迁移学习。

**Topics**
+ [Pre-trained 模型和解决方案模板](#algorithms-built-in-jumpstart)
+ [有监督学习](#algorithms-built-in-supervised-learning)
+ [无监督学习](#algorithms-built-in-unsupervised-learning)
+ [文本分析](#algorithms-built-in-text-analysis)
+ [图像处理](#algorithms-built-in-image-processing)
+ [Built-in 算法参数](common-info-all-im-models.md)
+ [Built-in SageMaker 表格数据的 AI 算法](algorithms-tabular.md)
+ [Built-in SageMaker 用于文本数据的 AI 算法](algorithms-text.md)
+ [Built-in SageMaker 用于 Time-Series 数据的 AI 算法](algorithms-time-series.md)
+ [无监督的 Built-in SageMaker AI 算法](algorithms-unsupervised.md)
+ [Built-in SageMaker 用于计算机视觉的 AI 算法](algorithms-vision.md)