

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 使用 Triton 推理服务器和 Amazon AI 的资源 SageMaker
<a name="triton"></a>

SageMaker 人工智能使客户能够在 NVIDIA Triton 推理服务器上使用自定义代码部署模型。使用以下资源学习如何将 Triton 推理服务器与 AI 配 SageMaker 合使用。

 可通过开发 [Triton Inference Server 容器](https://docs.aws.amazon.com/deep-learning-containers/latest/devguide/what-is-dlc.html)来获得此功能。这些容器包括 NVIDIA Triton Inference Server、对常见机器学习框架的支持以及允许你优化 AI 性能的有用环境变量。 SageMaker 有关所有可用深度学习容器映像的列表，请参阅[可用的深度学习容器映像](https://github.com/aws/deep-learning-containers/blob/master/available_images.md)。深度学习容器映像会得到维护，并定期更新安全补丁。

你可以像在 SageMaker AI 模型中使用任何其他容器一样使用 Pyt SageMaker hon SDK 的 Triton 推理服务器容器。但是，使用 SageMaker Python 开发工具包是可选的。您可以将 Triton 推理服务器容器与和一起使用。 AWS CLI 适用于 Python (Boto3) 的 AWS SDK

有关 NVIDIA Triton Inference Server 的更多信息，请参阅 [Triton 文档](https://docs.nvidia.com/deeplearning/triton-inference-server/#)。

## 推理
<a name="triton-inference"></a>

**注意**  
Triton Python 后端使用共享内存 (SHMEM) 将你的代码连接到 Triton。 SageMaker AI Inference 最多可提供一半的实例内存作为 SHMEM，因此您可以使用具有更多内存的实例来处理更大的 SHMEM 大小。

为了进行推理，您可以将经过训练的 ML 模型与 Triton 推理服务器配合使用，使用 AI 部署推理作业。 SageMaker 

Triton Inference Server 容器的一些关键特征包括：
+ **支持多个框架**：Triton 可用于部署所有主要机器学习框架中的模型。Triton 支持 TensorFlow GraphDef 和 SavedModel、ONNX、、T PyTorch TorchScript ensorrt 和自定义 Python/C\$1\$1 模型格式。
+ **模型流水线**：Triton 模型集合表示一个模型的流水线，具有 pre/post 处理逻辑以及它们之间的输入和输出张量连接。向一个集合提出一个推理请求，就会触发整个管道的执行。
+ **并行模型执行**：同一模型的多个实例可以在同一 GPU 上同时运行，也可以在多个 GPU 上同时运行 GPUs。
+ **动态批处理**：对于支持批处理的模型，Triton 有多种内置的计划和批处理算法，这些算法可以将单个推理请求组合在一起以提高推理吞吐量。这些计划和批处理决策对请求推理的客户端是透明的。
+ **支持多样的 CPU 和 GPU**：这些模型可以在 CPUs 或上执行，以 GPUs 获得最大的灵活性，并支持异构计算需求。

## 您需要做什么？
<a name="triton-do"></a>

我想在 SageMaker AI 中部署经过训练的 PyTorch 模型。  
有关 Jupyter 笔记本的示例，请参阅使用 Triton 推[理服务器部署你的 R PyTorch esnet50 模型](https://github.com/aws/amazon-sagemaker-examples/blob/master/sagemaker-triton/resnet50/triton_resnet50.ipynb)示例。

我想在人工智能中部署经过训练的 Hugging Face 模型 SageMaker 。  
有关 Jupyter 笔记本的示例，请参阅使用 [Triton 推理服务器部署你的 PyTorch BERT 模型](https://github.com/aws/amazon-sagemaker-examples/blob/master/sagemaker-triton/nlp_bert/triton_nlp_bert.ipynb)示例。