本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。 # 自动扩展多容器端点如果要使用 `InvocationsPerInstance` 指标为多容器端点配置自动扩展，我们建议每个容器中的模型在每次推理请求中都显示相似的 CPU 利用率和延迟。建议这样做是因为如果流向多容器端点的流量从 CPU 使用率较低的模型转向 CPU 使用率较高的模型，但总调用量保持不变，则端点不会扩展，并且可能没有足够实例来处理对 CPU 使用率较高模型的所有请求。有关自动扩展端点的信息，请参阅[自动缩放 Amazon SageMaker 人工智能模型](endpoint-auto-scaling.md)。