View a markdown version of this page

AWSSupport-RequestSageMakerLimitIncrease - AWS Systems Manager 自动化运行手册参考

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWSSupport-RequestSageMakerLimitIncrease

描述

AWSSupport-RequestSageMakerLimitIncrease运行手册支持在单个操作中批量提交多个 SageMaker Amazon SageMaker AI (AI) 配额增加请求,从而简化了大规模机器学习工作负载的配额管理。运行手册根据可调整的 SageMaker AI 服务配额验证每个请求,在自动批准阈值内路由请求以便立即处理,并为需要手动审核的请求创建 Support 案例。 AWS 配额增加适用于执行运行手册的同一 AWS 区域。

重要

本运行手册不支持对特殊计算实例(包括 P4、P5 和 Trainium 实例类型)的配额增加请求。对于这些实例类型,请通过 S AWS ervice Quotas 控制台或 Su AWS pport 提交单独的配额增加请求。

在等待指定负责人通过亚马逊简单通知服务 (Amazon SNS) Service 通知获得批准时,运行手册最多会暂停一小时。批准前请仔细查看ApproveQuotaCodeLimitMapping步骤输出,因为批准的配额增加无法逆转。

运行此自动化(控制台)

文档类型

自动化

所有者

Amazon

平台

Linux、macOS、Windows

参数

  • AutomationAssumeRole

    类型:: AWS::IAM::Role: Arn

    描述:(可选)允许(Systems Manager)自动化代表您执行操作的 AWS Identity and Access Management AWS Systems Manager (IAM)角色的亚马逊资源名称 (ARN)。如果未指定角色,Systems Manager Automation 将使用启动此运行手册的用户的权限。

  • ResourcesMapping

    类型: StringList

    描述:(必填)要增加的 SageMaker AI 服务配额,指定为冒号分隔的值。支持三种格式:

    • Category:Resource:NewValue— 当类别和资源名称都可用时。示例:spot-training-job:ml.c4.xlarge:25

    • Resource:NewValue— 当只有资源名称可用时。示例:max_number_of_experiment_trial_associations:501

    • QuotaCode:NewValue— 使用直接配额代码时。示例:L-9xAxx23x:25

    你可以在同一个请求中混合格式,用逗号分隔。最多 50 件物品。示例:studio:CodeEditor-ml.r6id.large:787,spot-training-job:ml.c4.xlarge:34,L-99AEC235:2

  • SNSTopicArn

    类型:字符串

    描述:(必填)用于在自动化执行期间发送批准通知的 Amazon SNS 主题的 ARN。

  • ApproverIAM

    类型: StringList

    描述:(必填) AWS 经过身份验证的委托人列表,他们可以批准或拒绝增加配额的请求。最多 10 个批准者。可接受的格式:IAM 用户名、IAM 用户 ARN、IAM 角色 ARN 或 IAM 代入角色用户 ARN。

  • MinimumRequiredApprovals

    类型:整数

    有效值:1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10

    默认:1

    描述:(可选)恢复自动化所需的最低批准数量。不能超过中定义的批准者人数。ApproverIAM

所需的 IAM 权限

AutomationAssumeRole 参数需要执行以下操作才能成功使用运行手册。

  • servicequotas:ListServiceQuotas

  • servicequotas:RequestServiceQuotaIncrease

  • servicequotas:GetRequestedServiceQuotaChange

  • sns:Publish

  • ssm:SendAutomationSignal

文档步骤

  1. VerifyCategoriesAndResources-使用 Service Quotas API 根据可调整的 SageMaker AI 服务配额验证所有指定的类别和资源。 AWS 确认每个类别和资源名称都存在且可修改,并识别新限制低于当前值的请求。

  2. BranchOnValidCategoriesFound-检查是否找到了任何有效的配额映射。如果存在有效的映射,则继续执行。ApproveQuotaCodeLimitMapping否则,直接跳到。GenerateSummaryReport

  3. ApproveQuotaCodeLimitMapping-准备一份详细的批准消息,显示可供处理的有效申请、带有解释的无效请求(例如限制低于当前值或不支持的配额代码),以及所有配额增加请求的完整明细,以供批准前审查。

  4. WaitingForApproval-暂停自动操作并向指定的 Amazon SNS 主题发送批准通知。指定的批准者必须查看ApproveQuotaCodeLimitMapping步骤输出并批准或拒绝申请。如果未采取任何操作,则此步骤将在 3600 秒(一小时)后超时。

  5. RequestQuotaIncreases-通过 Service Quotas API 为每个有效资源提交单独的配 AWS 额增加请求。请求的节奏为每秒一个,以防止 API 限制。通过指数重试处理 API 异常。

  6. WaitForRequestQuotaIncreaseResults-轮询所有已提交的配额增加请求的状态,直到没有任何请求保持PENDING状态。可接受的终端状态为CASE_OPENEDAPPROVEDDENIED、、NOT_APPROVEDCASE_CLOSED、和。INVALID_REQUEST

  7. GetRequestQuotaIncreaseResults-从 Serv AWS ice Quotas API 检索所有已提交的配额增加请求的最终状态,并将支持案例映射 IDs 到相应的资源和报告请求 IDs 。

  8. GenerateSummaryReport-汇编所有配额增加请求及其结果的全面摘要,包括请求总数、每个请求的详细信息、需要手动审核 IDs 的请求的支持案例以及可行的后续步骤。

输出

GenerateSummaryReport.SummaryReport-所有配额增加请求、其状态以及为手动审查而 IDs 创建的任何支持案例的全面摘要。