View a markdown version of this page

AWSSupport-RequestSageMakerLimitIncrease - AWS Systems Manager Automation Runbook 參考

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWSSupport-RequestSageMakerLimitIncrease

Description

AWSSupport-RequestSageMakerLimitIncrease Runbook 可在單一操作中大量提交多個 Amazon SageMaker AI (SageMaker AI) 配額增加請求,簡化大規模機器學習工作負載的配額管理。Runbook 會根據可調整的 SageMaker AI 服務配額驗證每個請求,在自動核准閾值內路由請求以進行立即處理,並為需要手動檢閱的請求建立 AWS 支援案例。配額增加會在執行 Runbook 的相同 AWS 區域中套用。

重要

此 Runbook 不支援特殊運算執行個體的配額增加請求P4, P5 和 Trainium 執行個體類型。對於這些執行個體類型,請透過 AWS Service Quotas 主控台或 AWS Support 提交個別配額增加請求。

Runbook 最多會暫停一小時,同時透過 Amazon Simple Notification Service (Amazon SNS) 通知等待指定委託人的核准。在核准之前,請仔細檢閱ApproveQuotaCodeLimitMapping步驟輸出,因為無法反轉已核准的配額增加。

執行此自動化 (主控台)

文件類型

 自動化

擁有者

Amazon

平台

Linux、macOS、 Windows

參數

  • AutomationAssumeRole

    類型:AWS::IAM::Role::Arn

    描述:(選用) 允許 (Systems Manager) Automation 代表您執行動作的 (IAM) 角色的 AWS Identity and Access Management Amazon Resource Name AWS Systems Manager (ARN)。如果未指定角色,Systems Manager Automation 會使用啟動此 Runbook 的使用者許可。

  • ResourcesMapping

    類型:StringList

    描述:(必要) 要增加的 SageMaker AI 服務配額,指定為冒號分隔值。支援三種格式:

    • Category:Resource:NewValue — 當類別和資源名稱都可用時。範例:spot-training-job:ml.c4.xlarge:25

    • Resource:NewValue — 當只有資源名稱可用時。範例:max_number_of_experiment_trial_associations:501

    • QuotaCode:NewValue — 使用直接配額代碼時。範例:L-9xAxx23x:25

    您可以在相同的請求中混合格式,並以逗號分隔。最多 50 個項目。範例:studio:CodeEditor-ml.r6id.large:787,spot-training-job:ml.c4.xlarge:34,L-99AEC235:2

  • SNSTopicArn

    類型:字串

    描述:(必要) 自動化執行期間用來傳送核准通知的 Amazon SNS 主題 ARN。

  • ApproverIAM

    類型:StringList

    描述:(必要) 可核准或拒絕配額增加請求的已 AWS 驗證委託人清單。最多 10 個核准者。可接受的格式:IAM 使用者名稱、IAM 使用者 ARN、IAM 角色 ARN 或 IAM 擔任角色使用者 ARN。

  • MinimumRequiredApprovals

    類型:整數

    有效值:1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10

    預設:1

    描述:(選用) 恢復自動化所需的核准數量下限。不能超過 中定義的核准者數目ApproverIAM

必要的 IAM 許可

AutomationAssumeRole 參數需要下列動作才能成功使用 Runbook。

  • servicequotas:ListServiceQuotas

  • servicequotas:RequestServiceQuotaIncrease

  • servicequotas:GetRequestedServiceQuotaChange

  • sns:Publish

  • ssm:SendAutomationSignal

文件步驟

  1. VerifyCategoriesAndResources - 使用 AWS Service Quotas API,針對可調整的 SageMaker AI 服務配額驗證所有指定的類別和資源。確認每個類別和資源名稱都存在且可修改,並識別新限制低於目前值的請求。

  2. BranchOnValidCategoriesFound - 檢查是否找到任何有效的配額映射。如果存在有效的映射, 會繼續執行 ApproveQuotaCodeLimitMapping。否則, 會直接跳至 GenerateSummaryReport

  3. ApproveQuotaCodeLimitMapping - 準備詳細的核准訊息,其中顯示準備處理的有效請求、具有說明的無效請求 (例如低於目前值或不支援配額代碼的限制),以及核准前所有配額增加請求的完整明細。

  4. WaitingForApproval - 暫停自動化,並將核准通知傳送至指定的 Amazon SNS 主題。指定核准者必須檢閱ApproveQuotaCodeLimitMapping步驟輸出,並核准或拒絕請求。如果未採取任何動作,此步驟會在 3600 秒 (一小時) 後逾時。

  5. RequestQuotaIncreases - 透過 AWS Service Quotas API 提交每個有效資源的個別配額增加請求。請求會每秒調節一次,以防止 API 限流。使用指數重試處理 API 例外狀況。

  6. WaitForRequestQuotaIncreaseResults - 輪詢所有已提交配額增加請求的狀態,直到沒有任何配額保持在 PENDING 狀態為止。可接受的終端機狀態為 CASE_OPENEDAPPROVEDDENIEDCASE_CLOSEDNOT_APPROVEDINVALID_REQUEST

  7. GetRequestQuotaIncreaseResults - 從 AWS Service Quotas API 擷取所有已提交配額增加請求的最終狀態,並將支援案例 IDs 映射至其對應的資源和請求 IDs以進行報告。

  8. GenerateSummaryReport - 編譯所有增加配額請求及其結果的完整摘要,包括總請求計數、每個請求詳細資訊、需要手動檢閱之請求的支援案例 IDs,以及可行的後續步驟。

輸出

GenerateSummaryReport.SummaryReport - 所有增加配額請求、其狀態,以及為手動檢閱而建立之任何支援案例 IDs的完整摘要。