本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWSSupport-RequestSageMakerLimitIncrease
Description
AWSSupport-RequestSageMakerLimitIncrease Runbook 可在單一操作中大量提交多個 Amazon SageMaker AI (SageMaker AI) 配額增加請求,簡化大規模機器學習工作負載的配額管理。Runbook 會根據可調整的 SageMaker AI 服務配額驗證每個請求,在自動核准閾值內路由請求以進行立即處理,並為需要手動檢閱的請求建立 AWS 支援案例。配額增加會在執行 Runbook 的相同 AWS 區域中套用。
重要
此 Runbook 不支援特殊運算執行個體的配額增加請求P4, P5 和 Trainium 執行個體類型。對於這些執行個體類型,請透過 AWS Service Quotas 主控台或 AWS Support 提交個別配額增加請求。
Runbook 最多會暫停一小時,同時透過 Amazon Simple Notification Service (Amazon SNS) 通知等待指定委託人的核准。在核准之前,請仔細檢閱ApproveQuotaCodeLimitMapping步驟輸出,因為無法反轉已核准的配額增加。
文件類型
自動化
擁有者
Amazon
平台
Linux、macOS、 Windows
參數
-
AutomationAssumeRole
類型:AWS::IAM::Role::Arn
描述:(選用) 允許 (Systems Manager) Automation 代表您執行動作的 (IAM) 角色的 AWS Identity and Access Management Amazon Resource Name AWS Systems Manager (ARN)。如果未指定角色,Systems Manager Automation 會使用啟動此 Runbook 的使用者許可。
-
ResourcesMapping
類型:StringList
描述:(必要) 要增加的 SageMaker AI 服務配額,指定為冒號分隔值。支援三種格式:
-
Category:Resource:NewValue— 當類別和資源名稱都可用時。範例:spot-training-job:ml.c4.xlarge:25 -
Resource:NewValue— 當只有資源名稱可用時。範例:max_number_of_experiment_trial_associations:501 -
QuotaCode:NewValue— 使用直接配額代碼時。範例:L-9xAxx23x:25
您可以在相同的請求中混合格式,並以逗號分隔。最多 50 個項目。範例:
studio:CodeEditor-ml.r6id.large:787,spot-training-job:ml.c4.xlarge:34,L-99AEC235:2 -
-
SNSTopicArn
類型:字串
描述:(必要) 自動化執行期間用來傳送核准通知的 Amazon SNS 主題 ARN。
-
ApproverIAM
類型:StringList
描述:(必要) 可核准或拒絕配額增加請求的已 AWS 驗證委託人清單。最多 10 個核准者。可接受的格式:IAM 使用者名稱、IAM 使用者 ARN、IAM 角色 ARN 或 IAM 擔任角色使用者 ARN。
-
MinimumRequiredApprovals
類型:整數
有效值:1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10
預設:1
描述:(選用) 恢復自動化所需的核准數量下限。不能超過 中定義的核准者數目
ApproverIAM。
必要的 IAM 許可
AutomationAssumeRole 參數需要下列動作才能成功使用 Runbook。
-
servicequotas:ListServiceQuotas -
servicequotas:RequestServiceQuotaIncrease -
servicequotas:GetRequestedServiceQuotaChange -
sns:Publish -
ssm:SendAutomationSignal
文件步驟
-
VerifyCategoriesAndResources- 使用 AWS Service Quotas API,針對可調整的 SageMaker AI 服務配額驗證所有指定的類別和資源。確認每個類別和資源名稱都存在且可修改,並識別新限制低於目前值的請求。 -
BranchOnValidCategoriesFound- 檢查是否找到任何有效的配額映射。如果存在有效的映射, 會繼續執行ApproveQuotaCodeLimitMapping。否則, 會直接跳至GenerateSummaryReport。 -
ApproveQuotaCodeLimitMapping- 準備詳細的核准訊息,其中顯示準備處理的有效請求、具有說明的無效請求 (例如低於目前值或不支援配額代碼的限制),以及核准前所有配額增加請求的完整明細。 -
WaitingForApproval- 暫停自動化,並將核准通知傳送至指定的 Amazon SNS 主題。指定核准者必須檢閱ApproveQuotaCodeLimitMapping步驟輸出,並核准或拒絕請求。如果未採取任何動作,此步驟會在 3600 秒 (一小時) 後逾時。 -
RequestQuotaIncreases- 透過 AWS Service Quotas API 提交每個有效資源的個別配額增加請求。請求會每秒調節一次,以防止 API 限流。使用指數重試處理 API 例外狀況。 -
WaitForRequestQuotaIncreaseResults- 輪詢所有已提交配額增加請求的狀態,直到沒有任何配額保持在PENDING狀態為止。可接受的終端機狀態為CASE_OPENED、APPROVED、DENIED、CASE_CLOSED、NOT_APPROVED和INVALID_REQUEST。 -
GetRequestQuotaIncreaseResults- 從 AWS Service Quotas API 擷取所有已提交配額增加請求的最終狀態,並將支援案例 IDs 映射至其對應的資源和請求 IDs以進行報告。 -
GenerateSummaryReport- 編譯所有增加配額請求及其結果的完整摘要,包括總請求計數、每個請求詳細資訊、需要手動檢閱之請求的支援案例 IDs,以及可行的後續步驟。
輸出
GenerateSummaryReport.SummaryReport - 所有增加配額請求、其狀態,以及為手動檢閱而建立之任何支援案例 IDs的完整摘要。