Pré-requisitos de ajuste de escala automático

Antes de usar o auto scaling, você já deve ter criado um endpoint do modelo Amazon SageMaker AI. Você pode ter várias versões de modelo para o mesmo endpoint. Cada modelo é chamado de variante de produção (modelo). Para mais informações sobre como implantar um endpoint de modelo, consulte Implante o modelo nos serviços de hospedagem de SageMaker IA.

Para ativar o escalonamento automático para um modelo, você pode usar o console de SageMaker IA, o AWS Command Line Interface (AWS CLI) ou um AWS SDK por meio da API Application Auto Scaling.

Se essa for a primeira vez que você está configurando o ajuste de escala de um modelo, recomendamos Configurar a ajuste de escala automático do modelo com o console.
Ao usar a API Application Auto Scaling AWS CLI ou a Application Auto Scaling, o fluxo é registrar o modelo como um alvo escalável, definir a política de escalabilidade e aplicá-la. No console do SageMaker AI, em Inferência no painel de navegação, escolha Endpoints. Encontre o nome do endpoint do modelo e, em seguida, selecione-o para encontrar o nome da variante. Você deve especificar ambos, o nome do endpoint e o nome da variante para ativar o ajuste de escala automático para um modelo.

O escalonamento automático é possível graças a uma combinação das APIs Amazon SageMaker AI CloudWatch, Amazon e Application Auto Scaling. Para obter informações sobre as permissões mínimas necessárias, consulte Exemplos de políticas baseadas em identidade do Application Auto Scaling no Guia do Usuário do Application Auto Scaling.

A política do IAM SagemakerFullAccessPolicy tem todas as permissões necessárias do IAM para executar o ajuste de escala automático. Para obter mais informações sobre as permissões do SageMaker AI IAM, consulteComo usar funções de execução de SageMaker IA.

Se você estiver usando a sua própria política de permissão personalizada, deverá incluir as seguintes permissões:

Service-linked papel

O Auto Scaling usa a função vinculada ao serviço AWSServiceRoleForApplicationAutoScaling_SageMakerEndpoint. Essa função vinculada ao serviço concede permissão ao Application Auto Scaling para descrever os alarmes das suas políticas, monitorar os níveis da capacidade atual e escalar a capacidade alvo. Esta função é criada automaticamente para você. Para que a criação automática da função seja bem-sucedida, é preciso ter permissão para a ação iam:CreateServiceLinkedRole. Para obter mais informações, consulte as Service-linked funções no Guia do usuário do Application Auto Scaling.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Visão geral das políticas de ajuste de escala automático

Configurar a ajuste de escala automático do modelo com o console