As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Pré-requisitos de ajuste de escala automático
Antes de usar o auto scaling, você já deve ter criado um endpoint do modelo Amazon SageMaker AI. Você pode ter várias versões de modelo para o mesmo endpoint. Cada modelo é chamado de variante de produção (modelo). Para mais informações sobre como implantar um endpoint de modelo, consulte Implemente o modelo nos serviços de hospedagem de SageMaker IA.
Para ativar o escalonamento automático para um modelo, você pode usar o console de SageMaker IA, o AWS Command Line Interface (AWS CLI) ou um AWS SDK por meio da API Application Auto Scaling.
-
Se essa for a primeira vez que você está configurando o ajuste de escala de um modelo, recomendamos Configurar a ajuste de escala automático do modelo com o console.
-
Ao usar a API Application Auto Scaling AWS CLI ou a Application Auto Scaling, o fluxo é registrar o modelo como um alvo escalável, definir a política de escalabilidade e aplicá-la. No console do SageMaker AI, em Inferência no painel de navegação, escolha Endpoints. Encontre o nome do endpoint do modelo e, em seguida, selecione-o para encontrar o nome da variante. Você deve especificar ambos, o nome do endpoint e o nome da variante para ativar o ajuste de escala automático para um modelo.
O escalonamento automático é possível graças a uma combinação das APIs Amazon SageMaker AI CloudWatch, Amazon e Application Auto Scaling. Para obter informações sobre as permissões mínimas necessárias, consulte Exemplos de políticas baseadas em identidade do Application Auto Scaling no Guia do Usuário do Application Auto Scaling.
A política do IAM SagemakerFullAccessPolicy tem todas as permissões necessárias do IAM para executar o ajuste de escala automático. Para obter mais informações sobre as permissões do SageMaker AI IAM, consulteComo usar funções de execução de SageMaker IA.
Se você estiver usando a sua própria política de permissão personalizada, deverá incluir as seguintes permissões:
Service-linked papel
O Auto Scaling usa a função vinculada ao serviço AWSServiceRoleForApplicationAutoScaling_SageMakerEndpoint. Essa função vinculada ao serviço concede permissão ao Application Auto Scaling para descrever os alarmes das suas políticas, monitorar os níveis da capacidade atual e escalar a capacidade alvo. Esta função é criada automaticamente para você. Para que a criação automática da função seja bem-sucedida, é preciso ter permissão para a ação iam:CreateServiceLinkedRole. Para obter mais informações, consulte as Service-linked funções no Guia do usuário do Application Auto Scaling.