# Interface do SageMaker
<a name="nova-model-sagemaker-inference"></a>

Os modelos personalizados do Amazon Nova agora estão disponíveis na inferência do SageMaker. Com o Amazon Nova no SageMaker, você pode começar a obter predições ou inferências dos modelos treinados personalizados do Amazon Nova. O SageMaker oferece uma ampla seleção de infraestrutura de machine learning e opções de implantação de modelos para ajudar a atender a todas as suas necessidades de inferência de ML. Com a inferência do SageMaker, você pode escalar a implantação de modelos, gerenciar os modelos em produção de forma mais eficaz e reduzir a carga operacional.

O SageMaker fornece várias opções de inferência, como endpoints em tempo real para obter inferência de baixa latência e endpoints assíncronos para lotes de solicitações. Ao utilizar a opção de inferência apropriada para o caso de uso, você pode garantir a eficiência da implantação e inferência do modelo. Para obter mais informações sobre a inferência do SageMaker, consulte [Implantar modelos para inferência](https://docs.aws.amazon.com//sagemaker/latest/dg/deploy-model.html).

**Importante**  
Somente modelos personalizados full-rank e modelos mesclados com LoRA são compatíveis com a inferência do SageMaker. Para modelos LoRA e modelos de base não mesclados, use o Amazon Bedrock.

## Recursos
<a name="nova-sagemaker-inference-features"></a>

Os seguintes recursos estão disponíveis para modelos do Amazon Nova na inferência do SageMaker:

**Recursos dos modelos**
+ Geração de texto

**Implantação e escalabilidade**
+ Endpoints em tempo real com seleção de instância personalizada
+ Ajuste de escala automático: ajuste automaticamente a capacidade com base nos padrões de tráfego para otimizar os custos e a utilização da GPU. Para obter mais informações, consulte [Ajuste de escala automático de modelos do Amazon SageMaker](https://docs.aws.amazon.com//sagemaker/latest/dg/endpoint-auto-scaling.html).
+ Suporte à API de streaming para geração de tokens em tempo real

**Monitoramento e otimização**
+ Integração do Amazon CloudWatch para monitoramento e alertas
+ Otimização de latência com reconhecimento de zonas de disponibilidade por meio da configuração de VPC

**ferramentas de desenvolvimento da**
+ Suporte da AWS CLI: para obter mais informações, consulte [Referência de comandos da AWS CLI para o SageMaker](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/).
+  Integração de cadernos via suporte do SDK

## Modelos e instâncias compatíveis
<a name="nova-sagemaker-inference-supported"></a>

Ao criar seus endpoints de inferência do SageMaker, você pode definir duas variáveis de ambiente para configurar sua implantação: `CONTEXT_LENGTH` e `MAX_CONCURRENCY`.
+ `CONTEXT_LENGTH`: tamanho máximo total do token (entrada \+ saída) por solicitação
+ `MAX_CONCURRENCY`: número máximo de solicitações simultâneas atendidas pelo endpoint

A tabela a seguir lista os modelos compatíveis do Amazon Nova, os tipos de instâncias e as configurações compatíveis. Os valores de MAX\_CONCURRENCY representam a simultaneidade máxima suportada para cada configuração CONTEXT\_LENGTH:


****  


- **Amazon Nova Micro**
  - **Tipo de instância:** ml.g5.12xlarge / **Configurações compatíveis:** CONTEXT\_LENGTH: 4000, MAX\_CONCURRENCY: 12<br />CONTEXT\_LENGTH: 8000, MAX\_CONCURRENCY: 6 / **Quantização FP8 necessária:** Não
  - **Tipo de instância:** ml.g5.24xlarge / **Configurações compatíveis:** CONTEXT\_LENGTH: 8000, MAX\_CONCURRENCY: 8 / **Quantização FP8 necessária:** Não
  - **Tipo de instância:** ml.g6e.xlarge / **Configurações compatíveis:** CONTEXT\_LENGTH: 8000, MAX\_CONCURRENCY: 2 / **Quantização FP8 necessária:** Não
  - **Tipo de instância:** ml.g6e.2xlarge / **Configurações compatíveis:** CONTEXT\_LENGTH: 8000, MAX\_CONCURRENCY: 2 / **Quantização FP8 necessária:** Não
  - **Tipo de instância:** ml.g6e.4xlarge / **Configurações compatíveis:** CONTEXT\_LENGTH: 8000, MAX\_CONCURRENCY: 4 / **Quantização FP8 necessária:** Não
  - **Tipo de instância:** ml.g6.12xlarge / **Configurações compatíveis:** CONTEXT\_LENGTH: 4000, MAX\_CONCURRENCY: 12<br />CONTEXT\_LENGTH: 8000, MAX\_CONCURRENCY: 6 / **Quantização FP8 necessária:** Não
  - **Tipo de instância:** ml.g6.24xlarge / **Configurações compatíveis:** CONTEXT\_LENGTH: 8000, MAX\_CONCURRENCY: 8 / **Quantização FP8 necessária:** Não
  - **Tipo de instância:** ml.g6.48xlarge / **Configurações compatíveis:** CONTEXT\_LENGTH: 8000, MAX\_CONCURRENCY: 12 / **Quantização FP8 necessária:** Não
  - **Tipo de instância:** ml.p5.48xlarge / **Configurações compatíveis:** CONTEXT\_LENGTH: 16000, MAX\_CONCURRENCY: 128<br />CONTEXT\_LENGTH: 64000, MAX\_CONCURRENCY: 32<br />CONTEXT\_LENGTH: 128000, MAX\_CONCURRENCY: 8 / **Quantização FP8 necessária:** Não

- **Amazon Nova Lite**
  - **Tipo de instância:** ml.g6.12xlarge / **Configurações compatíveis:** CONTEXT\_LENGTH: 8000, MAX\_CONCURRENCY: 2 / **Quantização FP8 necessária:** Sim — habilitado por padrão
  - **Tipo de instância:** ml.g6.24xlarge / **Configurações compatíveis:** CONTEXT\_LENGTH: 8000, MAX\_CONCURRENCY: 4 / **Quantização FP8 necessária:** Sim — habilitado por padrão
  - **Tipo de instância:** ml.g6.48xlarge / **Configurações compatíveis:** CONTEXT\_LENGTH: 4000, MAX\_CONCURRENCY: 16<br />CONTEXT\_LENGTH: 8000, MAX\_CONCURRENCY: 8 / **Quantização FP8 necessária:** Não
  - **Tipo de instância:** ml.p5.48xlarge / **Configurações compatíveis:** CONTEXT\_LENGTH: 16000, MAX\_CONCURRENCY: 128<br />CONTEXT\_LENGTH: 60000, MAX\_CONCURRENCY: 8 / **Quantização FP8 necessária:** Não

- **Nova 2 Lite**
  - **Tipo de instância:** ml.g6.48xlarge / **Configurações compatíveis:** CONTEXT\_LENGTH: 8000, MAX\_CONCURRENCY: 8 / **Quantização FP8 necessária:** Sim — habilitado por padrão
  - **Tipo de instância:** ml.p5.48xlarge / **Configurações compatíveis:** CONTEXT\_LENGTH: 16000, MAX\_CONCURRENCY: 128<br />CONTEXT\_LENGTH: 64000, MAX\_CONCURRENCY: 32<br />CONTEXT\_LENGTH: 128000, MAX\_CONCURRENCY: 8<br />CONTEXT\_LENGTH: 256000, MAX\_CONCURRENCY: 2 / **Quantização FP8 necessária:** Não


**nota**  
Para casos em que a quantização de FP8 é necessária, ela será ativada por padrão.  
Os valores de MAX\_CONCURRENCY mostrados são limites máximos para cada configuração CONTEXT\_LENGTH. Você pode usar tamanhos de contexto menores com a mesma simultaneidade, mas exceder esses valores fará com que a criação do endpoint do SageMaker falhe.  
Por exemplo, no Amazon Nova Micro com ml.g5.12xlarge:  
`CONTEXT_LENGTH=2000`, `MAX_CONCURRENCY=12` → Válido
`CONTEXT_LENGTH=8000`, `MAX_CONCURRENCY=12` → Rejeitado (o limite de simultaneidade é 6 no tamanho de contexto 8000)
`CONTEXT_LENGTH=8000`, `MAX_CONCURRENCY=4` → Válido
`CONTEXT_LENGTH=8000`, `MAX_CONCURRENCY=6` → Válido
`CONTEXT_LENGTH=10000` → Rejeitado (a extensão máxima do contexto é 8.000 nesta instância)

## Componentes de inferência
<a name="nova-sagemaker-inference-components"></a>

Você pode implantar os modelos do Amazon Nova usando os componentes de inferência do SageMaker, o que permite hospedar vários modelos em um único endpoint e otimizar a utilização de recursos. Os componentes de inferência permitem especificar os recursos computacionais (CPU, memória, GPU) necessários para cada modelo, o que possibilita a hospedagem eficiente de vários modelos na infraestrutura compartilhada.

A tabela a seguir lista os requisitos mínimos de recursos computacionais de cada modelo do Amazon Nova ao usar componentes de inferência:


****  

| Modelo | Mínimo de núcleos de GPU | Mínimo de memória (MB) | Contagem mínima de GPUs | 
| --- | --- | --- | --- | 
| Amazon Nova Micro | 15 | 25000 | 4 | 
| Amazon Nova Lite | 20 | 35.000 | 4 | 
| Nova 2 Lite | 20 | 100000 | 4 | 

**nota**  
Os valores de `ComputeResourceRequirements` devem atender ou exceder os requisitos mínimos listados na tabela acima para o modelo sendo implantado. Se valores abaixo dos mínimos forem usados, a criação dos componentes de inferência não terá sucesso.  
Você pode implantar vários componentes de inferência no mesmo endpoint, desde que o total dos requisitos de recursos não exceda a capacidade da instância.  
O número de componentes de inferência que podem ser hospedados em um único endpoint depende dos recursos disponíveis do tipo de instância e dos requisitos mínimos de cada modelo. Por exemplo, em uma `ml.p5.48xlarge` (8 GPUs, 192 vCPUs, \~1 TB de memória):  
1 componente de inferência do Amazon Nova Micro (4 GPUs, 15 núcleos de CPU, 25.000 MB) → Válido
2 componentes de inferência do Amazon Nova Micro (total de 8 GPUs, 30 núcleos de CPU, 50.000 MB) → Válido (fica dentro da capacidade da instância)
1 componente de inferência do Amazon Nova 2 Lite (4 GPUs, 20 núcleos de CPU, 100.000 MB) → Válido
2 componentes de inferência do Amazon Nova 2 Lite (total de 8 GPUs, 40 núcleos de CPU, 200.000 MB) → Válido
3 componentes de inferência do Amazon Nova Micro (total de 12 GPUs) → Rejeitado (acima das 8 GPUs disponíveis)

## Regiões do AWS compatíveis
<a name="nova-sagemaker-inference-regions"></a>

A tabela abaixo lista as regiões da AWS em que os modelos do Amazon Nova estão disponíveis na inferência do SageMaker:


****  

| Nome da Região | Código da região | Disponibilidade | 
| --- | --- | --- | 
| Leste dos EUA (Norte da Virgínia) | us-east-1 | Available (Disponível) | 
| Oeste dos EUA (Oregon) | us-west-2 | Available (Disponível) | 

## Imagens de contêineres compatíveis
<a name="nova-sagemaker-inference-container-images"></a>

A tabela a seguir lista os URIs de imagens de contêineres para modelos do Amazon Nova na inferência do SageMaker por região. A tag `SM-Inference-latest` aponta atualmente para `v1.4`.


****  

| Região | URIs das imagens de contêineres | 
| --- | --- | 
| us-east-1 | 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest | 
| us-west-2 | 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest | 

## Práticas recomendadas
<a name="nova-sagemaker-inference-best-practices"></a>

Para verificar as práticas recomendadas de implantação e gerenciamento de modelos no SageMaker, consulte [Práticas recomendadas do SageMaker](https://docs.aws.amazon.com//sagemaker/latest/dg/best-practices.html).

## Suporte
<a name="nova-sagemaker-inference-support"></a>

Para obter suporte e resolver problemas com os modelos do Amazon Nova na inferência do SageMaker, entre em contato com o AWS Support pelo console ou seu gerente de conta da AWS.

**Topics**
+ [Recursos](#nova-sagemaker-inference-features)
+ [Modelos e instâncias compatíveis](#nova-sagemaker-inference-supported)
+ [Componentes de inferência](#nova-sagemaker-inference-components)
+ [Regiões do AWS compatíveis](#nova-sagemaker-inference-regions)
+ [Imagens de contêineres compatíveis](#nova-sagemaker-inference-container-images)
+ [Práticas recomendadas](#nova-sagemaker-inference-best-practices)
+ [Suporte](#nova-sagemaker-inference-support)
+ [Conceitos básicos](nova-sagemaker-inference-getting-started.md)
+ [Atributos do contêiner de inferência](nova-sagemaker-inference-container-features.md)
+ [Referência da API](nova-sagemaker-inference-api-reference.md)
+ [Avaliar modelos hospedados na inferência do SageMaker](nova-eval-on-sagemaker-inference.md)
+ [Implantação de modelos do Amazon Nova Forge na detecção de abusos da Inferência do Amazon SageMaker](nova-sagemaker-inference-abuse-detection.md)