

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Test del caricamento della configurazione di scalabilità automatica
<a name="endpoint-scaling-loadtest"></a>

Esegui test di carico per scegliere una configurazione di dimensionamento che funzioni come desideri.

Le seguenti linee guida per i test di carico presumono che tu stia utilizzando una policy di dimensionamento che utilizzi la metrica di destinazione predefinita `SageMakerVariantInvocationsPerInstance`.

**Topics**
+ [Determinazione delle caratteristiche delle prestazioni](#endpoint-scaling-loadtest-variant)
+ [Calcolo del carico di destinazione](#endpoint-scaling-loadtest-calc)

## Determinazione delle caratteristiche delle prestazioni
<a name="endpoint-scaling-loadtest-variant"></a>

Esegui il test di carico per trovare il picco `InvocationsPerInstance` che la tua variante di produzione del modello è in grado di gestire e la latenza delle richieste, mentre aumenta la concorrenza.

Questo valore dipende dal tipo di istanza scelto, dai payload che i client inviati in genere dai client del modello e dalle prestazioni di eventuali dipendenze esterne del modello.

**Per individuare le richieste di picco al secondo (RPS) che la variante di produzione del modello è in grado di gestire e la latenza delle richieste**

1. Configura un endpoint con il modello utilizzando una singola istanza. Per informazioni su come configurare un endpoint, consulta [Implementa il modello su AI Hosting Services SageMaker](ex1-model-deployment.md#ex1-deploy-model).

1. Utilizza un test di carico per generare un numero sempre maggiore di richieste parallele e monitorare le richieste al secondo (RPS) e la latenza del modello nell'output dello strumento di test di carico. 
**Nota**  
Puoi anche monitorare le richieste al minuto invece di RPS. In questo caso non moltiplicare per 60 nell'equazione per calcolare `SageMakerVariantInvocationsPerInstance` come riportato di seguito.

   Quando la latenza del modello aumenta o la percentuale di transazioni di successo diminuisce, questo è il livello di RPS massimo che il modello è in grado di gestire.

## Calcolo del carico di destinazione
<a name="endpoint-scaling-loadtest-calc"></a>

Dopo aver trovato le caratteristiche di prestazioni della variante, puoi determinare il livello massimo di RPS che dobbiamo consentire venga inviato a un'istanza. La soglia utilizzata per il dimensionamento deve essere inferiore a questo valore massimo. Utilizza la seguente equazione in combinazione con un test di carico per determinare il valore corretto per la metrica di destinazione `SageMakerVariantInvocationsPerInstance` nella tua configurazione di dimensionamento.

```
SageMakerVariantInvocationsPerInstance = (MAX_RPS * SAFETY_FACTOR) * 60
```

Dove `MAX_RPS` è il numero massimo di RPS che hai stabilito in precedenza e `SAFETY_FACTOR` è il fattore di sicurezza scelto per assicurare che i tuoi client non superino il livello massimo di RPS. Moltiplica per 60 per convertire da RPS a chiamate al minuto in modo da corrispondere alla metrica al minuto SageMaker utilizzata dall'IA per implementare la scalabilità automatica (non è necessario farlo se hai misurato le richieste al minuto anziché le richieste al CloudWatch secondo).

**Nota**  
SageMaker L'intelligenza artificiale consiglia `SAFETY_FACTOR` di iniziare i test con un valore di 0,5. Verifica la tua configurazione di dimensionamento per garantire che funzioni nel modo previsto con il tuo modello, sia per aumentare sia per ridurre orizzontalmente il traffico dei clienti sull’endpoint.