Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Domande frequenti sull'hosting modello
<a name="hosting-faqs"></a>

Consulta le seguenti domande frequenti per le risposte alle domande più frequenti sull' SageMaker AI Inference Hosting.

## Hosting generale
<a name="hosting-faqs-general"></a>

Le seguenti domande frequenti rispondono a domande generali comuni su SageMaker AI Inference.

### D: Quali opzioni di implementazione offre Amazon SageMaker AI?
<a name="hosting-faqs-general-1"></a>

R: Dopo aver creato e addestrato i modelli, Amazon SageMaker AI offre quattro opzioni per distribuirli in modo da poter iniziare a fare previsioni. Real-Time L'inferenza è adatta per carichi di lavoro con requisiti di latenza di millisecondi, dimensioni del payload fino a 25 MB e tempi di elaborazione fino a 60 secondi per risposte regolari e 8 minuti per risposte in streaming. La trasformazione batch è ideale per le previsioni offline su grandi batch di dati disponibili in anticipo. L’inferenza asincrona è progettata per i carichi di lavoro che non hanno requisiti di latenza inferiori al secondo, dimensioni di payload fino a 1 GB e tempi di elaborazione fino a 60 minuti. Con l’inferenza serverless puoi implementare rapidamente modelli di machine learning per l'inferenza senza dover configurare o gestire l'infrastruttura sottostante e paghi solo per la capacità di calcolo utilizzata per elaborare le richieste di inferenza, ideale per carichi di lavoro intermittenti.

### D: Come faccio a scegliere un'opzione di implementazione del modello nell'intelligenza artificiale? SageMaker
<a name="hosting-faqs-general-2"></a>

Se desideri elaborare le richieste in batch, potresti scegliere Trasformazione batch. Altrimenti, se desideri ricevere inferenze per ogni richiesta al tuo modello, potresti scegliere Asynchronous Inference, Serverless Inference o Inference. Real-Time Puoi scegliere Inferenza asincrona se hai tempi di elaborazione lunghi o carichi utili di grandi dimensioni e desideri mettere in coda le richieste. Puoi scegliere Inferenza serverless se il tuo carico di lavoro ha un traffico imprevedibile o intermittente. Puoi scegliere Real-Time Inference se hai un traffico sostenuto e hai bisogno di una latenza inferiore e costante per le tue richieste.

### D: Ho sentito che SageMaker AI Inference è costoso. Qual è il modo migliore per ottimizzare i costi quando eseguo l’hosting dei modelli?
<a name="hosting-faqs-general-3"></a>

R: Per ottimizzare i costi con SageMaker AI Inference, dovresti scegliere l'opzione di hosting giusta per il tuo caso d'uso. Puoi anche utilizzare funzionalità di inferenza come [Amazon SageMaker AI Savings Plans](https://aws.amazon.com/savingsplans/ml-pricing/), l'ottimizzazione dei modelli con [SageMaker Neo](https://docs.aws.amazon.com/sagemaker/latest/dg/neo.html), [Multi-Model Endpoints ed Multi-Container Endpoints](https://docs.aws.amazon.com/sagemaker/latest/dg/multi-model-endpoints.html) [o la scalabilità](https://docs.aws.amazon.com/sagemaker/latest/dg/multi-container-endpoints.html) automatica. Per suggerimenti su come ottimizzare i costi di inferenza, consulta [Best practice per l'ottimizzazione dei costi di inferenza](inference-cost-optimization.md).

### D: Perché dovrei usare Amazon SageMaker Inference Recommender?
<a name="hosting-faqs-general-4"></a>

R: Dovresti usare Amazon SageMaker Inference Recommender se hai bisogno di consigli per la corretta configurazione degli endpoint per migliorare le prestazioni e ridurre i costi. In precedenza, i data scientist che volevano distribuire i propri modelli dovevano eseguire benchmark manuali per selezionare la giusta configurazione endpoint. Innanzitutto, dovevano selezionare il tipo di istanza di machine learning giusto tra gli oltre 70 tipi di istanze disponibili in base ai requisiti della risorsa dei modelli e ai payload di esempio e quindi ottimizzare il modello per tenere conto dei diversi hardware. Successivamente, hanno dovuto condurre test di carico approfonditi per verificare che i requisiti di latenza e velocità di trasmissione effettiva fossero soddisfatti e che i costi fossero bassi. Suggeritore di inferenza elimina questa complessità aiutandoti a fare quanto segue: 
+ Inizia in pochi minuti con una raccomandazione di istanza.
+ Esegui test di carico su diversi tipi di istanze per ottenere consigli sulla configurazione endpoint nel giro di poche ore. 
+ Ottimizza automaticamente i parametri del container e del server modello ed esegui ottimizzazioni del modello per un determinato tipo di istanza.

### D: Cos'è un server modello?
<a name="hosting-faqs-general-5"></a>

R: Gli endpoint SageMaker AI sono endpoint HTTP REST che utilizzano un server Web containerizzato, che include un server modello. Questi container sono responsabili del caricamento e della gestione delle richieste per un modello di machine learning. Implementano un server Web che risponde a `/invocations` e `/ping` sulla porta 8080.

I server modello più comuni includono TensorFlow Serving TorchServe e Multi Model Server. SageMaker I container del framework AI hanno questi server modello integrati.

### D: Cos'è Bring Your Own Container with Amazon SageMaker AI?
<a name="hosting-faqs-general-6"></a>

R: Tutto in SageMaker AI Inference è containerizzato. SageMaker L'intelligenza artificiale fornisce contenitori gestiti per framework popolari come TensorFlow SkLearn e. HuggingFace Per un elenco completo e aggiornato di tali immagini, consulta [Immagini disponibili](https://github.com/aws/deep-learning-containers/blob/master/available_images.md).

 A volte esistono framework personalizzati per i quali potrebbe essere necessario creare un container. Questo approccio è noto come *Bring Your Own Container*, o *BYOC*. Con l’approccio BYOC, fornisci l’immagine Docker per configurare il tuo framework o la tua libreria, Quindi, invii l'immagine ad Amazon Elastic Container Registry (Amazon ECR) in modo da poterla utilizzare con l'intelligenza artificiale. SageMaker 

In alternativa, invece di creare un'immagine da zero, puoi estendere un container. Puoi prendere una delle immagini di base fornite dall' SageMaker intelligenza artificiale e aggiungere le tue dipendenze nel tuo Dockerfile.

### D: Devo addestrare i miei modelli sull' SageMaker intelligenza artificiale per ospitarli su SageMaker endpoint AI?
<a name="hosting-faqs-general-7"></a>

R: L' SageMaker intelligenza artificiale offre la capacità di utilizzare il tuo modello di framework addestrato che hai addestrato al di fuori dell' SageMaker IA e di implementarlo su una qualsiasi delle opzioni di hosting SageMaker AI.

SageMaker L'intelligenza artificiale richiede di impacchettare il modello in un `model.tar.gz` file e di disporre di una struttura di directory specifica. Ciascun framework ha la propria struttura di modello (per esempi di strutture, vedere la domanda seguente). [Per ulteriori informazioni, consultate la documentazione di SageMaker Python SDK per [PyTorch](https://sagemaker.readthedocs.io/en/stable/frameworks/pytorch/using_pytorch.html#bring-your-own-model)e [TensorFlow](https://sagemaker.readthedocs.io/en/stable/frameworks/tensorflow/deploying_tensorflow_serving.html#deploying-directly-from-model-artifacts)MXNet.](https://sagemaker.readthedocs.io/en/stable/frameworks/mxnet/using_mxnet.html#deploy-endpoints-from-model-data)

Sebbene sia possibile scegliere tra immagini di framework predefinite come TensorFlow MXNet e MXNet per ospitare il modello addestrato, è anche possibile creare un contenitore personalizzato per ospitare i modelli addestrati SageMaker su endpoint AI. PyTorch Per una procedura dettagliata, vedi l'esempio di notebook Jupyter [Creazione di un container di algoritmo personalizzato](https://github.com/aws/amazon-sagemaker-examples/blob/main/advanced_functionality/scikit_bring_your_own/scikit_bring_your_own.ipynb).

### D: Come devo strutturare il mio modello se voglio implementarlo sull' SageMaker intelligenza artificiale ma non addestrarlo sull'intelligenza artificiale? SageMaker
<a name="hosting-faqs-general-8"></a>

*R: L' SageMaker intelligenza artificiale richiede che gli artefatti del modello siano compressi in un `.tar.gz` file o in un archivio tar.* SageMaker L'IA estrae automaticamente questo `.tar.gz` file nella directory del `/opt/ml/model/` contenitore. Il tarball non deve contenere collegamenti simbolici o symlink non necessari. Se si utilizza uno dei contenitori del framework, ad esempio, o MXNet TensorFlow PyTorch, il contenitore prevede che la struttura TAR sia la seguente: 

**TensorFlow**

```
model.tar.gz/
             |--[model_version_number]/
                                       |--variables
                                       |--saved_model.pb
            code/
                |--inference.py
                |--requirements.txt
```

**PyTorch**

```
model.tar.gz/
             |- model.pth
             |- code/
                     |- inference.py
                     |- requirements.txt  # only for versions 1.3.1 and higher
```

**MXNet**

```
model.tar.gz/
            |- model-symbol.json
            |- model-shapes.json
            |- model-0000.params
            |- code/
                    |- inference.py
                    |- requirements.txt # only for versions 1.6.0 and higher
```

### `D: Quando richiamo un endpoint SageMaker AI, posso fornire un ContentTypetipo MIME and Accept.` Quale viene utilizzato per identificare il tipo di dati inviati e ricevuti?
<a name="hosting-faqs-general-10"></a>

R: `ContentType` è il tipo MIME dei dati di input nel corpo della richiesta (il tipo MIME dei dati che stai inviando all'endpoint). Il server del modello utilizza il `ContentType` per determinare se è in grado di gestire il tipo fornito o meno.

`Accept` è il tipo MIME della risposta di inferenza (il tipo MIME dei dati restituiti dall'endpoint). Il server del modello utilizza il tipo `Accept` per determinare se è in grado di gestire e restituire il tipo fornito o meno.

I tipi MIME più comuni includono `text/csv`, `application/json` e `application/jsonlines`.

### D: Quali sono i formati di dati supportati per SageMaker AI Inference?
<a name="hosting-faqs-general-12"></a>

R: SageMaker L'IA trasmette qualsiasi richiesta al contenitore del modello senza modifiche. Il container deve contenere la logica per deserializzare la richiesta. Per informazioni sui formati definiti per gli algoritmi integrati, consulta [ Common Data Formats for Inference](https://docs.aws.amazon.com/sagemaker/latest/dg/cdf-inference.html). Se stai creando il tuo contenitore o utilizzando un contenitore SageMaker AI Framework, puoi includere la logica per accettare un formato di richiesta a tua scelta.

Allo stesso modo, anche l' SageMaker IA restituisce la risposta senza modifiche e quindi il client deve deserializzare la risposta. Nel caso degli algoritmi integrati, essi restituiscono risposte in formati specifici. Se stai creando il tuo contenitore o utilizzando un contenitore SageMaker AI Framework, puoi includere la logica per restituire una risposta nel formato che scegli.

### D: Come posso richiamare il mio endpoint con dati binari come video o immagini?
<a name="hosting-faqs-general-11"></a>

Usa la chiamata all'API [Richiama endpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html) per creare inferenze sul tuo endpoint.

Quando passi l'input come payload all'API `InvokeEndpoint`, devi specificare il tipo corretto di dati di input previsto dal tuo modello. Quando trasmetti un payload nella chiamata API `InvokeEndpoint`, i byte della richiesta vengono inoltrati direttamente al container del modello. Ad esempio, per un'immagine, puoi utilizzare `application/jpeg` per `ContentType` e assicurarti che il tuo modello possa eseguire inferenze su questo tipo di dati. Questo vale per JSON, CSV, video o qualsiasi altro tipo di input con cui potresti avere a che fare.

Un altro fattore da considerare sono i limiti delle dimensioni payload. I limiti di payload sono 25 MB per gli endpoint in tempo reale e 4 MB per gli endpoint serverless. È possibile dividere il video in più fotogrammi e richiamare l'endpoint con ogni fotogramma singolarmente. In alternativa, se il tuo caso d'uso lo consente, puoi inviare l'intero video nel payload utilizzando un endpoint asincrono, che supporta payload fino a 1 GB.

Per un esempio che mostra come eseguire l'inferenza della visione artificiale su video di grandi dimensioni con l'inferenza asincrona, consulta questo [post del blog.](https://aws.amazon.com/blogs/machine-learning/run-computer-vision-inference-on-large-videos-with-amazon-sagemaker-asynchronous-endpoints/)

## Real-Time Inferenza
<a name="hosting-faqs-real-time"></a>

Le seguenti domande frequenti rispondono a domande comuni sull' Real-Time inferenza SageMaker AI.

### D: Come posso creare un endpoint SageMaker AI?
<a name="hosting-faqs-real-time-1"></a>

R: Puoi creare un endpoint SageMaker AI tramite strumenti AWS supportati come gli SDK AWS , l'SDK SageMaker Python, e il. Console di gestione AWS AWS CloudFormation AWS Cloud Development Kit (AWS CDK)

Esistono tre entità chiave nella creazione di endpoint: un modello SageMaker AI, una configurazione di endpoint AI e un endpoint SageMaker AI. SageMaker Il modello di SageMaker intelligenza artificiale punta verso i dati e l'immagine del modello che stai utilizzando. La configurazione dell'endpoint definisce le varianti di produzione, che possono includere il tipo di istanza e il conteggio istanze. Puoi quindi utilizzare la chiamata API [create\_endpoint](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker.html#SageMaker.Client.create_endpoint) o la chiamata [.deploy ()](https://sagemaker.readthedocs.io/en/stable/api/inference/model.html) per l' SageMaker intelligenza artificiale per creare un endpoint utilizzando i metadati del modello e della configurazione dell'endpoint.

### D: Devo usare SageMaker Python SDK per gli endpoint? create/invoke
<a name="hosting-faqs-real-time-2"></a>

R: No, puoi usare i vari AWS SDK (vedi [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html#API_runtime_InvokeEndpoint_SeeAlso](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html#API_runtime_InvokeEndpoint_SeeAlso) for available SDK) o persino chiamare direttamente le API web corrispondenti.

### D: Qual è la differenza tra Multi-Model Endpoints (MME) e Multi Model Server (MMS)?
<a name="hosting-faqs-real-time-3"></a>

R: Un Multi-Model endpoint è un'opzione di Real-Time inferenza fornita dall'IA. SageMaker Con Multi-Model Endpoints, puoi ospitare migliaia di modelli dietro un unico endpoint. Il [server multi-modello](https://github.com/awslabs/multi-model-server) è un framework open source per servire modelli di machine learning. Fornisce le funzionalità di front-end HTTP e gestione del modello richieste dagli endpoint multi-modello per ospitare più modelli all'interno di un singolo container, caricare modelli e scaricare modelli dal container in modo dinamico ed eseguire l'inferenza su un modello caricato specifico.

### D: Quali sono le diverse architetture di implementazione dei modelli supportate da Inference? Real-Time
<a name="hosting-faqs-real-time-4"></a>

R: SageMaker AI Real-Time Inference supporta varie architetture di implementazione di modelli come Multi-Model Endpoints, Multi-Container Endpoints e Serial Inference Pipelines. 

[Multi-Model Endpoints (MME)](https://docs.aws.amazon.com/sagemaker/latest/dg/multi-model-endpoints.html): MME consente ai clienti di implementare migliaia di modelli iperpersonalizzati in modo conveniente. Tutti i modelli sono distribuiti su un parco istanze di risorse condivise. MME funziona al meglio quando i modelli hanno dimensioni e latenza simili e appartengono allo stesso framework ML. Questi endpoint sono ideali quando non è necessario richiamare sempre lo stesso modello. Puoi caricare dinamicamente i rispettivi modelli sull'endpoint AI per soddisfare la tua richiesta. SageMaker 

[Multi-ContainerEndpoints (MCE)](https://docs.aws.amazon.com/sagemaker/latest/dg/multi-container-endpoints.html): MCE consente ai clienti di implementare 15 contenitori diversi con diversi framework e funzionalità ML senza partenze a freddo, utilizzando un solo endpoint. SageMaker È possibile richiamare direttamente questi container. MCE è la soluzione ideale quando si desidera conservare tutti i modelli in memoria.

[Pipeline di inferenza seriali (SIP)](https://docs.aws.amazon.com/sagemaker/latest/dg/inference-pipelines.html): è possibile utilizzare SIP per concatenare 2‐15 container su un singolo endpoint. SIP è adatto soprattutto per combinare la preelaborazione e l'inferenza dei modelli in un unico endpoint e per operazioni a bassa latenza.

## Inferenza serverless
<a name="hosting-faqs-serverless"></a>

Le seguenti domande frequenti rispondono a domande comuni su Amazon SageMaker Serverless Inference.

### D: Cos'è Amazon SageMaker Serverless Inference?
<a name="hosting-faqs-serverless-1"></a>

R: [Implementa modelli con Amazon SageMaker Serverless Inference](serverless-endpoints.md) è un'opzione di servizio di modelli serverless creata appositamente per semplificare la distribuzione e la scalabilità dei modelli ML. Gli endpoint di inferenza serverless avviano automaticamente le risorse di calcolo e le ridimensionano in base al traffico, eliminando la necessità di scegliere il tipo di istanza, eseguire la capacità di allocazione o gestire il dimensionamento. È inoltre possibile specificare i requisiti di memoria per l'endpoint serverless. Paghi solo per la durata dell'esecuzione del codice di inferenza e per la quantità di dati elaborati, non per i periodi di inattività.

### D: Qual è il vantaggio di utilizzare Inferenza serverless?
<a name="hosting-faqs-serverless-2"></a>

R: Inferenza serverless semplifica l'esperienza degli sviluppatori eliminando la necessità di fornire capacità in anticipo e gestire le policy di dimensionamento. Inferenza senza serverless può dimensionare istantaneamente da decine a migliaia di inferenze in pochi secondi in base ai modelli di utilizzo, il che la rende ideale per le applicazioni ML con traffico intermittente o imprevedibile. Ad esempio, un servizio di chatbot utilizzato da un'azienda di elaborazione delle buste paga registra un aumento delle richieste alla fine del mese, mentre il traffico è intermittente per il resto del mese. Il provisioning delle istanze per l'intero mese in questi scenari non è conveniente, in quanto si finisce per pagare per i periodi di inattività.

Inferenza serverless aiuta a risolvere questi tipi di casi d'uso fornendo una scalabilità automatica e rapida pronta all'uso senza la necessità di prevedere il traffico in anticipo o gestire le policy di dimensionamento. Inoltre, paghi solo per il tempo di calcolo necessario per eseguire il codice di inferenza e per l'elaborazione di dati, il che lo rende ideale per carichi di lavoro con traffico intermittente.

### D: Come faccio a scegliere le dimensioni memoria giuste per il mio endpoint serverless?
<a name="hosting-faqs-serverless-3"></a>

R: L'endpoint serverless ha una dimensione RAM minima di 1024 MB (1 GB) e la dimensione RAM massima che puoi scegliere è di 6144 MB (6 GB). Le dimensioni memoria che puoi scegliere sono 1024 MB, 2048 MB, 3072 MB, 4096 MB, 5120 MB o 6144 MB. Inferenza Serverless assegna automaticamente le risorse di calcolo in modo proporzionale alla memoria selezionata. Se scegli una dimensione di memoria maggiore, il container ha accesso a più vCPU.

Scegli la dimensione della memoria dell'endpoint in base alle dimensioni del modello. In genere, la dimensione della memoria deve essere almeno pari a quella del modello. Potrebbe essere necessario eseguire dei benchmark per scegliere la giusta selezione di memoria per il modello in base agli SLA di latenza. Gli incrementi delle dimensioni della memoria hanno prezzi diversi; consulta la [pagina SageMaker dei prezzi di Amazon](https://aws.amazon.com/sagemaker/pricing/) per ulteriori informazioni.

## Batch Transform
<a name="hosting-faqs-batch"></a>

Le seguenti domande frequenti rispondono a domande comuni su SageMaker AI Batch Transform.

### D: In che modo Batch Transform divide i miei dati?
<a name="hosting-faqs-batch-1"></a>

R: Per formati di file specifici come CSV, RecOrdio e TFRecord SageMaker , AI può suddividere i dati in mini batch a record singolo o multirecord e inviarli come payload al contenitore del modello. Quando il valore di `[BatchStrategy](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTransformJob.html#sagemaker-CreateTransformJob-request-BatchStrategy)` è`MultiRecord`, SageMaker AI invia il numero massimo di record in ogni richiesta, fino al limite. `MaxPayloadInMB` Quando il valore di `BatchStrategy` è`SingleRecord`, SageMaker AI invia record individuali in ogni richiesta.

### D: Qual è il timeout massimo per la trasformazione batch e il limite di payload per un singolo record?
<a name="hosting-faqs-batch-2"></a>

R: Il timeout massimo per la trasformazione batch è di 3600 secondi. Le [dimensioni massime del payload](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTransformJob.html#sagemaker-CreateTransformJob-request-MaxPayloadInMB) per un record (per mini batch) sono pari a 100 MB.

### D: Come posso velocizzare un processo di trasformazione di batch?
<a name="hosting-faqs-batch-3"></a>

R: Se usi l'API `[CreateTransformJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTransformJob.html)`, puoi ridurre il tempo necessario per completare i processi di trasformazione di batch utilizzando valori differenti per parametri come `[MaxPayloadInMB](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTransformJob.html#SageMaker-CreateTransformJob-request-MaxPayloadInMB)`, `[MaxConcurrentTransforms](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTransformJob.html#SageMaker-CreateTransformJob-request-MaxConcurrentTransforms)` o `[BatchStrategy](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTransformJob.html#SageMaker-CreateTransformJob-request-BatchStrategy)`. Il valore ideale per `MaxConcurrentTransforms` è pari al numero di processi di calcolo nel processo di trasformazione di batch. Se utilizzi la console SageMaker AI, puoi specificare questi valori ottimali dei parametri nella sezione **Configurazione aggiuntiva della pagina di configurazione** del **processo di trasformazione in Batch**. SageMaker L'IA trova automaticamente le impostazioni ottimali dei parametri per gli algoritmi integrati. Per gli algoritmi personalizzati, è necessario fornire questi valori tramite un endpoint [execution-parameters](https://docs.aws.amazon.com/sagemaker/latest/dg/your-algorithms-batch-code.html#your-algorithms-batch-code-how-containe-serves-requests).

### D: Quali sono i formati dei dati supportati nativamente nella trasformazione batch?
<a name="hosting-faqs-batch-4"></a>

R: La trasformazione batch supporta file CSV e JSON.

## Inferenza asincrona
<a name="hosting-faqs-async"></a>

Le seguenti domande frequenti rispondono a domande generali comuni sull' SageMaker inferenza asincrona dell'IA.

### D: Cos'è Amazon SageMaker Asynchronous Inference?
<a name="hosting-faqs-async-1"></a>

R: L’inferenza asincrona mette in coda le richieste in entrata e le elabora in modo asincrono. Questa opzione è ideale per le richieste con dimensioni payload elevate o tempi di elaborazione lunghi che devono essere elaborate non appena arrivano. Facoltativamente, è possibile configurare le impostazioni di dimensionamento automatico per ridurre il conteggio istanze a zero quando non si elaborano attivamente le richieste. 

### D: Come faccio a dimensionare i miei endpoint a 0 quando non c'è traffico?
<a name="hosting-faqs-async-2"></a>

R: Amazon SageMaker AI supporta il ridimensionamento automatico (autoscaling) del tuo endpoint asincrono. Auto Scaling modifica dinamicamente il numero di istanze assegnate a un modello in risposta alle variazioni nel carico di lavoro. A differenza di altri modelli ospitati supportati dall' SageMaker IA, con Asynchronous Inference puoi anche ridurre a zero le istanze asincrone degli endpoint. Le richieste ricevute quando non ci sono istanze vengono messe in coda per l'elaborazione una volta che l'endpoint è stato dimensionato. Per ulteriori informazioni, consulta [Autoscale an asynchronous endpoint](https://docs.aws.amazon.com/sagemaker/latest/dg/async-inference-autoscale.html).

Amazon SageMaker Serverless Inference inoltre si ridimensiona automaticamente fino a zero. Non lo noterai perché l' SageMaker intelligenza artificiale gestisce la scalabilità degli endpoint serverless, ma se non riscontri alcun traffico, si applica la stessa infrastruttura.