

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Opzioni di inferenza in Amazon SageMaker AI
<a name="deploy-model-options"></a>

SageMaker L'intelligenza artificiale offre diverse opzioni di inferenza in modo che tu possa scegliere l'opzione più adatta al tuo carico di lavoro:
+ [Real-Time Inferenza](https://docs.aws.amazon.com/sagemaker/latest/dg/realtime-endpoints.html): *Real-timel'inferenza* è ideale per le inferenze online che hanno requisiti di bassa latenza o velocità effettiva elevata. Utilizza l'inferenza in tempo reale per un endpoint persistente e completamente gestito (API REST) in grado di gestire un traffico sostenuto, supportato dal tipo di istanza che preferisci. Real-time l'inferenza può supportare payload di dimensioni fino a 25 MB e tempi di elaborazione di 60 secondi per le risposte regolari e di 8 minuti per le risposte in streaming.
+ Inferenza [senza server: l'inferenza](https://docs.aws.amazon.com/sagemaker/latest/dg/serverless-endpoints.html) *serverless è ideale in presenza di schemi* di traffico intermittenti o imprevedibili. SageMaker L'intelligenza artificiale gestisce tutta l'infrastruttura sottostante, quindi non è necessario gestire istanze o politiche di scalabilità. Verrà effettuato l'addebito solo per l'uso effettivo e non per il tempo di inattività. Può supportare payload di dimensioni fino a 4 MB e tempi di elaborazione fino a 60 secondi.
+ [Trasformazione in batch](https://docs.aws.amazon.com/sagemaker/latest/dg/batch-transform.html): la *trasformazione in batch* è adatta per l'elaborazione offline quando sono disponibili in anticipo grandi quantità di dati e non è necessario un endpoint persistente. Inoltre puoi utilizzare la trasformazione in batch per la pre-elaborazione dei set di dati. Può supportare set di dati di grandi dimensioni di GB e tempi di elaborazione di giorni.
+ [Inferenza asincrona](https://docs.aws.amazon.com/sagemaker/latest/dg/async-inference.html): *l'inferenza asincrona* è ideale quando si desidera mettere in coda le richieste e disporre di payload di grandi dimensioni con tempi di elaborazione lunghi. L'inferenza asincrona può supportare payload fino a 1 GB e tempi di elaborazione lunghi fino a un'ora. Inoltre puoi ridimensionare l'endpoint a 0 quando non ci sono richieste da elaborare.