Come funziona Casi d’uso Prezzi Regioni supportate

Raccomandazioni di inferenza AI generativa ottimizzate

Amazon SageMaker AI ora supporta i consigli di inferenza, una funzionalità che elimina l'ottimizzazione manuale e il benchmarking per offrire prestazioni di inferenza ottimali. Invece di testare manualmente combinazioni di tipi di istanze GPU, contenitori di server, strategie di parallelismo e tecniche di ottimizzazione, fornisci i requisiti del modello e del carico di lavoro e l' SageMaker IA restituisce configurazioni convalidate e pronte per l'implementazione con metriche prestazionali reali.

Le raccomandazioni sull'inferenza analizzano l'architettura del modello, restringono lo spazio di configurazione e applicano ottimizzazioni in linea con gli obiettivi, come la decodifica speculativa per il throughput e l'ottimizzazione del kernel per la latenza. Valutando più tipi di istanze, puoi selezionare l'opzione con il miglior rapporto prezzo/prestazioni per il tuo carico di lavoro. Esegue il benchmark di ogni configurazione su un'infrastruttura GPU reale, in modo da poter implementare con sicurezza e dimensionare correttamente la spesa per l'inferenza.

Come funziona

Iniziare con i consigli di inferenza è semplice, tramite AI Studio o le API AI. SageMaker SageMaker I passaggi seguenti descrivono il flusso di lavoro.

Prepara il tuo modello. Fai riferimento agli artefatti del modello in Amazon S3 o nell'AI SageMaker Model Registry. I consigli di inferenza supportano il formato HuggingFace checkpoint con SafeTensor pesi, inclusi modelli base e modelli personalizzati o ottimizzati.
Definisci il tuo carico di lavoro. Descrivi i modelli di traffico previsti, comprese le distribuzioni di token di input e output e i livelli di concorrenza. Puoi utilizzare specifiche in linea o un set di dati rappresentativo di Amazon S3.
Stabilisci il tuo obiettivo. Scegli un unico obiettivo prestazionale: ottimizzazione dei costi, riduzione al minimo della latenza o massimizzazione del throughput. Seleziona fino a tre tipi di istanze da confrontare.
Esamina i risultati. SageMaker L'intelligenza artificiale restituisce configurazioni convalidate con metriche prestazionali reali: Time to First Token (TTFT), latenza tra token, latenza delle richieste, throughput e costo per configurazione. P50/P90/P99 Ogni configurazione è pronta per l'implementazione.
Implementazione. Implementa la configurazione scelta su un endpoint di inferenza SageMaker AI con una singola azione da SageMaker AI Studio o programmaticamente tramite l'API.

Puoi anche confrontare gli endpoint di produzione esistenti per convalidare le prestazioni attuali o confrontarle con nuove configurazioni.

Casi d’uso

Di seguito sono riportati casi d'uso comuni per i consigli di inferenza.

Pre-deployment convalida. Ottimizza e confronta un nuovo modello prima di impegnarti in un'implementazione di produzione. Verifica le prestazioni del modello prima di investire nella sua scalabilità.
Test di regressione dopo gli aggiornamenti. Convalida le prestazioni dopo un aggiornamento del contenitore, un aggiornamento del framework o il rilascio della libreria in corso. Verifica che la configurazione sia ancora ottimale prima di passare alla produzione.
Right-sizing quando le condizioni cambiano. Quando i modelli di traffico cambiano o diventano disponibili nuovi tipi di istanze, esegui nuovamente i consigli di inferenza in poche ore anziché riavviare un processo manuale di settimane.
Confronto tra modelli. Confronta le prestazioni e il costo delle diverse varianti di modello tra i diversi tipi di istanza per effettuare una selezione informata prima dell'implementazione in produzione.
Ottimizzazione dei costi. Effettua un benchmark degli endpoint di produzione esistenti per identificare l'infrastruttura con un approvvigionamento eccessivo. Usa i risultati per ridimensionare correttamente e ridurre le spese di inferenza ricorrenti.

Prezzi

I consigli di inferenza non hanno costi di servizio aggiuntivi. È possibile utilizzare le prenotazioni ML esistenti (piani di formazione flessibili) senza costi di elaborazione aggiuntivi oppure utilizzare l'elaborazione su richiesta che viene fornita automaticamente.

Regioni supportate

I consigli di inferenza sono disponibili nelle seguenti regioni: AWS

Stati Uniti orientali (Virginia settentrionale)
Stati Uniti orientali (Ohio)
Stati Uniti occidentali (Oregon)
Asia Pacifico (Singapore)
Asia Pacifico (Tokyo)
Europa (Francoforte)
Europa (Irlanda)

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Ottimizzazione dell’inferenza

Configura la configurazione del carico di lavoro