Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Raccomandazioni di inferenza AI generativa ottimizzate
Amazon SageMaker AI ora supporta i consigli di inferenza, una funzionalità che elimina l'ottimizzazione manuale e il benchmarking per offrire prestazioni di inferenza ottimali. Invece di testare manualmente combinazioni di tipi di istanze GPU, contenitori di server, strategie di parallelismo e tecniche di ottimizzazione, fornisci i requisiti del modello e del carico di lavoro e l' SageMaker IA restituisce configurazioni convalidate e pronte per l'implementazione con metriche prestazionali reali.
Le raccomandazioni sull'inferenza analizzano l'architettura del modello, restringono lo spazio di configurazione e applicano ottimizzazioni in linea con gli obiettivi, come la decodifica speculativa per il throughput e l'ottimizzazione del kernel per la latenza. Valutando più tipi di istanze, puoi selezionare l'opzione con il miglior rapporto prezzo/prestazioni per il tuo carico di lavoro. Esegue il benchmark di ogni configurazione su un'infrastruttura GPU reale, in modo da poter implementare con sicurezza e dimensionare correttamente la spesa per l'inferenza.
Come funziona
Iniziare con i consigli di inferenza è semplice, tramite AI Studio o le API AI. SageMaker SageMaker I passaggi seguenti descrivono il flusso di lavoro.
-
Prepara il tuo modello. Fai riferimento agli artefatti del modello in Amazon S3 o nell'AI SageMaker Model Registry. I consigli di inferenza supportano il formato HuggingFace checkpoint con SafeTensor pesi, inclusi modelli base e modelli personalizzati o ottimizzati.
-
Definisci il tuo carico di lavoro. Descrivi i modelli di traffico previsti, comprese le distribuzioni di token di input e output e i livelli di concorrenza. Puoi utilizzare specifiche in linea o un set di dati rappresentativo di Amazon S3.
-
Stabilisci il tuo obiettivo. Scegli un unico obiettivo prestazionale: ottimizzazione dei costi, riduzione al minimo della latenza o massimizzazione del throughput. Seleziona fino a tre tipi di istanze da confrontare.
-
Esamina i risultati. SageMaker L'intelligenza artificiale restituisce configurazioni convalidate con metriche prestazionali reali: Time to First Token (TTFT), latenza tra token, latenza delle richieste, throughput e costo per configurazione. P50/P90/P99 Ogni configurazione è pronta per l'implementazione.
-
Implementazione. Implementa la configurazione scelta su un endpoint di inferenza SageMaker AI con una singola azione da SageMaker AI Studio o programmaticamente tramite l'API.
Puoi anche confrontare gli endpoint di produzione esistenti per convalidare le prestazioni attuali o confrontarle con nuove configurazioni.
Casi d’uso
Di seguito sono riportati casi d'uso comuni per i consigli di inferenza.
-
Pre-deployment convalida. Ottimizza e confronta un nuovo modello prima di impegnarti in un'implementazione di produzione. Verifica le prestazioni del modello prima di investire nella sua scalabilità.
-
Test di regressione dopo gli aggiornamenti. Convalida le prestazioni dopo un aggiornamento del contenitore, un aggiornamento del framework o il rilascio della libreria in corso. Verifica che la configurazione sia ancora ottimale prima di passare alla produzione.
-
Right-sizing quando le condizioni cambiano. Quando i modelli di traffico cambiano o diventano disponibili nuovi tipi di istanze, esegui nuovamente i consigli di inferenza in poche ore anziché riavviare un processo manuale di settimane.
-
Confronto tra modelli. Confronta le prestazioni e il costo delle diverse varianti di modello tra i diversi tipi di istanza per effettuare una selezione informata prima dell'implementazione in produzione.
-
Ottimizzazione dei costi. Effettua un benchmark degli endpoint di produzione esistenti per identificare l'infrastruttura con un approvvigionamento eccessivo. Usa i risultati per ridimensionare correttamente e ridurre le spese di inferenza ricorrenti.
Prezzi
I consigli di inferenza non hanno costi di servizio aggiuntivi. È possibile utilizzare le prenotazioni ML esistenti (piani di formazione flessibili) senza costi di elaborazione aggiuntivi oppure utilizzare l'elaborazione su richiesta che viene fornita automaticamente.
Regioni supportate
I consigli di inferenza sono disponibili nelle seguenti regioni: AWS
-
Stati Uniti orientali (Virginia settentrionale)
-
Stati Uniti orientali (Ohio)
-
Stati Uniti occidentali (Oregon)
-
Asia Pacifico (Singapore)
-
Asia Pacifico (Tokyo)
-
Europa (Francoforte)
-
Europa (Irlanda)