Panoramica di Come funziona il ciclo di ottimizzazione Cosa ricevi Costo Durata prevista

Come funziona Advanced Prompt Optimization

Panoramica di

Advanced Prompt Optimization (AdvPO) consente di ottimizzare i prompt per qualsiasi modello su Bedrock confrontando i prompt originali con quelli ottimizzati su un massimo di 5 modelli contemporaneamente. È possibile utilizzarlo se si sta migrando a un nuovo modello o se si desidera semplicemente ottenere prestazioni migliori sul modello attuale. Se state cambiando modello, selezionate il modello attuale come riferimento e fino a 4 altri modelli. Se non state cambiando modello, selezionate semplicemente il modello attuale per vedere prima e dopo l'ottimizzazione. L'ottimizzatore utilizza modelli di prompt (fino a 10 per job), esempi di input utente per valori variabili (esempi di valutazione, fino a 100 per modello di prompt), risposte di base e una metrica di valutazione per guidare l'ottimizzazione. È anche compatibile con input multimodali come jpeg, png o PDF. Puoi fornire una LLM-as-a-judge rubrica, una funzione Lambda o brevi criteri di gestione del linguaggio naturale. La valutazione guida l'ottimizzazione tempestiva. L'ottimizzatore funziona in un ciclo di feedback basato sulla valutazione per ottimizzare la richiesta e le risposte del modello risultanti e genera i modelli di prompt originali e finali con punteggi di valutazione, stime dei costi e latenza.

Se desideri migrare i prompt da un modello non Bedrock e desideri comunque avere confronti fianco a fianco, un modo per farlo è eseguire l'inferenza separatamente sul tuo modello non Bedrock, quindi applicare un Valutatore Lambda personalizzato per assegnare un punteggio a tali risultati. Quindi, crea un job di Advanced Prompt Optimization con lo stesso valutatore di funzioni Lambda per i tuoi modelli target Bedrock. In questo modo, puoi avere un confronto diretto tra il tuo vecchio modello e il nuovo modello prima e dopo una pronta ottimizzazione.

Come funziona il ciclo di ottimizzazione

I campioni di valutazione vengono inseriti nelle variabili segnaposto del modello di prompt, quindi inviati per l'inferenza con i modelli di destinazione. Gli input multimodali (immagini e PDF) vengono inviati nel payload al modello insieme al prompt, ma non devono essere referenziati in una variabile a doppia parentesi riccia. {{placeholder}} Le risposte vengono classificate in base al metodo di valutazione utilizzato. Il servizio analizza i risultati della valutazione e riscrive automaticamente i prompt, quindi li invia nuovamente ai modelli. Questo ciclo di feedback si ripete e si completa in base a parametri di ottimizzazione interni proprietari.

È importante definire il metodo e i criteri di valutazione nel modo più preciso possibile, poiché la valutazione guida la tempestiva ottimizzazione.

Sia il set di dati che il metric/lambda codice determinano la qualità dell'ottimizzazione. Il sistema utilizza il set di dati per testare rapidamente i candidati e legge il codice metrico (testo sorgente e docstring) per capire cosa significa «buono» e per diagnosticare dove i prompt falliscono.

Cosa ricevi

Al termine del lavoro di ottimizzazione, riceverai:

I tuoi modelli di prompt prima e dopo l'ottimizzazione
Punteggi di valutazione per ogni campione di valutazione
Latenza (time to first token o TTFT) per ogni modello
Stime dei costi per ogni modello

Costo

Tutte le chiamate di inferenza e di funzione Lambda vengono eseguite nel tuo account. AWS Le operazioni Lambda vengono addebitate ai prezzi pubblici di Lambda. I prezzi di inferenza (comprese le LLM-as-a-judge valutazioni) vengono addebitati in base ai prezzi pubblici di Bedrock per l'inferenza su richiesta. Non è previsto alcun costo separato per il servizio Advanced Prompt Optimization oltre ai costi di inferenza. Il LLM-as-a-judge modello predefinito corrente è Anthropic Claude Sonnet 4.6, a meno che non ne selezioni uno diverso per il prompt LLMJ personalizzato.

Consulta la pagina pubblica dei prezzi di Bedrock in Prompt Optimization, quindi Advanced Prompt Optimization per un metodo di calcolo per stimare il costo di esecuzione di un'ottimizzazione.

Durata prevista

Per un singolo prompt con solo pochi esempi di valutazione, il processo potrebbe durare da 15 a 20 minuti. Per molte richieste, ognuna con un numero elevato di esempi di valutazione, il processo potrebbe durare più di un'ora, potenzialmente per più ore. Questo perché ogni modello di prompt passa attraverso diversi cicli di inferenza, valutazione e riscrittura in base a ogni record di esempio di valutazione fornito.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Ottimizza e migra i prompt

Prerequisiti e autorizzazioni