

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Monitoraggio della formazione RFT
<a name="nova-hp-rft-monitoring"></a>

Monitora le metriche chiave durante la formazione per garantire un apprendimento efficace e identificare tempestivamente potenziali problemi.

**Topics**
+ [

## Metriche chiave da monitorare
](#nova-hp-rft-monitoring-metrics)
+ [

## Valutazione dopo RFT
](#nova-hp-rft-monitoring-evaluation)
+ [

## Utilizzo di modelli ottimizzati
](#nova-hp-rft-monitoring-checkpoints)
+ [

## Limitazioni e procedure consigliate
](#nova-hp-rft-monitoring-limitations)
+ [

## Risoluzione dei problemi
](#nova-hp-rft-monitoring-troubleshooting)

## Metriche chiave da monitorare
<a name="nova-hp-rft-monitoring-metrics"></a>

Monitora le seguenti metriche utilizzate MlFlow durante l'allenamento:

**Metriche sui premi:**
+ **Punteggio medio di ricompensa**: qualità complessiva delle risposte del modello (dovrebbe aumentare nel tempo)
+ **Distribuzione dei premi**: percentuale di risposte che ricevono premi alti, medi e bassi
+ **Premi per la formazione e la convalida**: confronta per individuare l'overfit

**Metriche di formazione:**
+ **Aggiornamenti delle norme: numero di aggiornamenti** del peso eseguiti con successo
+ **Percentuale di completamento dell'implementazione**: percentuale di campioni valutati con successo

**Per quanto riguarda i modelli:**
+ Stabilizzazione dei premi (indica uno scarso apprendimento)
+ I premi di convalida diminuiscono mentre aumentano i premi di formazione (sovradimensionamento)
+ La varianza delle ricompense aumenta in modo significativo nel tempo (instabilità)
+ Alta percentuale di errori nella funzione di ricompensa (problemi di implementazione)

**Quando interrompere l'allenamento:**
+ Le metriche prestazionali prefissate sono state raggiunte
+ I premi si stabilizzano e non migliorano più
+ Le prestazioni di convalida peggiorano (è stato rilevato un sovradimensionamento)
+ È stato raggiunto il budget massimo per la formazione

## Valutazione dopo RFT
<a name="nova-hp-rft-monitoring-evaluation"></a>

Al termine della formazione, valuta il tuo modello perfezionato per valutare i miglioramenti delle prestazioni:
+ **Esegui il processo di valutazione RFT**: utilizza il checkpoint del tuo corso di formazione RFT come modello
+ **Confronto con quello di base**: valuta sia il modello base che il modello perfezionato sullo stesso set di test
+ **Analizza le metriche**: esamina le metriche specifiche delle attività (precisione, punteggi di ricompensa, ecc.)
+ **Esegui una revisione qualitativa**: ispeziona manualmente i campioni in uscita per verificarne la qualità

Per le procedure di valutazione dettagliate, consultate la sezione Valutazione.

## Utilizzo di modelli ottimizzati
<a name="nova-hp-rft-monitoring-checkpoints"></a>

**Accesso ai posti di blocco:**

Al termine dell'addestramento, individua il checkpoint:

1. Accedi al tuo `output_path` account in S3

1. Scarica ed estrai `output.tar.gz`

1. Aprire `manifest.json`

1. Copia il `checkpoint_s3_bucket` valore

**Distribuzione per l'inferenza:**

Usa il percorso S3 del checkpoint per l'inferenza o l'ulteriore formazione:

```
run:
    model_type: amazon.nova-2-lite-v1:0:256k
    model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"
```

Per le istruzioni di distribuzione e inferenza, consulta la sezione Inferenza.

## Limitazioni e procedure consigliate
<a name="nova-hp-rft-monitoring-limitations"></a>

**Limitazioni attuali:**

**Restrizioni relative alla beta:**
+ È necessario creare un nuovo gruppo RIG per RFT. Questa limitazione verrà risolta da GA.
+ Requisiti relativi al tipo di istanza: sono supportate solo le istanze P5 (minimo 8x P5.48xLarge). Prossimamente: supporto per tipi di istanze più piccoli (ETA: metà gennaio 2025).

**Limitazioni funzionali:**
+ Timeout Lambda di 15 minuti: le funzioni Reward devono essere completate entro 15 minuti
+ Solo turno singolo: le conversazioni a turni multipli non sono supportate
+ Set di dati di convalida: non supportati durante l'allenamento. Utilizza processi di valutazione separati per valutare i progressi della formazione.

**Considerazioni sulla formazione:**
+ Scenari con ricompense ridotte: potrebbero avere difficoltà quando meno del 5% degli esempi riceve ricompense positive: prendete in considerazione innanzitutto l'SFT
+ Requisiti in materia di dati: è necessaria una diversità sufficiente per apprendere in modo efficace
+ Costo computazionale: più costoso della regolazione fine supervisionata

**Nova Forge rimuove alcune di queste limitazioni:**
+ Supporta conversazioni a più turni
+ Consente funzioni di ricompensa che superano i timeout di 15 minuti
+ Fornisce algoritmi e opzioni di ottimizzazione avanzati
+ Progettato per casi d'uso aziendali complessi, ottimizzato specificamente per creare modelli di frontiera

**Le migliori pratiche:**

**Inizia in piccolo e scala:**
+ Inizia con set di dati minimi (100-200 esempi) e poche epoche di formazione
+ Convalida il tuo approccio prima di ampliare
+ Aumenta gradualmente le dimensioni del set di dati e le fasi di formazione in base ai risultati

**Baseline con SFT innanzitutto:**
+ Se i punteggi di ricompensa sono costantemente bassi (ad esempio, sempre 0), esegui SFT prima di RFT
+ RFT richiede prestazioni di base ragionevoli per migliorare efficacemente

**Progetta funzioni di ricompensa efficienti:**
+ Esegui in pochi secondi, non in minuti
+ Riduci al minimo le chiamate API esterne
+ Utilizza algoritmi e strutture dati efficienti
+ Implementa una corretta gestione degli errori
+ Esegui un test accurato prima dell'allenamento
+ Sfrutta le funzionalità di scalabilità parallela di Lambda

**Monitora attivamente la formazione:**
+ Tieni traccia dei punteggi medi di ricompensa nel tempo
+ Guarda la distribuzione delle ricompense tra i campioni
+ Confronta i premi di formazione e quelli di convalida
+ Cerca modelli preoccupanti (plateaus, overfitting, instabilità)

**Iterate in base ai risultati:**
+ Se i premi non migliorano dopo diverse iterazioni, modifica il design della funzione di ricompensa
+ Aumenta la diversità dei set di dati per fornire segnali di apprendimento più chiari
+ Prendi in considerazione la possibilità di passare a SFT se i premi rimangono vicini allo zero
+ Sperimenta con diversi iperparametri (tasso di apprendimento, dimensione del batch)

**Ottimizza la qualità dei dati:**
+ Garantisci esempi diversi e rappresentativi
+ Includi casi limite e campioni difficili
+ La funzione Verify Reward assegna un punteggio corretto a tutti i tipi di esempi
+ Rimuovi o correggi i campioni che confondono la funzione di ricompensa

## Risoluzione dei problemi
<a name="nova-hp-rft-monitoring-troubleshooting"></a>

**Errori della funzione di ricompensa:**

Sintomi: elevato tasso di errore nelle chiamate alla funzione di ricompensa durante l'allenamento


| Problema | Caratteristiche | Risoluzione | 
| --- |--- |--- |
| Timeout Lambda | Timeout frequenti dopo 15 minuti | Ottimizzate le prestazioni delle funzioni; prendete in considerazione Nova Forge per valutazioni complesse | 
| Concorrenza insufficiente | Errori di limitazione Lambda | Aumenta lambda\$1concurrency\$1limit o richiedi un aumento della quota | 
| Formato di restituzione non valido | La formazione fallisce a causa di errori di formato | Verifica che la struttura restituita corrisponda al formato di interfaccia richiesto | 
| Eccezioni non gestite | Errori intermittenti | Aggiungi una gestione e una registrazione complete degli errori | 
| Guasti delle API esterne | Punteggio incoerente | Implementa la logica dei tentativi e le strategie di fallback | 

**Scarse prestazioni di allenamento:**

Sintomi: le ricompense non migliorano o si stabilizzano a valori bassi

Risoluzioni:
+ **Verifica della correttezza della funzione di ricompensa**: prova con esempi noti good/bad 
+ **Verifica le prestazioni di base**: valuta il modello base; se la precisione è prossima allo zero, esegui prima l'SFT
+ **Aumenta la diversità dei dati**: aggiungi esempi più vari che coprono diversi scenari
+ **Modifica gli iperparametri**: prova diversi tassi di apprendimento o dimensioni di batch diverse
+ **Verifica la qualità del segnale di ricompensa**: assicurati che i premi distinguano tra risposte positive e negative

**Sovradattamento:**

Sintomi: i premi di allenamento aumentano mentre i premi di convalida diminuiscono

Risoluzioni:
+ **Riduci le fasi di allenamento**: interrompi l'allenamento prima
+ **Aumenta le dimensioni del set** di dati: aggiungi altri esempi di formazione
+ **Aggiungi regolarizzazione: Regola** o `weight_decay` `entropy_coeff`
+ **Aumenta la diversità dei dati**: assicurati che il set di formazione rappresenti la distribuzione completa