

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Reinforcement Fine-Tuning (RFT) attivo SageMaker HyperPod
<a name="nova-hp-rft"></a>

Reinforcement Fine-Tuning (RFT) è una tecnica di apprendimento automatico che migliora le prestazioni del modello attraverso segnali di feedback (punteggi misurabili o premi che indicano la qualità della risposta) anziché la supervisione diretta con risposte esatte e corrette. A differenza della tradizionale regolazione di precisione supervisionata che apprende dalle coppie input-output, RFT utilizza le funzioni di ricompensa per valutare le risposte del modello e ottimizza iterativamente il modello per massimizzare tali ricompense.

Questo approccio è particolarmente efficace per le attività in cui è difficile definire l'output esatto e corretto, ma è possibile misurare in modo affidabile la qualità della risposta. RFT consente ai modelli di apprendere comportamenti e preferenze complessi attraverso prove e feedback, il che lo rende ideale per applicazioni che richiedono un processo decisionale articolato, una risoluzione creativa dei problemi o il rispetto di criteri di qualità specifici che possono essere valutati programmaticamente.

**Quando usare RFT**  
Usa RFT quando puoi definire criteri di successo chiari e misurabili ma hai difficoltà a fornire risultati esatti e corretti per la formazione. È ideale per attività in cui la qualità è soggettiva o multiforme, come la scrittura creativa, l'ottimizzazione del codice o il ragionamento complesso, in cui esistono più soluzioni valide ma alcune sono chiaramente migliori di altre.

RFT funziona al meglio quando si dispone di quanto segue:
+ Una funzione di ricompensa affidabile in grado di valutare gli output del modello in modo programmatico
+ È necessario allineare il comportamento del modello a preferenze o vincoli specifici
+ Situazioni in cui la messa a punto tradizionale con supervisione non è sufficiente perché la raccolta di esempi etichettati di alta qualità è costosa o poco pratica

Prendi in considerazione RFT per le applicazioni che richiedono miglioramenti iterativi, personalizzazione o aderenza a regole aziendali complesse che possono essere codificate come segnali di ricompensa.

**Per cosa RFT è più adatto**  
RFT eccelle nei settori in cui la qualità dell'output può essere misurata oggettivamente, ma le risposte ottimali sono difficili da definire in anticipo:
+ **Risoluzione matematica dei problemi: correttezza verificabile con percorsi di soluzione multipli**
+ **Generazione e ottimizzazione del codice: risultati di esecuzione testabili e metriche prestazionali**
+ **Compiti di ragionamento scientifico**: coerenza logica e accuratezza dei fatti
+ **Analisi strutturata dei dati: output verificabili** a livello di codice
+ Ragionamento in **più fasi**: attività che richiedono una progressione logica step-by-step
+ **Utilizzo degli strumenti e chiamate API**: successo misurabile in base ai risultati di esecuzione
+ **Flussi di lavoro complessi**: rispetto di vincoli e regole aziendali specifici

RFT funziona eccezionalmente bene quando è necessario bilanciare più obiettivi concorrenti come precisione, efficienza e stile.

**Quando utilizzare la modalità di ragionamento per l'allenamento RFT**  
Amazon Nova 2.0 supporta la modalità di ragionamento durante l'addestramento RFT. Sono disponibili le seguenti modalità:
+ **nessuno**: nessun ragionamento (ometti il campo reasoning\_effort)
+ **basso: sovraccarico minimo di ragionamento**
+ **high**: massima capacità di ragionamento (impostazione predefinita quando è specificato reasoning\_effort)

**Nota**  
Non esiste un'opzione media per RFT. Se il campo reasoning\_effort non è presente nella configurazione, il ragionamento è disabilitato.

Usa un ragionamento elevato per quanto segue:
+ Compiti analitici complessi
+ Risoluzione di problemi matematici
+ Deduzione logica in più fasi
+ Attività in cui il step-by-step pensiero aggiunge valore

Usa none (ometti reasoning\_effort) o low reasoning per quanto segue:
+ Semplici domande fattuali
+ Classificazioni dirette
+ Ottimizzazione della velocità e dei costi
+ Risposta semplice alle domande

**Importante**  
Le modalità di ragionamento più avanzate aumentano i tempi e i costi di formazione, la latenza e i costi dell'inferenza, ma aumentano anche la capacità del modello per attività di ragionamento complesse.

**Modelli supportati**  
RFT onSageMaker HyperPod supporta Amazon Nova Lite 2.0 (amazon.nova-2-lite-v 1:0:256k).

**Fasi principali**  
Il processo RFT prevede quattro fasi chiave:
+ **Implementazione di un valutatore**: crea una funzione di ricompensa per assegnare un punteggio programmatico alle risposte del modello in base ai tuoi criteri di qualità.
+ Istruzioni di **caricamento: prepara e carica i dati di allenamento nel formato** conversazionale specificato con dati di riferimento per la valutazione.
+ **Avvio di un lavoro**: avvia il processo di messa a punto del rinforzo con i parametri configurati.
+ **Monitoraggio**: monitora i progressi della formazione tramite dashboard di metriche per garantire che il modello apprenda in modo efficace.

Ogni fase si basa su quella precedente e il valutatore funge da base che guida l'intero processo di formazione fornendo segnali di feedback coerenti.

**Topics**
+ [RFT su Nova 2.0](nova-hp-rft-nova2.md)