Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Valutazione LLMs per applicazioni nel settore sanitario e delle scienze della vita
<a name="evaluation"></a>

Questa sezione fornisce una panoramica completa dei requisiti e delle considerazioni per la valutazione di modelli linguistici di grandi dimensioni (LLMs) nei casi d'uso nel settore sanitario e delle scienze della vita.

È importante utilizzare dati fondati attendibili e il feedback delle PMI per mitigare i pregiudizi e convalidare l'accuratezza della risposta generata dal LLM. Questa sezione descrive le migliori pratiche per la raccolta e la cura dei dati di formazione e test. Inoltre, consente di implementare barriere e misurare la distorsione e l'equità dei dati. Vengono inoltre illustrate le comuni attività mediche di elaborazione del linguaggio naturale (NLP), come la classificazione del testo, il riconoscimento di entità denominate e la generazione di testo, e le relative metriche di valutazione.

Presenta inoltre flussi di lavoro per eseguire la valutazione LLM durante la fase di sperimentazione della formazione e la fase di post-produzione. Il monitoraggio dei modelli e le operazioni LLM sono elementi importanti di questo processo di valutazione.

## Dati di formazione e test per attività mediche di PNL
<a name="evaluation-test-data"></a>

Le attività di PNL in ambito medico utilizzano in genere corpora medici (ad esempio PubMed) o informazioni sui pazienti (come gli appunti sulle visite dei pazienti in clinica) per classificare, riepilogare e generare approfondimenti. Il personale medico, ad esempio medici, amministratori sanitari o tecnici, varia in termini di competenze e punti di vista. A causa della soggettività tra questo personale medico, set di dati di formazione e test più piccoli rappresentano un rischio di parzialità. Per mitigare questo rischio, consigliamo le seguenti best practice:
+ Quando utilizzi una soluzione LLM preaddestrata, assicurati di disporre di una quantità adeguata di dati di test. I dati del test dovrebbero assomigliare molto ai dati medici effettivi. A seconda dell'attività, questo può variare da 20 a più di 100 record.
+ Quando perfezionate un LLM, raccogliete un numero sufficiente di record etichettati (di base) da una varietà SMEs di settori medici interessati. Un punto di partenza generale è costituito da almeno 100 documenti di alta qualità. Tuttavia, data la complessità dell'attività e i criteri di accettazione della precisione, potrebbero essere necessari più record.
+ Se necessario per il tuo caso d'uso medico, implementa delle barriere e misura la distorsione e l'equità dei dati. Ad esempio, assicuratevi che l'LLM prevenga diagnosi errate dovute ai profili razziali dei pazienti. Per ulteriori informazioni, consulta la [Sicurezza e guardrail](llms.md#llm-selection-guardrails) sezione di questa guida.

Molte società di ricerca e sviluppo di intelligenza artificiale, come Anthropic, hanno già implementato dei guardrail nei loro modelli di base per evitare la tossicità. È possibile utilizzare il rilevamento della tossicità per controllare i prompt di input e le risposte di output. LLMs Per ulteriori informazioni, consulta [Rilevamento della tossicità](https://docs.aws.amazon.com/comprehend/latest/dg/trust-safety.html#toxicity-detection) nella documentazione di Amazon Comprehend e [Guardrails](https://docs.aws.amazon.com/bedrock/latest/userguide/guardrails.html) nella documentazione di Amazon Bedrock.

In qualsiasi attività di intelligenza artificiale generativa, esiste il rischio di allucinazioni. È possibile mitigare questo rischio eseguendo attività di PNL, come la classificazione. Puoi anche utilizzare tecniche più avanzate, come le metriche di somiglianza del testo. [BertScore](https://huggingface.co/spaces/evaluate-metric/bertscore)è una metrica di somiglianza del testo comunemente adottata. Per ulteriori informazioni sulle tecniche che è possibile utilizzare per mitigare le allucinazioni, vedere A [Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models](https://arxiv.org/pdf/2401.01313).

## Metriche per le attività mediche di PNL
<a name="evaluation-metrics"></a>

È possibile creare metriche quantificabili dopo aver stabilito dati attendibili ed etichette fornite dalle PMI per la formazione e i test. Il controllo della qualità attraverso processi qualitativi, come lo stress test e la revisione dei risultati del LLM, è utile per uno sviluppo rapido. Tuttavia, le metriche fungono da benchmark quantitativi che supportano le future operazioni LLM e fungono da benchmark delle prestazioni per ogni versione di produzione.

Comprendere il compito medico è fondamentale. Le metriche in genere si riferiscono a una delle seguenti attività generali di PNL:
+ **Classificazione del testo**: l'LLM classifica il testo in una o più categorie predefinite, in base alla richiesta di input e al contesto fornito. Un esempio è la classificazione di una categoria di dolore utilizzando una scala del dolore. Alcuni esempi di metriche di classificazione del testo includono:
  + [Precisione](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-accuracy-metric)
  + [Precisione](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macroprecision-metric), nota anche come *precisione macro*
  + [Richiamo](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macrorecall-metric), noto anche come *richiamo di macro*
  + [Punteggio F1](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macrof1score-metric), noto anche come punteggio *macro F1*
  + [Perdita di Hamming](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-hammingloss-metric)
+ **Riconoscimento di entità denominate (NER)**: noto anche come *estrazione di testo*, il riconoscimento delle entità denominate è il processo di localizzazione e classificazione delle entità denominate menzionate nel testo non strutturato in categorie predefinite. Un esempio è l'estrazione dei nomi dei farmaci dalle cartelle cliniche dei pazienti. Alcuni esempi di metriche NER includono:
  + [Precisione](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-accuracy-metric)
  + [Precisione](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macroprecision-metric)
  + [Richiama](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macrorecall-metric)
  + [Punteggio F1](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-macrof1score-metric)
  + [Perdita di Hamming](https://docs.aws.amazon.com/comprehend/latest/dg/cer-doc-class.html#class-hammingloss-metric)
+ **Generazione**: l'LLM genera nuovo testo elaborando il prompt e il contesto fornito. La generazione include attività di riepilogo o attività di risposta a domande. Alcuni esempi di metriche di generazione includono:
  + [Sostituto orientato al richiamo per la valutazione del personale (ROUGE)](https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-accuracy-evaluation.html)
  + [Metrica per la valutazione della traduzione con Explicit (METEOR) ORdering](https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-accuracy-evaluation.html)
  + Sostituto di [valutazione bilingue (BLEU) (per](https://en.wikipedia.org/wiki/BLEU) le traduzioni)
  + [Distanza tra le stringhe, nota anche come somiglianza](https://en.wikipedia.org/wiki/Cosine_similarity) *del coseno*