Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Creare un processo di valutazione del modello umana
I seguenti esempi mostrano come creare un processo di valutazione del modello che utilizza lavoratori umani.
Console
Come creare un processo di valutazione del modello che utilizza lavoratori umani
-
Apri la console Amazon Bedrock
. -
Nel riquadro di navigazione in Inferenza e valutazione, seleziona Valutazioni.
-
Nel riquadro Valutazione del modello, in Umano, scegli Crea e seleziona Valutazione umana: porta il tuo team di lavoro.
-
Nella pagina Specifica i dettagli dei processi, procedi come segue:
-
Nome di valutazione: assegna al processo di valutazione del modello un nome che descriva il processo. Viene mostrato nell’elenco dei processi di valutazione del modello. Il nome deve essere univoco nell’account in una Regione AWS.
-
Descrizione (facoltativa): fornisci una descrizione facoltativa.
-
Scegli Avanti.
-
-
Nella pagina Configura la valutazione, in Origine dell’inferenza seleziona l’origine per la valutazione del modello. Puoi valutare le prestazioni dei modelli Amazon Bedrock o di altri modelli fornendo i dati di risposta all’inferenza nel tuo set di dati dei prompt. Puoi selezionare fino a due origini dell’inferenza. Per i processi con due origini, non devi scegliere lo stesso tipo per entrambe le origini. Puoi selezionare un modello Amazon Bedrock e fornire i dati di risposta all’inferenza per la seconda origine. Per valutare i modelli Amazon Bedrock, procedi come segue:
-
In Seleziona l’origine, seleziona Modelli Bedrock.
-
Scegli Seleziona modello per scegliere il modello da valutare.
-
Per selezionare un secondo modello, scegli Aggiungi modello e ripeti le fasi precedenti.
-
-
Per importare i tuoi dati di risposta all’inferenza, procedi come segue:
-
In Seleziona l’origine scegli Porta le tue risposte di inferenza.
-
Per Nome dell’origine, inserisci un nome per il modello che hai utilizzato per creare i dati di risposta. Il nome inserito deve corrispondere al parametro
modelIdentifiernel set di dati dei prompt. -
Per selezionare una seconda origine, scegli Aggiungi modello e ripeti le fasi precedenti.
-
-
Per Tipo di attività, seleziona il tipo di attività che vuoi che il modello esegua durante il processo di valutazione del modello. Tutte le istruzioni per il modello devono essere incluse nei prompt stessi. Il tipo di attività non controlla le risposte del modello.
-
Nel riquadro Set di dati, fornisci quanto segue.
-
In Scegli un set di dati dei prompt, specifica l’URI S3 del file del set di dati dei prompt oppure scegli Sfoglia S3 per vedere i bucket S3 disponibili. In un set di dati dei prompt personalizzato puoi avere un massimo di 1.000 prompt.
-
In Destinazione dei risultati della valutazione, specifica l’URI S3 della directory in cui vuoi salvare i risultati del processo di valutazione del modello oppure scegli Sfoglia S3 per visualizzare i bucket S3 disponibili.
-
-
(Facoltativo) In Chiave KMS - facoltativo, fornisci l’ARN di una chiave gestita dal cliente che vuoi utilizzare per crittografare il processo di valutazione del modello.
-
Nel riquadro Ruolo IAM di Amazon Bedrock - Autorizzazioni, procedi come segue. Per ulteriori informazioni sulle autorizzazioni necessarie per le valutazioni del modello, consulta Requisiti del ruolo di servizio per i processi di valutazione del modello.
-
Per utilizzare un ruolo di servizio di Amazon Bedrock esistente, scegli Usa un ruolo esistente. Altrimenti, usa Crea un nuovo ruolo per specificare i dettagli del tuo nuovo ruolo di servizio IAM.
-
In Nome del ruolo di servizio, scegli il nome del ruolo del servizio.
-
Quando è tutto pronto, scegli Crea ruolo per creare il nuovo ruolo di servizio IAM.
-
-
Scegli Next (Successivo).
-
In Team di lavoro, utilizza il menu a discesa Seleziona team per selezionare un team esistente oppure crea un nuovo team nel seguente modo:
-
In Nome team, inserisci un nome per il team.
-
In Indirizzi e-mail, inserisci gli indirizzi e-mail dei lavoratori umani del tuo team.
-
In Numero di lavoratori per prompt, seleziona il numero di lavoratori che valutano ogni prompt. Dopo aver esaminato le risposte a ciascun prompt in base al numero di lavoratori selezionato, il prompt e le relative risposte verranno ritirati dal team di lavoro. Il report sui risultati finali includerà tutte le valutazioni di ciascun lavoratore.
Importante
I modelli linguistici di grandi dimensioni sono noti per produrre occasionalmente contenuti pericolosi o offensivi. Durante questa valutazione, ai tuoi dipendenti potrebbe essere mostrato materiale pericoloso o offensivo. Assicurati di prendere le misure adeguate per prepararli e informarli prima che lavorino alla valutazione. Possono rifiutare e interrompere le attività o fare delle pause durante la valutazione accedendo allo strumento di valutazione umana.
-
-
In Ruolo IAM del flusso di lavoro umano - Autorizzazioni, seleziona un ruolo esistente oppure seleziona Crea un nuovo ruolo.
-
Scegli Next (Successivo).
-
In Istruzioni per la valutazione, fornisci istruzioni per completare l’attività. Puoi visualizzare in anteprima l’interfaccia utente di valutazione utilizzata dal team di lavoro per valutare risposte, incluse le metriche, metodi di valutazione e istruzioni. Questa anteprima si basa sulla configurazione che hai creato per questo processo.
-
Scegli Next (Successivo).
-
Rivedi la configurazione e scegli Crea per creare il processo.
Nota
Una volta avviato correttamente il processo, lo stato passa a In corso. Al termine del processo, lo stato cambia in Completato. Mentre un processo di valutazione del modello è ancora in corso, puoi scegliere di interromperlo prima che tutte le risposte dei modelli siano state valutate dal tuo team di lavoro. A tale scopo, scegli Interrompi la valutazione nella pagina di destinazione della valutazione del modello. Di conseguenza lo Stato del processo di valutazione del modello diventerà Arresto in corso. Una volta che il processo di valutazione del modello è stato interrotto correttamente, puoi eliminarlo.
API e AWS CLI
Quando crei un processo di valutazione del modello basato sull'uomo al di fuori della console Amazon Bedrock, devi creare un ARN di definizione del flusso Amazon SageMaker AI.
L’ARN di definizione del flusso è dove viene definito il flusso di lavoro di un processo di valutazione del modello. La definizione del flusso viene utilizzata per definire l’interfaccia di lavoro e il team di lavoro da assegnare all’attività e per la connessione ad Amazon Bedrock.
Per i lavori di valutazione dei modelli avviati utilizzando le operazioni dell'API Amazon Bedrock, devi creare un ARN di definizione AWS CLI del flusso utilizzando o un AWS SDK supportato. Per saperne di più sul funzionamento delle definizioni di flusso e sulla loro creazione a livello di codice, consulta Create a Human Review Workflow (API) nella AI Developer Guide. SageMaker
Nella CreateFlowDefinition è necessario specificare AWS/Bedrock/Evaluation come input per AwsManagedHumanLoopRequestSource. Il ruolo di servizio di Amazon Bedrock deve disporre anche delle autorizzazioni per accedere al bucket di output della definizione del flusso.
Di seguito è riportato un esempio di richiesta utilizzando la AWS CLI. Nella richiesta, si HumanTaskUiArn tratta di un ARN di proprietà dell' SageMaker intelligenza artificiale. Nell’ARN, è possibile modificare solo la Regione AWS.
aws sagemaker create-flow-definition --cli-input-json ' { "FlowDefinitionName": "human-evaluation-task01", "HumanLoopRequestSource": { "AwsManagedHumanLoopRequestSource": "AWS/Bedrock/Evaluation" }, "HumanLoopConfig": { "WorkteamArn": "arn:aws:sagemaker:Regione AWS:111122223333:workteam/private-crowd/my-workteam", ## The Task UI ARN is provided by the service team, you can only modify the Regione AWS. "HumanTaskUiArn":"arn:aws:sagemaker:Regione AWS:394669845002:human-task-ui/Evaluation" "TaskTitle": "Human review tasks", "TaskDescription": "Provide a real good answer", "TaskCount": 1, "TaskAvailabilityLifetimeInSeconds": 864000, "TaskTimeLimitInSeconds": 3600, "TaskKeywords": [ "foo" ] }, "OutputConfig": { "S3OutputPath": "s3://amzn-s3-demo-destination-bucket" }, "RoleArn": "arn:aws:iam::111122223333:role/SageMakerCustomerRoleArn" }'
Dopo aver creato l'ARN della definizione del flusso, utilizza i seguenti esempi per creare un processo di valutazione del modello basato sull'uomo utilizzando AWS CLI o un SDK supportato. AWS