

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Criar um trabalho de avaliação de modelo automático no Studio
<a name="clarify-foundation-model-evaluate-auto-ui"></a>

 O assistente disponível no Studio orienta você na escolha de um modelo a ser avaliado, na seleção de um tipo de tarefa, na escolha de métricas e conjuntos de dados e na configuração dos recursos necessários. Os tópicos a seguir mostram como formatar um conjunto de dados de entrada personalizado opcional, configurar seu ambiente e criar o trabalho de avaliação de modelo no Studio.

## Formatar seu conjunto de dados de entrada
<a name="clarify-foundation-model-evaluate-auto-ui-format-input"></a>

Para usar seu próprio conjunto de dados de prompts personalizado, ele deve ser um arquivo `jsonlines`, em que cada linha é um objeto JSON válido. Cada objeto JSON *deve* conter um único prompt. 

Para ajudar a garantir que o JumpStart modelo selecionado tenha um bom desempenho, o SageMaker Clarify formata automaticamente todos os conjuntos de dados de solicitações no formato que funcione melhor para as **dimensões de avaliação** do **modelo** selecionadas. Para conjuntos de dados de solicitações integrados, o SageMaker Clarify também aumentará sua solicitação com texto instrucional adicional. Para ver como o SageMaker Clarify modificará as solicitações, escolha o **modelo de solicitação** nas **dimensões de avaliação** que você adicionou à tarefa de avaliação do modelo. Para ver um exemplo de como você pode modificar um modelo de prompt, consulte [Exemplo de modelo de prompt](clarify-foundation-model-evaluate-whatis.md#clarify-prompt-template).

O botão permite que você desative ou ative o suporte automático à modelagem de prompts que o SageMaker Clarify fornece para conjuntos de dados integrados. A desativação da modelagem automática de prompts permite que você especifique seus próprios modelos de prompt que serão aplicados a todos os prompts em seu conjunto de dados. 

Para saber quais chaves estão disponíveis para um conjunto de dados personalizado na interface do usuário, consulte as listas de tarefas a seguir.
+ `model_input`: Necessária para indicar a entrada para as seguintes tarefas:
  + O **prompt** ao qual seu modelo deve responder em tarefas de **geração aberta**, **toxicidade** e **precisão**.
  + A **pergunta** que o modelo deve responder em tarefas de **resposta a perguntas** e **conhecimento fatual**.
  + O **texto** que o modelo deve resumir em tarefas de **resumo de texto**.
  + O **texto** que o modelo deve classificar nas tarefas de **classificação**.
  + O **texto** que você deseja que seu modelo altere em tarefas de **robustez semântica**.
+ `target_output`: Necessária para indicar a resposta real em relação à qual o modelo é avaliado para os seguintes tipos de tarefas:
  + Tarefas de **resposta** para **resposta** a **perguntas**, **precisão**, **semântica**, **robustez** e **avaliação** **fatual**. 
  + Para tarefas de **precisão** e **robustez** **semântica**, separe as respostas aceitáveis com um `<OR>`. A avaliação aceita qualquer uma das respostas separadas por vírgula como correta. Como exemplo, use `target_output="UK<OR>England<OR>United Kingdom"`, se você quiser aceitar `UK`, `England` ou `United Kingdom` como respostas aceitáveis.
+ (Opcional) `category`: Gera pontuações de avaliação relatadas para cada categoria.
+ `sent_less_input`: Necessária para indicar o prompt que contém **menos** desvio para tarefas de estereotipagem de prompts.
+ `sent_more_input`: Necessária para indicar o prompt que contém **mais** desvio para tarefas de estereotipagem de prompts.

Uma avaliação de conhecimento fatual exige tanto a pergunta a ser feita quanto a resposta para comparar com a resposta do modelo. Use a chave `model_input` com o valor contido na pergunta e a chave `target_output` com o valor contido na resposta, conforme mostrado a seguir:

```
{"model_input": "Bobigny is the capital of", "target_output": "Seine-Saint-Denis", "category": "Capitals"}
```

O exemplo anterior é um único objeto JSON válido que compõe um registro em um arquivo `jsonlines` de entrada. Cada objeto JSON é enviado ao seu modelo como uma solicitação. Para fazer várias solicitações, inclua várias linhas. O exemplo de entrada de dados a seguir se refere a uma tarefa de resposta a perguntas que usa uma chave `category` opcional para avaliação.

```
{"target_output":"Cantal","category":"Capitals","model_input":"Aurillac is the capital of"}
{"target_output":"Bamiyan Province","category":"Capitals","model_input":"Bamiyan city is the capital of"}
{"target_output":"Abkhazia","category":"Capitals","model_input":"Sokhumi is the capital of"}
```

Se você avaliar seu algoritmo na interface do usuário, os seguintes padrões serão definidos para seu conjunto de dados de entrada:
+ O número de registros que a avaliação usa é fixo. O algoritmo coleta amostras aleatoriamente desse número de solicitações do seu conjunto de dados de entrada.
  + **Para alterar o número:** use a biblioteca `fmeval` conforme descrito em **Personalize seu fluxo de trabalho usando a biblioteca `fmeval`** e defina o parâmetro `num_records` para o número desejado de amostras ou, `-1`, para especificar o conjunto de dados inteiro. O número padrão de registros avaliados é `100` para tarefas de precisão, estereotipagem de prompts, toxicidade, classificação e robustez semântica. O número padrão de registros para uma tarefa de conhecimento fatual é `300`.
+ O delimitador de saída de destino, conforme descrito anteriormente no parâmetro `target_output`, está definido como `<OR>` na interface de usuário.
  + **Para separar as respostas aceitáveis usando outro delimitador:** use a biblioteca `fmeval`, conforme descrito em **Personalizar seu fluxo de trabalho usando a biblioteca `fmeval`**, e defina o parâmetro `target_output_delimiter` para o delimitador desejado.
+ Você deve usar um modelo de JumpStart linguagem baseado em texto que esteja disponível para avaliação do modelo. Esses modelos têm vários parâmetros de configuração de entrada de dados que são passados automaticamente para o FMeval processo.
  + **Para usar outro tipo de modelo:** use a biblioteca `fmeval` para definir a configuração de dados para seu conjunto de dados de entrada.

## Configure o ambiente.
<a name="clarify-foundation-model-evaluate-auto-ui-setup"></a>

Para executar uma avaliação automática para seu grande modelo de linguagem (LLM), você deve configurar seu ambiente para ter as permissões corretas a fim de executar uma avaliação. Em seguida, você pode usar a interface do usuário para guiá-lo pelas etapas do fluxo de trabalho e realizar uma avaliação. As seções a seguir mostram como usar a interface de usuário para executar uma avaliação automática.

**Pré-requisitos**
+ Para executar uma avaliação de modelo em uma interface de usuário do Studio, seu perfil AWS Identity and Access Management (IAM) e qualquer conjunto de dados de entrada devem ter as permissões corretas. Se você não tiver um domínio de SageMaker AI ou uma função do IAM, siga as etapas em[Guia para se configurar com o Amazon SageMaker AI](gs.md).

**Para definir permissões para seu bucket do S3**

Depois que seu domínio e função forem criados, use as etapas a seguir para adicionar as permissões necessárias para avaliar seu modelo.

1. Abra o console do Amazon SageMaker AI em [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. No painel de navegação, insira **S3** na barra de pesquisa da parte superior da página.

1. Escolha **S3** em **Serviços**.

1. Escolha **Buckets** no painel de navegação.

1. Na seção **Buckets de uso geral**, em **Nome**, escolha o nome do bucket do Amazon S3 que você deseja usar para armazenar seu conjunto de dados de prompts personalizado e onde deseja que os resultados do seu trabalho de avaliação de modelo sejam salvos. Seu bucket do Amazon S3 deve estar na Região da AWS mesma instância do Studio. Se você não tiver um bucket do Amazon S3, faça o seguinte:

   1. Selecione **Criar bucket** para abrir a nova página **Criar bucket**.

   1. Na seção **Configuração geral**, em **Região da AWS **, selecione a região da AWS em que seu modelo de base está localizado.

   1. Nomeie seu bucket do S3 no campo de inserção **Nome do bucket**.

   1. Aceite todas as opções padrão.

   1. Selecione **Criar bucket**.

   1. Na seção **Buckets de uso geral**, em **Nome**, selecione o nome do bucket do S3 que você criou.

1. Escolha a aba **Permissões**.

1. Role até a seção **Compartilhamento de recursos de origem cruzada (CORS)** na parte inferior da janela. Escolha **Editar**.

1. Para adicionar as permissões do CORS ao seu bucket, copie o código a seguir para o campo de inserção. 

   ```
   [
   {
       "AllowedHeaders": [
           "*"
       ],
       "AllowedMethods": [
           "GET",
           "PUT",
           "POST",
           "DELETE"
       ],
       "AllowedOrigins": [
           "*"
       ],
       "ExposeHeaders": [
           "Access-Control-Allow-Origin"
       ]
   }
   ]
   ```

1. Escolha **Salvar alterações**.

**Para adicionar permissões à sua política do IAM**

1. Na barra de pesquisa da parte superior da tela, insira **IAM**.

1. Em **Serviços**, selecione **Identity and Access Management (IAM)**.

1. Escolha **Políticas** no painel de navegação.

1. Selecione **Criar política**. Quando o **Editor de políticas** abrir, escolha **JSON**.

1. Escolha **Próximo**.

1. Certifique-se de que as seguintes permissões apareçam no **Editor de políticas**: Você também pode copiar e colar o seguinte no **Editor de políticas**:

------
#### [ JSON ]

****  

   ```
   {
   "Version":"2012-10-17",		 	 	 
   "Statement": [
       {
           "Effect": "Allow",
           "Action": [
               "cloudwatch:PutMetricData",
               "logs:CreateLogStream",
               "logs:PutLogEvents",
               "logs:CreateLogGroup",
               "logs:DescribeLogStreams",
               "s3:GetObject",
               "s3:PutObject",
               "s3:ListBucket",
               "ecr:GetAuthorizationToken",
               "ecr:BatchCheckLayerAvailability",
               "ecr:GetDownloadUrlForLayer",
               "ecr:BatchGetImage"
            ],
               "Resource": "*"
       },
       {
               "Effect": "Allow",
               "Action": [
                   "sagemaker:Search",
                   "sagemaker:CreateProcessingJob",
                   "sagemaker:DescribeProcessingJob"
                ],
                "Resource": "*"
       }
   ]
   }
   ```

------

1. Escolha **Próximo**.

1. Insira o nome da política na seção **Detalhes da política**, em **Nome da política**. Você também pode inserir uma descrição opcional. Você pesquisará esse nome ao atribuí-la a uma função.

1. Selecione **Criar política**.

**Para adicionar permissões ao seu perfil do IAM**

1. Selecione **Roles (Funções)** no painel de navegação. Insira o nome da função que você deseja usar.

1. Selecione o nome da função em **Nome do perfil**. A janela principal muda para mostrar informações sobre sua função.

1. Na seção **Políticas de permissões**, escolha a seta para baixo próxima ao **Adicionar permissões**.

1. A partir das opções exibidas, escolha **Anexar políticas**.

1. Na lista de políticas que aparecer, pesquise a política que você criou na etapa 5. Marque a caixa de seleção ao lado do nome da sua política.

1. Escolha a seta para baixo ao lado de **Ações**.

1. Nas opções exibidas, selecione **Anexar**.

1. Pesquise o nome da função que você criou. Marque a caixa de seleção próxima ao nome.

1. Escolha **Adicionar permissões**. Um banner na parte superior da página deve indicar que a **política foi anexada com êxito à função**.
+ .

## Criar um trabalho de avaliação de modelo automático no Studio
<a name="clarify-foundation-model-evaluate-auto-ui-run"></a>

 Ao criar um trabalho de avaliação automática de modelos, você pode escolher entre os JumpStart modelos baseados em texto disponíveis ou usar um JumpStart modelo baseado em texto que você já implantou em um endpoint.

Para criar um trabalho de avaliação automática do modelo, use o procedimento a seguir.

**Para iniciar um trabalho automático de avaliação de modelo no Studio.**

1. Abra o console do Amazon SageMaker AI em [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. Na barra de pesquisa da parte superior da tela, insira **SageMaker AI**.

1. Em **Serviços**, selecione **Amazon SageMaker AI**.

1. Do painel de navegação, escolha **Studio**.

1. Escolha seu domínio na seção **Começar**, depois de expandir a seta para baixo em **Selecionar domínio**.

1. Escolha seu perfil de usuário na seção **Começar** depois de expandir a seta para baixo em **Selecionar perfil de usuário**.

1. Escolha **Abrir Studio** para abrir a página inicial do Studio.

1. Escolha **Trabalhos** a partir do painel de navegação principal.

1. Em seguida, escolha **Avaliação do modelo**.

**Para configurar um trabalho de avaliação**

1. Em seguida, escolha **Avaliar um modelo**.

1. Na **Etapa 1: especifique os detalhes do trabalho**, faça o seguinte:

   1.  Insira o **nome** da sua avaliação de modelo. Esse nome ajuda você a identificar seu trabalho de avaliação de modelo após o envio.

   1. Insira uma **Descrição** para adicionar mais contexto ao nome.

   1. Escolha **Próximo**.

1. Na **Etapa 2: configure a avaliação**, faça o seguinte:

   1. Em **Tipo de avaliação**, escolha **Automática**.

   1. Em seguida, escolha **Adicionar modelo à avaliação**

   1. **No modal **Adicionar modelo**, você pode optar por usar um **modelo básico Jumpstart pré-treinado** ou um endpoint de IA. SageMaker ** Se você já implantou o JumpStart modelo, escolha o **endpoint de SageMaker IA**, caso contrário, escolha o modelo básico **Jumpstart pré-treinado**.

   1. Selecione **Salvar**.

   1.  (*Opcional*) Depois de adicionar seu modelo, escolha **Modelo de prompt** para ver o formato de entrada esperado para prompts com base no modelo selecionado. Para obter informações sobre como configurar um modelo de prompt para um conjunto de dados, consulte [Modelos de prompt](clarify-foundation-model-evaluate-whatis.md#clarify-automatic-jobs-summary-prompt-templates).
      + Para usar o modelo de prompt padrão, conclua as seguintes etapas:

        1. Ative a opção **Usar os modelos de prompt padrão fornecidos pelos conjuntos de dados**.

        1. (Opcional) Para cada conjunto de dados, revise o prompt disponibilizado pelo Clarify.

        1. Escolha **Salvar**.
      + Para usar um modelo de prompt personalizado, conclua as seguintes etapas:

        1. Desative **Usar os modelos de prompt padrão fornecidos pelos conjuntos de dados**.

        1. Se o Clarify exibir um prompt padrão, você poderá personalizá-lo ou removê-lo e fornecer o seu próprio. Você deve incluir a variável `$model_input` no modelo de prompt.

        1. Escolha **Salvar**.

   1. Em seguida, em **Tipo de tarefa**, escolha um tipo de tarefa.

      Para obter mais informações sobre os tipos de tarefas e as dimensões de avaliação associadas, consulte a **Avaliação automática** em **[Usar conjuntos de dados de prompts e dimensões de avaliação disponíveis em trabalhos de avaliação de modelo](clarify-foundation-model-evaluate-overview.md)**.

   1. Na seção **Métricas de avaliação**, escolha uma **dimensão de avaliação**. A caixa de texto em **Descrição** contém contexto adicional sobre a dimensão.

      Depois de selecionar uma tarefa, as métricas associadas à tarefa aparecem em **Métricas**. Nessa seção, faça o seguinte:

   1. Selecione uma dimensão de avaliação na seta para baixo em **Dimensão de avaliação**.

   1. Escolha um conjunto de dados de avaliação. Você pode escolher usar seu próprio conjunto de dados ou usar um conjunto de dados integrado. Se você quiser usar seu próprio conjunto de dados para avaliar o modelo, ele deverá ser formatado de uma forma que FMEval possa ser usada. Ele também deve estar localizado em um bucket do S3 que tenha as permissões CORS mencionadas na seção [Configure o ambiente.](#clarify-foundation-model-evaluate-auto-ui-setup) anterior. Para obter mais informações sobre como formatar um conjunto de dados personalizado, consulte [Use um conjunto de dados de entrada personalizado](clarify-foundation-model-evaluate-auto-lib-custom.md#clarify-foundation-model-evaluate-auto-lib-custom-input). 

   1. Insira uma localização de bucket do S3 onde deseja salvar os resultados da avaliação de saída. O arquivo está no formato jsonlines (.jsonl).

   1. Configure seu processador na seção **Configuração do processador** usando os seguintes parâmetros:
      + Use a **Contagem de instâncias** para especificar o número de instâncias de computação que você quer usar para executar seu modelo. Se você usar mais de `1` instância, seu modelo será executado em instâncias paralelas.
      + Use o **Tipo de instância** para escolher o tipo de instância de computação que você quer usar para executar seu modelo. Para obter mais informações sobre os tipos de instâncias, consulte [Tipos de instância disponíveis para uso com notebooks Amazon SageMaker Studio Classic](notebooks-available-instance-types.md).
      + Use a chave de **volume KMS** para especificar sua chave de criptografia AWS Key Management Service (AWS KMS). SageMaker A IA usa sua AWS KMS chave para criptografar o tráfego de entrada do modelo e do seu bucket Amazon S3. Para obter mais informações sobre chaves, consulte [AWS Key Management Service](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html).
      + Use a **chave KMS de saída** para especificar sua chave de AWS KMS criptografia para o tráfego de saída.
      + Use o **Perfil do IAM** para especificar o acesso e as permissões do processador padrão. Insira o perfil do IAM que você configurou em [Configure o ambiente.](#clarify-foundation-model-evaluate-auto-ui-setup)

   1. Depois de especificar o modelo e os critérios, escolha **Próximo**. A janela principal pula para a **Etapa 5: revise e salve**.

**Revise e execute seu trabalho de avaliação**

1. Revise todos os parâmetros, modelo e dados que você selecionou para sua avaliação.

1. Escolha **Criar recurso** para executar sua avaliação.

1. Para verificar o status do seu trabalho, vá para a parte superior da seção **Avaliações de modelos** na página.