

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Avalie seu modelo de RFT
<a name="rft-evaluate-model"></a>

Depois que seu trabalho de ajuste fino de reforço for concluído com êxito, você poderá avaliar o desempenho do seu modelo personalizado usando vários métodos de avaliação. O Amazon Bedrock fornece ferramentas de avaliação integradas para ajudar você a comparar seu modelo RFT com o modelo básico e validar melhorias.

**Topics**
+ [

## Métodos de avaliação
](#rft-evaluation-methods)
+ [

## Configurando a inferência para avaliação
](#rft-setup-inference-evaluation)
+ [

## Melhores práticas de avaliação
](#rft-evaluation-best-practices)

## Métodos de avaliação
<a name="rft-evaluation-methods"></a>

O Amazon Bedrock oferece várias maneiras de avaliar o desempenho do seu modelo RFT.

### Métricas de validação
<a name="rft-validation-metrics"></a>

Se você fizer o upload de um conjunto de dados de validação, verá dois gráficos adicionais nas métricas de treinamento.
+ **Recompensas de validação** - Mostra o quão bem seu modelo é generalizado além dos exemplos de treinamento. Pontuações mais baixas do que as recompensas de treinamento são normais e esperadas.
+ **Duração do episódio de validação** - Duração média da resposta em dados de validação não vistos. Mostra a eficiência com que seu modelo responde às novas entradas em comparação com os exemplos de treinamento.

### Teste no Playground
<a name="rft-test-playground"></a>

Use o recurso Testar no Playground para avaliações rápidas e ad-hoc. Para usar o recurso Testar no Playground, a inferência precisa ser configurada. Para obter mais informações, consulte [Configurando a inferência para avaliação](#rft-setup-inference-evaluation).

Essa ferramenta interativa permite que você:
+ Teste os prompts diretamente com seu modelo RFT
+ Compare as respostas side-by-side entre seu modelo personalizado e o modelo básico
+ Avalie as melhorias na qualidade da resposta em tempo real
+ Experimente com diferentes instruções para avaliar as capacidades do modelo

### Avaliação do modelo Bedrock
<a name="rft-model-evaluation"></a>

Use a avaliação de modelo do Amazon Bedrock para avaliar seu modelo RFT usando seus próprios conjuntos de dados. Isso fornece uma análise abrangente de desempenho com métricas e benchmarks padronizados. Aqui estão alguns exemplos dos benefícios do Amazon Bedrock Model Evaluation.
+ Avaliação sistemática usando conjuntos de dados de teste personalizados
+ Comparações quantitativas de desempenho
+ Métricas padronizadas para avaliação consistente
+ Integração com fluxos de trabalho de avaliação existentes do Amazon Bedrock

## Configurando a inferência para avaliação
<a name="rft-setup-inference-evaluation"></a>

Antes de avaliar seu modelo de RFT, configure a inferência usando uma das seguintes opções:

### Inferência sob demanda
<a name="rft-on-demand-inference"></a>

Crie um modelo personalizado de implantação sob demanda para pay-per-use avaliação flexível. Essa opção inclui preços baseados em tokens que são cobrados com base no número de tokens processados durante a inferência.

## Melhores práticas de avaliação
<a name="rft-evaluation-best-practices"></a>
+ **Compare sistematicamente** - Sempre avalie seu modelo RFT em relação ao modelo básico usando as mesmas instruções de teste e critérios de avaliação.
+ **Use diversos casos de teste** - inclua vários tipos de solicitações e cenários que representem seus casos de uso no mundo real.
+ **Valide o alinhamento da recompensa** - Garanta que as melhorias do seu modelo estejam alinhadas com as funções de recompensa usadas durante o treinamento.
+ **Teste casos extremos** - Avalie o comportamento do modelo em entradas desafiadoras ou incomuns para avaliar a robustez.
+ **Monitore a consistência da resposta** - Verifique se seu modelo fornece qualidade consistente em várias execuções com solicitações semelhantes.