

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Espaço de DeepRacer ação e função de recompensa da AWS
<a name="deepracer-how-it-works-action-space"></a>

**Espaço de ação**  
No aprendizado por reforço, o conjunto de todas as ações ou escolhas válidas disponíveis para um agente ao interagir com um ambiente é chamado de espaço de ação. No DeepRacer console da AWS, você pode treinar agentes em um espaço de ação discreto ou contínuo.

**Espaço de ação discreto**  
Um espaço de ação discreto representa todas as ações possíveis de um agente para cada estado em um conjunto finito. Para a AWS DeepRacer, isso significa que, para cada situação ambiental incrementalmente diferente, a rede neural do agente seleciona a velocidade e a direção do carro com base na entrada de suas câmeras e do sensor LiDAR (opcional). A escolha é limitada a um agrupamento de combinações predefinidas de ângulo de direção e controle de utilização.

Um DeepRacer carro da AWS em um espaço de ação discreto se aproximando de uma curva pode optar por acelerar ou frear e virar à esquerda, à direita ou seguir em frente. Essas ações são definidas como uma combinação de ângulo de direção e velocidade, criando um menu de opções, 0-9, para o agente. Por exemplo, 0 pode representar -30 graus e 0,4 m/s, 1 could represent -30 degrees and 0.8 m/s, 2 could represent -15 degrees and 0.4 m/s, 3 could represent -15 degrees and 0.8 m/s e assim por diante até 9. Graus negativos giram o carro para a direita; graus positivos giram o carro para a esquerda e “0” mantém as rodas retas.

O espaço de ação discreto DeepRacer padrão da AWS contém as seguintes ações:


**Espaço de ação discreto DeepRacer padrão da AWS**  

| Número de ação | Direção | Velocidade | 
| --- | --- | --- | 
| 0 | -30 graus | 0,4 m/s | 
| 1 | -30 graus | 0,8 m/s | 
| 2 | -15 graus | 0,4 m/s | 
| 3 | -15 graus | 0,8 m/s | 
| 4 | 0 graus | 0,4 m/s | 
| 5 | 0 graus | 0,8 m/s | 
| 6 | 15 graus | 0,4 m/s | 
| 7 | 15 graus | 0,8 m/s | 
| 8 | 30 graus | 0,4 m/s | 
| 9 | 30 graus | 0,8 m/s | 

**Espaço de ação contínuo**  
Um espaço de ação contínuo permite que o agente selecione uma ação a partir de um intervalo de valores para cada estado. Assim como acontece com um espaço de ação discreto, isso significa que para cada situação ambiental incrementalmente diferente, a rede neural do agente seleciona a velocidade e a direção do carro com base na entrada de suas câmeras e do sensor LiDAR (opcional). No entanto, em um espaço de ação contínuo, você pode definir o intervalo de opções entre as quais o agente escolhe sua ação.

Neste exemplo, o DeepRacer carro da AWS em um espaço de ação contínua que se aproxima de uma curva pode escolher uma velocidade de 0,75 m/s a 4 m/s e virar à esquerda, à direita ou seguir em frente escolhendo um ângulo de direção de -20 a 20 graus.

**Discreto versus contínuo**  
A vantagem de usar um espaço de ação contínua é que você pode escrever funções de recompensa que treinam modelos para incentivar speed/steering ações em pontos específicos de uma trilha que otimizam o desempenho. Escolher entre uma série de ações também cria o potencial de mudanças suaves nos valores de velocidade e direção que, em um modelo bem treinado, podem produzir melhores resultados em condições reais.

Na configuração de espaço de ação discreto, limitar as escolhas de um agente a um número finito de ações predefinidas coloca a responsabilidade de entender o impacto dessas ações e defini-las com base no ambiente (pista, formato de corrida) e em suas funções de recompensa. No entanto, em uma configuração de espaço de ação contínua, o agente aprende a escolher os valores ideais de velocidade e direção a partir dos min/max limites que você fornece por meio do treinamento.

Embora fornecer uma variedade de valores para o modelo escolher pareça ser a melhor opção, o agente precisa treinar por mais tempo para aprender a escolher as ações ideais. O sucesso também depende da definição da função de recompensa.

**Função de recompensa**  
À medida que o agente explora o ambiente, ele aprende uma função de valor. A função de valor ajuda seu agente a avaliar o quão boa é uma ação tomada depois de observar o ambiente. A função de valor usa a função de recompensa que você escreve no DeepRacer console da AWS para pontuar a ação. Por exemplo, seguindo a função de recompensa por amostra da linha central no DeepRacer console da AWS, uma boa ação manteria o agente próximo ao centro da pista e teria uma pontuação maior do que uma ação ruim, o que afastaria o agente do centro da pista.

Com o tempo, a função de valor ajuda o agente a aprender políticas que aumentam a recompensa total. A política ideal, ou melhor, equilibraria a quantidade de tempo que o agente gasta explorando o ambiente com a quantidade de tempo que ele gasta explorando ou fazendo o melhor uso do que a política aprendeu com a experiência.

A seguir, o [exemplo da função de recompensa de DeepRacer amostra da AWS](deepracer-reward-function-examples.md#deepracer-reward-function-example-0) na linha central, o agente primeiro realiza ações aleatórias para explorar o ambiente, o que significa que ele não faz um bom trabalho ao se manter no centro da pista. Com o tempo, o agente começa a aprender quais ações o mantêm próximo à linha central, mas se fizer isso continuando a realizar ações aleatórias, levará muito tempo para aprender a ficar próximo ao centro da pista durante toda a volta. Portanto, à medida que a política começa a aprender boas ações, o agente começa a usar essas ações em vez de realizar ações aleatórias. No entanto, se sempre usar ou explorar as boas ações, o agente não fará novas descobertas, porque não está mais explorando o ambiente. Essa diferença é chamada de problema de exploração e aproveitamento no RL.

Experimente os espaços de ação padrão e as funções de recompensa. Depois de explorar todos eles, use seu conhecimento criando seus próprios [espaços de ação personalizados](deepracer-console-train-evaluate-models.md#deepracer-define-action-space-for-training) e suas [funções de recompensa personalizadas](deepracer-console-train-evaluate-models.md#deepracer-train-models-define-reward-function).