

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Aprendizado por reforço na AWS DeepRacer
<a name="deepracer-how-it-works-overview-reinforcement-learning"></a>

 No aprendizado por reforço, um *agente*, como um DeepRacer veículo físico ou virtual da AWS, com o objetivo de atingir uma meta pretendida interage com um *ambiente* para maximizar a recompensa total do agente. O agente executa uma *ação*, orientado por uma estratégia conhecida como *política*, em um determinado *estado* do ambiente, alcançando um novo estado. Há uma *recompensa* imediata associada a qualquer ação. A recompensa é uma medida da conveniência da ação. Essa recompensa imediata é considerada retornada pelo ambiente. 

O objetivo do aprendizado por reforço na AWS DeepRacer é aprender a política ideal em um determinado ambiente. Aprender é um processo iterativo de tentativa e erro. O agente executa a ação inicial aleatória para chegar a um novo estado. Então, o agente repete a etapa do novo estado no próximo. Com o passar do tempo, o agente descobre ações que geram o máximo de recompensas a longo prazo. A interação do agente de um estado inicial para um estado final é chamado de *episódio*.

O esquema a seguir ilustra esse processo de aprendizagem: 

 

![\[\]](http://docs.aws.amazon.com/pt_br/deepracer/latest/developerguide/images/deepracer-reinforcement-learning-overview.png)


O *agente* incorpora uma rede neural que representa uma função para aproximar a política do agente. A imagem da câmera frontal do veículo é o *estado* e a *ação* do agente é definida pela velocidade do agente e pelos ângulos de direção. 

O agente recebe *recompensas* positivas se permanecer na via para concluir a corrida e recompensas negativas ao sair da via. Um *episódio* começa com o agente em algum lugar na pista e termina quando o agente sai da pista ou completa uma volta.

**nota**  
 Mais especificamente, o estado do ambiente refere-se a tudo o que é relevante para o problema. Por exemplo, a posição do veículo na pista, bem como a forma da pista. A imagem alimentada por meio da câmera montada na frente do veículo não captura todo o estado do ambiente. Por isso, o ambiente é considerado parcialmente observado e a entrada para o agente é chamada de *observação* em vez de estado. Para simplificar, usamos *estado* e *observação* de forma intercambiável nesta documentação. 

Treinar o agente em um ambiente simulado tem as seguintes vantagens:
+  A simulação pode estimar o progresso do agente e identificar quando ele sai da pista para calcular uma recompensa. 
+  A simulação libera o treinador de tarefas entediantes para reiniciar o veículo cada vez que ele sai da pista, como é feito em um ambiente físico.
+  A simulação pode acelerar o treinamento. 
+  A simulação fornece melhor controle das condições do ambiente, por exemplo, a seleção de diferentes pistas, planos de fundo e condições do veículo. 

A alternativa para o aprendizado por reforço é o *aprendizado supervisionado*, também conhecido como *aprendizado por imitação*. Aqui, um conjunto de dados conhecido (de tuplas [imagem, ação]) coletados de um determinado ambiente é usado para treinar o agente. Os modelos que são treinados por meio de aprendizado por imitação podem ser aplicados à condução autônoma. Eles funcionam bem apenas quando as imagens da câmera são semelhantes às imagens no conjunto de dados de treinamento. Para condução robusta, o conjunto de dados de treinamento deve ser abrangente. Por outro lado, o aprendizado por reforço não exige esforços de rotulagem tão extensos e pode ser treinado inteiramente em simulação. Como o aprendizado por reforço começa com ações aleatórias, o agente aprende uma variedade de condições ambientais e de pista. Isso dá robustez ao modelo treinado.