

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Ambientes de RL na Amazon AI SageMaker
<a name="sagemaker-rl-environments"></a>

O Amazon SageMaker AI RL usa ambientes para imitar cenários do mundo real. Dado o estado atual do ambiente e uma ação tomada por um ou mais agentes, o simulador processa o impacto da ação e retorna o próximo estado e um prêmio. Simuladores são úteis nos casos em que não é seguro treinar um agente no mundo real (por exemplo, pilotar um drone) ou se o algoritmo de RL demora muito tempo para convergir (por exemplo, em um jogo de xadrez).

O diagrama a seguir mostra um exemplo das interações com um simulador para um jogo de corrida de carros.

![Um exemplo das interações com um simulador para um jogo de corrida de carros.](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/sagemaker-rl-flow.png)


O ambiente de simulação consiste em um agente e um simulador. Aqui, uma Rede neural convolucional (CNN) consome imagens do simulador e gera ações para controlar o controlador de jogo. Com várias simulações, esse ambiente gera dados de treinamento no formato `state_t`, `action`, `state_t+1` e `reward_t+1`. Definir o prêmio não é um processo comum e afeta a qualidade do modelo de RL. Queremos dar alguns exemplos de funções de prêmio, mas gostaríamos de torná-los configuráveis pelo usuário. 

**Topics**
+ [Use a interface OpenAI Gym para ambientes em SageMaker AI RL](#sagemaker-rl-environments-gym)
+ [Open-Source Ambientes de uso](#sagemaker-rl-environments-open)
+ [Usar ambientes comerciais](#sagemaker-rl-environments-commercial)

## Use a interface OpenAI Gym para ambientes em SageMaker AI RL
<a name="sagemaker-rl-environments-gym"></a>

Para usar ambientes OpenAI Gym no SageMaker AI RL, use os seguintes elementos de API. Para obter mais informações sobre o OpenAI Gym, consulte a [Documentação do Gym](https://www.gymlibrary.dev/).
+ `env.action_space`: Define as ações que o agente pode realizar, especifica se cada ação é contínua ou discreta e especifica o mínimo e o máximo, se a ação for contínua.
+ `env.observation_space`: Define as observações que o agente recebe do ambiente, bem como o mínimo e o máximo para observações contínuas.
+ `env.reset()`: Inicializa um episódio de treinamento. A função `reset()` retorna o estado inicial do ambiente, e o agente usa o estado inicial para realizar sua primeira ação. A ação é então enviada ao `step()` repetidamente até que o episódio atinja um estado terminal. Quando `step()` retorna `done = True`, o episódio termina. O kit de ferramentas de RL reinicializa o ambiente chamando `reset()`.
+ `step()`: Usa a ação do agente como entrada e produz o próximo estado do ambiente, o prêmio, independentemente de o episódio ter sido encerrado, e um dicionário `info` para comunicar informações de depuração. É responsabilidade do ambiente validar as entradas.
+ `env.render()`: Usada para ambientes que possuem visualização. O kit de ferramentas RL chama essa função para capturar visualizações do ambiente após cada chamada para a função `step()`.

## Open-Source Ambientes de uso
<a name="sagemaker-rl-environments-open"></a>

Você pode usar ambientes de código aberto, como EnergyPlus e RoboSchool, no SageMaker AI RL criando seu próprio contêiner. Para obter mais informações sobre EnergyPlus, consulte [https://energyplus.net/](https://energyplus.net/). Para obter mais informações sobre RoboSchool, consulte [https://github.com/openai/roboschool](https://github.com/openai/roboschool). O HVAC e os RoboSchool exemplos no [repositório de exemplos de SageMaker IA](https://github.com/awslabs/amazon-sagemaker-examples/tree/master/reinforcement_learning) mostram como criar um contêiner personalizado para usar com SageMaker o AI RL:

## Usar ambientes comerciais
<a name="sagemaker-rl-environments-commercial"></a>

Você pode usar ambientes comerciais, como MATLAB e Simulink, no SageMaker AI RL criando seu próprio contêiner. Você precisa gerenciar suas próprias licenças.