O Amazon Forecast não está mais disponível para novos clientes. Os clientes existentes do Amazon Forecast podem continuar usando o serviço normalmente. [Saiba mais](https://aws.amazon.com/blogs/machine-learning/transition-your-amazon-forecast-usage-to-amazon-sagemaker-canvas/)

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Importação de conjuntos de dados
<a name="howitworks-datasets-groups"></a>

Os *conjuntos de dados* contêm os dados usados para treinar um [preditor](howitworks-predictor.md). Crie um ou mais conjuntos de dados do Amazon Forecast e importe os dados de treinamento para eles. Um *grupo de conjuntos de dados* é uma coleção de conjuntos de dados complementares que detalham um conjunto de alterações de parâmetros ao longo de uma série temporal. Depois de criar um grupo de conjuntos de dados, você o usará para treinar um preditor. 

Cada grupo de conjuntos de dados pode ter até três conjuntos de dados, um de cada tipo de [conjunto de dados](#howitworks-dataset-domainstypes): séries temporais de destino, séries temporais relacionadas e metadados de itens.

Para criar e gerenciar conjuntos de dados e grupos de conjuntos de dados do Forecast, você pode usar o console do Forecast, AWS Command Line Interface (AWS CLI) ou AWS o SDK.

Por exemplo, conjuntos de dados do Forecast, consulte o [ GitHubrepositório Amazon Forecast Sample](https://github.com/aws-samples/amazon-forecast-samples).

**Topics**
+ [

## Conjuntos de dados
](#howitworks-dataset)
+ [

## Grupos de conjuntos de dados
](#howitworks-datasetgroup)
+ [

## Resolver conflitos na frequência da coleta de dados
](#howitworks-data-alignment)
+ [

# Usar conjuntos de dados de séries temporais relacionadas
](related-time-series-datasets.md)
+ [

# Uso de conjuntos de dados de metadados de itens
](item-metadata-datasets.md)
+ [

# Domínios e tipos de conjunto de dados predefinidos
](howitworks-domains-ds-types.md)
+ [

# Atualização de dados
](updating-data.md)
+ [

# Lidar com valores ausentes
](howitworks-missing-values.md)
+ [

# Diretrizes de conjuntos de dados do Forecast
](dataset-import-guidelines-troubleshooting.md)

## Conjuntos de dados
<a name="howitworks-dataset"></a>

Para criar e gerenciar conjuntos de dados do Forecast, você pode usar o Forecast APIs, incluindo as [DescribeDataset](API_DescribeDataset.md) operações [CreateDataset](API_CreateDataset.md) e. Para obter uma lista completa do Forecast APIs, consulte[Referência da API](api-reference.md).

Ao criar um conjunto de dados, você fornece informações, como as seguintes:
+ O frequency/interval local em que você gravou seus dados. Por exemplo, você pode agregar e registrar vendas de itens de varejo toda semana. No exercício [Conceitos básicos](getting-started.md), use a eletricidade média usada por hora.
+ O formato de previsão (o *domínio*) e o tipo de conjunto de dados (dentro do domínio). Um domínio de conjunto de dados especifica qual tipo de previsão você gostaria de executar, enquanto um tipo de conjunto de dados ajuda você a organizar os dados de treinamento em categorias intuitivas para o Forecast.
+ O *esquema* do conjunto de dados. Um esquema mapeia os cabeçalhos da coluna do conjunto de dados. Por exemplo, ao monitorar a demanda, você pode ter coletado dados por hora sobre as vendas de um item em várias lojas. Nesse caso, o esquema define a ordem, da esquerda para a direita, em que o time stamp, o local e as vendas por hora aparecem no arquivo de dados de treinamento. Os esquemas também definem o tipo de dados de cada coluna, como `string` ou `integer`.
+ Informações sobre geolocalização e fuso horário. O atributo de geolocalização é definido no esquema com o tipo de atributo `geolocation`. As informações de fuso horário são definidas com a [ CreateDatasetImportJob](API_CreateDatasetImportJob.md)operação. Os dados de geolocalização e fuso horário devem ser incluídos para habilitar o [Weather Index](weather.md).

Cada coluna no conjunto de dados do Forecast representa uma *dimension* ou *feature* da previsão. As dimensões de previsão descrevem os aspectos dos dados que não mudam ao longo do tempo, tal como `store` ou `location`. Os recursos de previsão incluem qualquer parâmetro em nos dados que variam ao longo do tempo, como `price` ou `promotion`. Algumas dimensões, como `timestamp` ou `itemId`, são necessárias em conjuntos de dados de séries temporais de destino e de séries temporais relacionadas.

### Domínios e tipos de conjunto de dados
<a name="howitworks-dataset-domainstypes"></a>

Ao criar um conjunto de dados do Forecast, você escolhe um domínio e um tipo de conjunto de dados. O Forecast fornece domínios para vários casos de uso, como previsão de demanda de varejo ou tráfego da web. Também é possível criar um domínio personalizado. Para obter uma lista completa de domínios do Forecast, consulte [Domínios e tipos de conjunto de dados predefinidos](howitworks-domains-ds-types.md).

Em cada domínio, os usuários do Forecast podem especificar os seguintes tipos de conjuntos de dados:
+ Conjunto de dados de séries temporais de destino (obrigatório): use este tipo de conjunto de dados quando os dados de treinamento forem uma série temporal *e* eles incluírem o campo para o qual você deseja gerar uma previsão. Esse campo é chamado de *campo de destino*.
+ Conjunto de dados de séries temporais relacionadas (opcional): escolha este tipo de conjunto de dados quando os dados de treinamento forem uma série temporal, mas *não* incluírem o campo de destino. Por exemplo, se você estiver prevendo a demanda de itens, um conjunto de dados de séries temporais relacionadas pode ter `price` como um campo, mas não `demand`.
+ Conjunto de dados de metadados de itens (opcional): escolha este tipo de conjunto de dados quando os dados de treinamento *não* forem dados de séries temporais, mas incluírem informações de metadados sobre os itens nos conjuntos de dados de séries temporais de destino ou relacionadas. Por exemplo, se você estiver prevendo a demanda do item, um conjunto de dados de metadados de itens pode ter `color` ou `brand` como dimensões. 

  O Forecast considera somente os dados fornecidos por um tipo de conjunto de dados de metadados de itens quando você usa o algoritmo [CNN-QR](aws-forecast-algo-cnnqr.md) ou [DeepAR\$1](aws-forecast-recipe-deeparplus.md).

  Os metadados de itens são especialmente úteis em cenários de previsão coldstart, nos quais você tem poucos dados históricos diretos com os quais fazer previsões, mas tem dados históricos em itens com atributos de metadados semelhantes. Quando você inclui metadados de itens, o Forecast cria previsões coldstart com base em séries temporais semelhantes, o que pode criar uma previsão mais precisa. 

Dependendo das informações nos dados de treinamento e do que você deseja prever, é possível criar mais de um conjunto de dados. 

Por exemplo, suponha que você deseja gerar uma previsão para a demanda de itens de varejo, como sapatos e meias. Você pode criar os seguintes conjuntos de dados no domínio RETAIL:
+ Conjunto de dados de séries temporais de destino: inclui os dados históricos de demanda de séries temporais para os itens de varejo (`item_id`, `timestamp` e o campo de destino `demand`). Como ele designa o campo de destino que você deseja prever, é necessário ter pelo menos um conjunto de dados de séries temporais de destino em um grupo de conjuntos de dados.

  Também é possível adicionar até dez outras dimensões a um conjunto de dados de séries temporais de destino. Se você incluir somente um conjunto de dados de séries temporais de destino no grupo de conjuntos de dados, poderá criar previsões no nível do item ou somente no nível de granularidade da dimensão da previsão. Para obter mais informações, consulte [CreatePredictor](API_CreatePredictor.md).
+ Conjunto de dados de séries temporais relacionadas: inclui dados históricos de séries temporais diferentes do campo de destino, como `price` ou `revenue`. Como os dados de séries temporais relacionadas devem ser mapeáveis para os dados de séries temporais de destino, cada conjunto de dados de séries temporais relacionadas deve conter os mesmos campos de identificação. No domínio RETAIL, eles seriam `item_id` e `timestamp`.

  Um conjunto de dados de séries temporais relacionadas pode conter dados que refinam as previsões feitas com base no conjunto de dados de séries temporais de destino. Por exemplo, você pode incluir dados `price` no conjunto de dados de séries temporais relacionadas nas datas futuras para as quais deseja gerar uma previsão. Desta forma, o Forecast pode fazer previsões com uma dimensão adicional de contexto. Para obter mais informações, consulte [Usar conjuntos de dados de séries temporais relacionadas](related-time-series-datasets.md).
+ Conjunto de dados de metadados de itens: inclui metadados para os itens de varejo. Outros exemplos de metadados incluem `brand`, `category`, `color` e `genre`.

**Exemplo de conjunto de dados com uma dimensão de previsão**

Dando continuidade ao exemplo anterior, imagine que você deseja prever a demanda por sapatos e meias com base nas vendas anteriores de uma loja. No conjunto de dados de séries temporais de destino a seguir, `store` é uma dimensão de previsão de série temporal, enquanto `demand` é o campo de destino. As meias são vendidas em duas localizações de loja (NYC e SFO), e os sapatos são vendidos somente em ORD.

As três primeiras linhas dessa tabela contêm os primeiros dados de vendas disponíveis para as lojas de NYC, SFO e ORD. As últimas três linhas contêm os últimos dados de vendas registrados para cada loja. A linha `...` representa todos os dados de vendas de itens registrados entre a primeira e a última entradas.


| `timestamp` | `item_id` | `store` | `demand` | 
| --- | --- | --- | --- | 
| 2019-01-01 | socks | NYC |  25  | 
| 2019-01-05 | socks | SFO | 45 | 
| 2019-02-01 | shoes | ORD | 10 | 
| ... | 
| 2019-06-01 | socks | NYC | 100 | 
| 2019-06-05 | socks | SFO | 5 | 
| 2019-07-01 | shoes | ORD | 50 | 

### Esquema do conjunto de dados
<a name="howitworks-dataset-schema"></a>

Cada conjunto de dados requer um esquema, um mapeamento JSON fornecido pelo usuário dos campos nos dados de treinamento. É aqui que você lista as dimensões e os recursos obrigatórios e opcionais que deseja incluir no conjunto de dados.

Se seu conjunto de dados incluir um atributo de geolocalização, defina o atributo no esquema com o tipo de atributo `geolocation`. Para obter mais informações, consulte [Como adicionar informações de geolocalização](weather.md#adding-geolocation). Para aplicar o [Weather Index](weather.md), você deve incluir um atributo de geolocalização na série temporal de destino e em qualquer conjunto de dados de séries temporais relacionadas.

Alguns domínios têm dimensões opcionais que recomendamos incluir. As dimensões opcionais são listadas nas descrições de cada domínio posteriormente neste guia. Para ver um exemplo, consulte [Domínio RETAIL](retail-domain.md). Todas as dimensões opcionais têm o tipo de dados `string`.

Para cada conjunto de dados, é necessário um esquema. Veja a seguir o esquema que acompanha o exemplo de conjunto de dados de séries temporais de destino acima.

```
{
     "attributes": [
        {
           "AttributeName": "timestamp",
           "AttributeType": "timestamp"
        },
        {
           "AttributeName": "item_id",
           "AttributeType": "string"
        },
        {
           "AttributeName": "store",
           "AttributeType": "string"
        },
        {
           "AttributeName": "demand",
           "AttributeType": "float"
        }
    ]
}
```

Ao fazer upload dos dados de treinamento para o conjunto de dados que usa esse esquema, o Forecast pressupõe que o campo `timestamp` é a coluna 1, o campo `item_id` é a coluna 2, o campo `store` é a coluna 3 e o campo `demand`, o campo de *destino*, é a coluna 4.

Para o tipo de conjunto de dados de séries temporais relacionadas, todos os recursos relacionados devem ter um tipo de atributo flutuante ou inteiro. Para o tipo de conjunto de dados de metadados de itens, todos os recursos devem ter um tipo de atributo de string. Para obter mais informações, consulte [SchemaAttribute](API_SchemaAttribute.md).

**nota**  
Um par `attributeName` e `attributeType` é necessário para cada coluna no conjunto de dados. O Forecast reserva vários nomes que não podem ser usados como nome de um atributo de esquema. Para obter a lista de nomes reservados, consulte [Nomes de campo reservados](reserved-field-names.md).

## Grupos de conjuntos de dados
<a name="howitworks-datasetgroup"></a>

Um *grupo de conjuntos de dados* é uma coleção de um a três conjuntos de dados complementares, um de cada tipo de conjunto de dados. Importa conjuntos de dados para um grupo de conjuntos de dados e use o grupo de conjuntos de dados para treinar um preditor.

O Forecast inclui as seguintes operações para criar grupos de conjuntos de dados e adicionar conjuntos de dados a eles:
+ [CreateDatasetGroup](API_CreateDatasetGroup.md)
+ [UpdateDatasetGroup](API_UpdateDatasetGroup.md)

## Resolver conflitos na frequência da coleta de dados
<a name="howitworks-data-alignment"></a>

O Forecast pode treinar preditores com dados que não se alinham à frequência de dados especificada na operação [CreateDataset](API_CreateDataset.md). Por exemplo, você pode importar dados registrados em intervalos de hora em hora, mesmo que alguns dos dados não tenham carimbo de data e hora no início da hora (02:20, 02:45). O Forecast usa a frequência de dados especificada para aprender sobre seus dados. Em seguida, o Forecast agrega os dados durante o treinamento do preditor. Para obter mais informações, consulte [Agregação de dados para diferentes frequências de previsão](data-aggregation.md). 

# Usar conjuntos de dados de séries temporais relacionadas
<a name="related-time-series-datasets"></a>

Um conjunto de dados de séries temporais relacionadas inclui dados de séries temporais que não estão incluídos em um conjunto de dados de séries temporais de destino e podem melhorar a precisão do preditor.

Por exemplo, no domínio de previsão de demanda, um conjunto de dados de séries temporais de destino conteria as dimensões `timestamp` e `item_id`, enquanto um conjunto de dados de séries temporais relacionadas complementar também inclui os seguintes recursos complementares: `item price`, `promotion` e `weather`.

Um conjunto de dados de séries temporais relacionadas pode conter até 10 dimensões de previsão (as mesmas do conjunto de dados de séries temporais de destino) e até 13 recursos de séries temporais relacionadas.

**Cadernos Python**  
Para obter um step-by-step guia sobre o uso de conjuntos de dados de séries temporais relacionadas, consulte [Incorporação de séries temporais relacionadas](https://github.com/aws-samples/amazon-forecast-samples/blob/master/notebooks/advanced/Incorporating_Related_Time_Series_dataset_to_your_Predictor/Incorporating_Related_Time_Series_dataset_to_your_Predictor.ipynb).

**Topics**
+ [

## Séries temporais históricas e prospectivas relacionadas
](#related-time-series-historical-futurelooking)
+ [

## Validação do conjunto de dados de séries temporais relacionadas
](#related-time-series-dataset-validation)
+ [

## Exemplo: Arquivo de série temporal prospectiva relacionada
](#related-time-series-example)
+ [

## Exemplo: granularidade de previsão
](#related-time-series-granularity)
+ [

## Preditores antigos e séries temporais relacionadas
](#related-time-series-legacy)

## Séries temporais históricas e prospectivas relacionadas
<a name="related-time-series-historical-futurelooking"></a>

**nota**  
 Uma série temporal relacionada que contém quaisquer valores no horizonte de previsão é tratada como uma série temporal prospectiva. 

 As séries temporais relacionadas são fornecidas de duas formas: 
+  **Séries temporais históricas:** séries temporais *sem* pontos de dados no horizonte de previsão. 
+  **Séries temporais prospectivas:** séries temporais *com* pontos de dados no horizonte de previsão. 

As séries temporais históricas relacionadas contêm pontos de dados até o horizonte de previsão e não contêm nenhum ponto de dados no horizonte de previsão. As séries temporais prospectivas relacionadas contêm pontos de dados até o horizonte de previsão *e* dentro dele. 

![\[Time series graph showing target, forward-looking, and historical related data with forecast window.\]](http://docs.aws.amazon.com/pt_br/forecast/latest/dg/images/short-long-rts.png)


## Validação do conjunto de dados de séries temporais relacionadas
<a name="related-time-series-dataset-validation"></a>

Um conjunto de dados de séries temporais relacionadas tem as seguintes restrições:
+ Ele não pode incluir o valor de destino da série temporal de destino.
+ Ele deve incluir as dimensões `item_id` e `timestamp`, e pelo menos um recurso relacionado (como `price`).
+ Os dados do recurso de séries temporais relacionadas devem ser dos tipos de dados `int` ou `float`.
+ Para usar toda a série temporal de destino, todos os itens do conjunto de dados de séries temporais de destino também devem ser incluídos no conjunto de dados de séries temporais relacionadas. Se uma série temporal relacionada contiver apenas um subconjunto de itens da série temporal de destino, a criação do modelo e a geração da previsão serão limitadas a esse subconjunto específico de itens.

   Por exemplo, se a série temporal de destino contiver 1.000 itens e o conjunto de dados de séries temporais relacionadas contiver apenas 100 itens, o modelo e as previsões se basearão somente nesses 100 itens. 
+ A frequência na qual os dados são registrados no conjunto de dados de séries temporais relacionadas deve corresponder ao intervalo no qual você deseja gerar previsões (a *granularidade* de previsão).

  Por exemplo, se você quiser gerar previsões em uma granularidade semanal, a frequência na qual os dados são registrados na série temporal relacionada também deve ser semanal, ainda que a frequência na qual os dados são registrados na série temporal de destino seja diária.
+ Os dados para cada item no conjunto de dados de séries temporais relacionadas devem ser iniciados no começo ou antes do começo de `timestamp` do `item_id` correspondente no conjunto de dados de séries temporais de destino.

  Por exemplo, se os dados de séries temporais de destino para `socks` começam em 2019-01-01 e os dados de séries temporais de destino para `shoes` começam em 2019-02-01, os dados de séries temporais relacionadas para `socks` devem começar em 2019-01-01 ou antes e os dados para `shoes` devem começar em 2019-02-01.
+ No conjunto de dados de séries temporais prospectivas relacionadas, o último carimbo de data e hora de cada item deve estar no último carimbo de data e hora na janela de previsão designada pelo usuário (chamada *horizonte de previsão*).

  No exemplo do arquivo de séries temporais relacionadas a seguir, os dados de `timestamp` das meias e dos sapatos devem terminar em 2019-07-01 ou depois (o último time stamp registrado) *mais* o horizonte de previsão. Se a frequência de dados na série temporal de destino for diária e o horizonte de previsão for de 10 dias, os pontos de dados diários deverão ser fornecidos no arquivo de séries temporais prospectivas relacionadas até 2019-07-11.
+ Nos conjuntos de dados de séries temporais históricas relacionadas, o último carimbo de data e hora de cada item deve corresponder ao último carimbo de data e hora na série temporal de destino.

  No exemplo do arquivo de séries temporais relacionadas a seguir, os dados `timestamp` de meias e sapatos devem terminar em 2019-07-01 (o último carimbo de data e hora registrado).
+ As dimensões do Forecast fornecidas no conjunto de dados de séries temporais relacionadas devem ser iguais ou um subconjunto das dimensões designadas no conjunto de dados de séries temporais de destino.
+  As séries temporais relacionadas não podem ter valores ausentes. Para obter informações sobre os valores ausentes em um conjunto de dados de séries temporais relacionadas, consulte [Como lidar com valores ausentes](howitworks-missing-values.md). 

## Exemplo: Arquivo de série temporal prospectiva relacionada
<a name="related-time-series-example"></a>

A tabela a seguir mostra um arquivo de conjunto de dados de séries temporais relacionadas configurado corretamente. Para este exemplo, suponha o seguinte:
+ O último ponto de dados foi registrado no conjunto de dados de séries temporais de destino em 2019-07-01.
+  O horizonte de previsão é de 10 dias. 
+ A granularidade de previsão é diária (`D`). 

Uma linha "`…`" indica todos os pontos de dados entre as linhas anteriores e posteriores.


| `timestamp` | `item_id` | `store` | `price` | 
| --- | --- | --- | --- | 
| 2019-01-01 | meias | NYC | 10 | 
| 2019-01-02 | meias | NYC | 10 | 
| 2019-01-03 | meias | NYC | 15 | 
| ... | 
| 2019-06-01 | meias | NYC | 10 | 
| ... | 
| 2019-07-01 | meias | NYC | 10 | 
| ... | 
| 2019-07-11 | meias | NYC | 20 | 
| 2019-01-05 | meias | SFO | 45 | 
| ... | 
| 2019-06-05 | meias | SFO | 10 | 
| ... | 
| 2019-07-01 | meias | SFO | 10 | 
| ... | 
| 2019-07-11 | meias | SFO | 30 | 
| 2019-02-01 | sapatos | ORD | 50 | 
| ... | 
| 2019-07-01 | sapatos | ORD | 75 | 
| ... | 
| 2019-07-11 | sapatos | ORD | 60 | 

## Exemplo: granularidade de previsão
<a name="related-time-series-granularity"></a>

A tabela a seguir mostra as frequências de registro de dados compatíveis para séries temporais de destino e séries temporais relacionadas a serem previstas em uma granularidade semanal. Como os dados em um conjunto de dados de séries temporais relacionadas não podem ser agregados, o Forecast aceita apenas uma frequência de dados de séries temporais relacionadas que seja a mesma da granularidade de previsão escolhida.


| Frequência de dados de entrada de destino | Frequência de séries temporais | Granularidade de previsão | Compatível com o Forecast? | 
| --- | --- | --- | --- | 
| Por dia | Weekly | Weekly | Sim | 
| Weekly | Weekly | Weekly | Sim | 
| N/D | Weekly | Weekly | Sim | 
| Por dia | Por dia | Weekly | Não | 

## Preditores antigos e séries temporais relacionadas
<a name="related-time-series-legacy"></a>

**nota**  
Para atualizar um preditor existente para AutoPredictor, consulte [Atualizando para AutoPredictor](howitworks-predictor.md#upgrading-autopredictor)

Ao usar um preditor antigo, é possível usar um conjunto de dados de séries temporais relacionadas ao treinar um preditor com os algoritmos [CNN-QR](aws-forecast-algo-cnnqr.md), [DeepAR\$1](aws-forecast-recipe-deeparplus.md) e [Prophet](aws-forecast-recipe-prophet.md). [NPTS](aws-forecast-recipe-npts.md), [ARIMA](aws-forecast-recipe-arima.md) e [ETS](aws-forecast-recipe-ets.md) não aceitam dados de séries temporais relacionadas.

A tabela a seguir mostra os tipos de séries temporais relacionadas que cada algoritmo do Amazon Forecast aceita. 


|  | CNN-QR | DeepAR\$1 | Prophet | NPTS | ARIMA | ETS | 
| --- | --- | --- | --- | --- | --- | --- | 
|  Séries temporais históricas relacionadas  | ![\[Yes\]](http://docs.aws.amazon.com/pt_br/forecast/latest/dg/images/icon-yes.png)  | ![\[No\]](http://docs.aws.amazon.com/pt_br/forecast/latest/dg/images/icon-no.png)  | ![\[No\]](http://docs.aws.amazon.com/pt_br/forecast/latest/dg/images/icon-no.png)  | ![\[No\]](http://docs.aws.amazon.com/pt_br/forecast/latest/dg/images/icon-no.png)  | ![\[No\]](http://docs.aws.amazon.com/pt_br/forecast/latest/dg/images/icon-no.png)  | ![\[No\]](http://docs.aws.amazon.com/pt_br/forecast/latest/dg/images/icon-no.png)  | 
|  Séries temporais prospectivas relacionadas  | ![\[Yes\]](http://docs.aws.amazon.com/pt_br/forecast/latest/dg/images/icon-yes.png)  | ![\[Yes\]](http://docs.aws.amazon.com/pt_br/forecast/latest/dg/images/icon-yes.png)  | ![\[Yes\]](http://docs.aws.amazon.com/pt_br/forecast/latest/dg/images/icon-yes.png)  | ![\[No\]](http://docs.aws.amazon.com/pt_br/forecast/latest/dg/images/icon-no.png)  | ![\[No\]](http://docs.aws.amazon.com/pt_br/forecast/latest/dg/images/icon-no.png)  | ![\[No\]](http://docs.aws.amazon.com/pt_br/forecast/latest/dg/images/icon-no.png)  | 

 Ao usar o AutoML, você pode fornecer dados de séries temporais históricas e prospectivas relacionadas, e o Forecast só usará essas séries temporais quando aplicável. 

 Se você fornecer dados de séries temporais *prospectivas* relacionadas, o Forecast usará os dados relacionados com CNN-QR, DeepAR\$1 e Prophet, e não usará os dados relacionados com NPTS, ARIMA e ETS. Se você fornecer dados de séries temporais *históricas* relacionadas, o Forecast usará os dados relacionados com CNN-QR, e não usará os dados relacionados com DeepAR\$1, Prophet, NPTS, ARIMA e ETS. 

# Uso de conjuntos de dados de metadados de itens
<a name="item-metadata-datasets"></a>

Um *conjunto de dados de metadados de itens* contém dados categóricos que fornecem um contexto valioso para os itens em um conjunto de dados de séries temporais de destino. Ao contrário dos conjuntos de dados de séries temporais relacionados, os conjuntos de dados de metadados de itens fornecem informações estáticas. Ou seja, os valores de dados permanecem constantes ao longo do tempo, como a cor ou a marca de um item. Os conjuntos de dados de metadados de itens são adições opcionais aos seus grupos de conjuntos de dados. Você poderá usar metadados de um item somente se cada item em seu conjunto de dados de séries temporais de destino estiver presente no conjunto de dados de metadados de itens correspondente.

Os metadados de itens podem incluir a marca, a cor, o modelo, a categoria, o local de origem ou outro recurso complementar de um item específico. Por exemplo, um conjunto de dados de metadados de itens pode fornecer contexto para alguns dos dados de demanda encontrados em um conjunto de dados de séries temporais de destino que representa as vendas de e-Readers pretos da Amazon com 32 GB de armazenamento. Como essas características não mudam de day-to-day ou hour-to-hour, elas pertencem a um conjunto de dados de metadados do item.

Os metadados de itens são úteis para descobrir e rastrear padrões descritivos em seus dados de séries temporais. Se você incluir um conjunto de dados de metadados de itens no seu grupo de conjuntos de dados, o Forecast poderá treinar o modelo para fazer previsões mais precisas com base em semelhanças entre os itens. Por exemplo, você poderá achar que os produtos de assistente virtual fabricados pela Amazon são mais propensos a vender do que aqueles criados por outras empresas e planejar sua cadeia de suprimentos adequadamente.

Os metadados de itens são especialmente úteis em cenários de previsão coldstart, nos quais você tem poucos dados históricos diretos com os quais fazer previsões, mas tem dados históricos em itens com atributos de metadados semelhantes. Os metadados de itens permitem que o Forecast aproveite itens semelhantes aos seus itens coldstart para produzir uma previsão.

Quando você inclui metadados de itens, o Forecast cria previsões coldstart com base em séries temporais semelhantes, o que pode criar uma previsão mais precisa. As previsões coldstart são geradas para itens que estão no conjunto de dados de metadados de itens, mas não na série temporal final. Primeiro, o Forecast gera previsões para os itens não coldstart, que são itens com dados históricos na série temporal final. Em seguida, para cada item coldstart, são localizados seus vizinhos mais próximos que usam o conjunto de dados de metadados de itens. Em seguida, esses vizinhos mais próximos são usados para criar uma previsão coldstart.

Cada linha em um conjunto de dados de metadados de itens pode conter até 10 campos de metadados, um dos quais deve ser um campo de identificação para corresponder os metadados a um item na série temporal de destino. Assim como acontece com todos os tipos de conjuntos de dados, os valores de cada campo são designados por um esquema de conjunto de dados.

**Cadernos Python**  
Para obter um step-by-step guia sobre o uso de metadados de itens, consulte [Incorporação de metadados de itens](https://github.com/aws-samples/amazon-forecast-samples/blob/master/notebooks/advanced/Incorporating_Item_Metadata_Dataset_to_your_Predictor/Incorporating_Item_Metadata_Dataset_to_your_Predictor.ipynb).

**Topics**
+ [

## Exemplo: arquivo de metadados de itens e esquema
](#item-metadata-example)
+ [

## Preditores antigos e metadados de itens
](#item-metadata-legacy)
+ [

## Consulte também
](#item-metadata-see-also)

## Exemplo: arquivo de metadados de itens e esquema
<a name="item-metadata-example"></a>

A tabela a seguir mostra uma seção de um arquivo de conjunto de dados de metadados de itens configurado corretamente que descreve os e-Readers da Amazon. Para este exemplo, suponha que a linha de cabeçalho representa o esquema do conjunto de dados e que cada item listado está em um conjunto de dados de série temporal de destino correspondente.


| `item_id` | `brand` | `model` | `color` | `waterproof` | 
| --- | --- | --- | --- | --- | 
| 1 | amazon | paperwhite | preta | sim | 
| 2 | amazon | paperwhite | blue | sim | 
| 3 | amazon | base\$1model | preta | não | 
| 4 | amazon | base\$1model | white | não | 
| ... | 

A seguir estão as mesmas informações representadas no formato CSV.

```
1,amazon,paperwhite,black,yes
2,amazon,paperwhite,blue,yes
3,amazon,base_model,black,no
4,amazon,base_model,white,no
...
```

A seguir está o esquema para este conjunto de dados de exemplo.

```
{
     "attributes": [
        {
           "AttributeName": "item_id",
           "AttributeType": "string"
        },
        {
           "AttributeName": "brand",
           "AttributeType": "string"
        },
        {
           "AttributeName": "model",
           "AttributeType": "string"
        },
        {
           "AttributeName": "color",
           "AttributeType": "string"
        },
        {
           "AttributeName": "waterproof",
           "AttributeType": "string"
        }
    ]
}
```

## Preditores antigos e metadados de itens
<a name="item-metadata-legacy"></a>

**nota**  
Para atualizar um preditor existente para AutoPredictor, consulte [Atualizando para AutoPredictor](howitworks-predictor.md#upgrading-autopredictor)

Ao usar um preditor legado, você pode usar metadados de itens ao treinar um preditor com os algoritmos [CNN-QR](aws-forecast-algo-cnnqr.md) ou [DeepAR\$1](aws-forecast-recipe-deeparplus.md). Ao usar o AutoML, você pode fornecer metadados de itens, e o Forecast usará essas séries temporais apenas quando aplicável.

## Consulte também
<a name="item-metadata-see-also"></a>

[Para uma explicação detalhada sobre o uso de conjuntos de dados de metadados de itens, consulte [Incorporando conjuntos de dados de metadados de itens em seu preditor no Amazon Forecast](https://github.com/aws-samples/amazon-forecast-samples/blob/master/notebooks/advanced/Incorporating_Item_Metadata_Dataset_to_your_Predictor/Incorporating_Item_Metadata_Dataset_to_your_Predictor.ipynb) Samples Repository. GitHub ](https://github.com/aws-samples/amazon-forecast-samples)

# Domínios e tipos de conjunto de dados predefinidos
<a name="howitworks-domains-ds-types"></a>

Para treinar um preditor, você cria um ou mais conjuntos de dados, adiciona-os a um grupo de conjuntos de dados e fornece o grupo de conjuntos de dados para treinamento.

Para cada conjunto de dados criado, você associa um domínio de conjunto de dados e um tipo de conjunto de dados. Um *domínio de conjunto de dados* especifica um esquema de conjunto de dados predefinido para um caso de uso comum e não afeta algoritmos de modelo ou hiperparâmetros.

O Amazon Forecast oferece suporte aos seguintes domínios de conjunto de dados:
+ [Domínio RETAIL](retail-domain.md): para a previsão de demanda de varejo
+ [Domínio INVENTORY\$1PLANNING](inv-planning-domain.md): para uma cadeia de suprimentos e um planejamento de inventário
+ [Domínio EC2 CAPACITY](ec2-capacity-domain.md): para prever a capacidade do Amazon Elastic Compute Cloud (Amazon EC2) 
+ [Domínio WORK\$1FORCE](workforce-domain.md): para planejamento da força de trabalho 
+ [Domínio WEB\$1TRAFFIC](webtraffic-domain.md): para estimar o tráfego futuro da web 
+ [Domínio METRICS](metrics-domain.md): para previsão de métricas, como receita e fluxo de caixa
+ [Domínio CUSTOM](custom-domain.md): para todos os outros tipos de previsão de série temporal

Cada domínio pode ter de um a três *tipos de conjunto de dados*. Os tipos de conjunto de dados que você cria para um domínio são baseados no tipo de dados que tem e o que deseja incluir no treinamento.

Cada domínio requer um conjunto de dados de séries temporais de destino e, opcionalmente, oferece suporte aos tipos relacionados de séries temporais e conjuntos de dados de metadados de itens.

Os tipos de conjunto de dados são:
+ Séries temporais de destino: o único tipo de conjunto de dados obrigatório. Esse tipo define o campo de *destino* para o qual você deseja gerar previsões. Por exemplo, para prever as vendas de um conjunto de produtos, você deve criar um conjunto de dados de séries temporais histórica para cada um dos produtos que deseja prever. Da mesma forma, você pode criar um conjunto de dados de séries temporais de destino para métricas, como receita, fluxo de caixa e vendas, que você talvez queira prever.
+ Séries temporais relacionadas: dados de séries temporais relacionados aos dados de séries temporais de destino. Por exemplo, o preço está relacionado aos dados de vendas do produto, portanto, você pode fornecê-lo como uma série temporal relacionada.
+ Metadados de itens: metadados que se aplicam aos dados de séries temporais de destino. Por exemplo, se você estiver prevendo as vendas de um determinado produto, os atributos do produto, como marca, cor e gênero, farão parte dos metadados de itens. Ao prever a capacidade do EC2 para instâncias do EC2, os metadados podem incluir a CPU e a memória dos tipos de instância.

Para cada tipo de conjunto de dados, os dados de entrada devem conter determinados campos obrigatórios. Você também pode incluir campos opcionais que o Amazon Forecast sugere que você inclua.

Os exemplos a seguir mostram como escolher um domínio de conjunto de dados e os tipos de conjunto de dados correspondentes.

**Example Exemplo 1: Tipos de conjunto de dados no domínio RETAIL**  
Se você for um varejista interessado na previsão da demanda de itens, poderá criar os seguintes conjuntos de dados no domínio VAREJO:  
+ Séries temporais de destino é o conjunto de dados necessário da demanda da série temporal histórica (vendas) para cada item (cada produto que um varejista vende). No domínio RETAIL, esse tipo de conjunto de dados requer que o conjunto de dados inclua os campos `item_id`, `timestamp` e `demand`. O campo `demand` é o destino da previsão e, geralmente, é o número de itens vendidos pelo varejista em uma determinada semana ou dia.
+ Opcionalmente, um conjunto de dados do tipo de séries temporais relacionadas. No domínio RETAIL, esse tipo pode incluir informações de séries temporais opcionais, mas sugeridas, como `price`, `inventory_onhand` e `webpage_hits`.
+ Opcionalmente, um conjunto de dados do tipo de metadados de itens. No domínio RETAIL, o Amazon Forecast sugere que forneça informações dos metadados relacionados aos itens que você forneceu em séries temporais de destino, como `brand`, `color`, `category` e `genre`.

**Example Exemplo 2: Tipos de conjunto de dados no domínio METRICS**  
Para prever métricas de previsão importantes para a sua organização, como receita, vendas e fluxo de caixa, você pode fornecer ao Amazon Forecast os seguintes conjuntos de dados:  
+ O conjunto de dados de séries temporais de destino que fornece dados de séries temporais históricos para a métrica que você deseja prever. Se você deseja prever a receita de todas as unidades de negócios da sua organização, poderá criar um conjunto de dados `target time series` com os campos `metric`, `business unit` e `metric_value`.
+ Se você tiver algum metadado para cada métrica que não seja necessário, como `category` ou `location`, poderá fornecer conjuntos de dados dos tipos de séries temporais relacionadas e de metadados de itens.
Você deve fornecer, no mínimo, um conjunto de dados de séries temporais de destino para que o Forecast gere previsões para suas métricas de destino.

**Example Exemplo 3: Tipos de conjunto de dados no domínio CUSTOM**  
Os dados de treinamento de seu aplicativo de previsão podem não se adequar a nenhum dos domínios do Amazon Forecast. Se esse for o caso, escolha o domínio CUSTOM. Você deve fornecer o conjunto de dados de séries temporais de destino, mas pode adicionar seus próprios campos personalizados.  
O exercício [Conceitos básicos](getting-started.md) prevê o uso de eletricidade de um cliente. Os dados de treinamento do uso de eletricidade não se adequam a nenhum dos domínios de conjunto de dados e, portanto, usamos o domínio CUSTOM. No exercício, usamos apenas um tipo de conjunto de dados, o tipo de séries temporais de destino. Mapeamos os campos de dados para os campos mínimos exigidos pelo tipo de conjunto de dados.

# Domínio RETAIL
<a name="retail-domain"></a>

O domínio RETAIL é compatível com os seguintes tipos de conjunto de dados. Para cada tipo de conjunto de dados, listamos campos obrigatórios e opcionais. Para obter mais informações sobre como mapear os campos para as colunas nos dados de treinamento, consulte [Domínios e tipos de conjunto de dados](howitworks-datasets-groups.md#howitworks-dataset-domainstypes).

**Topics**
+ [

## Tipo de conjunto de dados de séries temporais de destino
](#target-time-series-type-retail-domain)
+ [

## Tipo de conjunto de dados de séries temporais relacionadas
](#related-time-series-type-retail-domain)
+ [

## Tipo de conjunto de dados de metadados de itens
](#item-metadata-type-retail-domain)

## Tipo de conjunto de dados de séries temporais de destino
<a name="target-time-series-type-retail-domain"></a>

A série temporal de destino são os dados de séries temporais históricos de cada item ou produto vendido pela organização de varejo. Os seguintes campos são obrigatórios: 
+ `item_id ` (string): um identificador exclusivo do item ou produto cuja demanda você deseja prever.
+ `timestamp` (timestamp)
+ `demand` (flutuante): o número de vendas desse item no carimbo de data/hora. Esse também é o campo de *destino* para o qual o Amazon Forecast gera uma previsão.

A dimensão a seguir é opcional e pode ser usada para alterar a granularidade da previsão:
+ `location` (string): o local da loja em que o item foi vendido. Isso só deve ser usado se você tiver várias lojas/locais.

O ideal é que apenas esses campos obrigatórios e dimensões opcionais sejam incluídos. Outras informações adicionais sobre séries temporais devem ser incluídas em um conjunto de dados de séries temporais relacionadas.

## Tipo de conjunto de dados de séries temporais relacionadas
<a name="related-time-series-type-retail-domain"></a>

Você pode fornecer ao Amazon Forecast os conjuntos de dados de séries temporais relacionadas, como o preço ou o número de cliques na web recebidos pelo item em uma data específica. Quanto mais informações você fornecer, mais precisa será a previsão. Os seguintes campos são obrigatórios: 
+ `item_id ` (string)
+ `timestamp ` (timestamp)

Os campos a seguir são opcionais e podem ser úteis para melhorar os resultados da previsão:
+ `price` (flutuante): o preço do item no momento do carimbo de data/hora.
+ `promotion_applied` (inteiro; 1=true, 0=false): um sinalizador que especifica se houve uma promoção de marketing para esse item no carimbo de data/hora.

Além dos campos obrigatórios e opcionais sugeridos, os dados de treinamento podem incluir outros campos. Para incluir outros campos no conjunto de dados, forneça os campos em um esquema ao criar o conjunto de dados.

## Tipo de conjunto de dados de metadados de itens
<a name="item-metadata-type-retail-domain"></a>

Esse conjunto de dados fornece ao Amazon Forecast informações sobre metadados (atributos) dos itens cuja demanda está sendo prevista. Os seguintes campos são obrigatórios:
+ `item_id ` (string)

Os campos a seguir são opcionais e podem ser úteis para melhorar os resultados da previsão:
+ `category` (string)
+ `brand` (string)
+ `color` (string)
+ `genre` (string)

Além dos campos obrigatórios e opcionais sugeridos, os dados de treinamento podem incluir outros campos. Para incluir outros campos no conjunto de dados, forneça os campos em um esquema ao criar o conjunto de dados.

# Domínio CUSTOM
<a name="custom-domain"></a>

O domínio CUSTOM é compatível com os seguintes tipos de conjunto de dados. Para cada tipo de conjunto de dados, listamos campos obrigatórios e opcionais. Para obter mais informações sobre como mapear os campos para as colunas nos dados de treinamento, consulte [Domínios e tipos de conjunto de dados](howitworks-datasets-groups.md#howitworks-dataset-domainstypes).

**Topics**
+ [

## Tipo de conjunto de dados de séries temporais de destino
](#target-time-series-type-custom-domain)
+ [

## Tipo de conjunto de dados de séries temporais relacionadas
](#related-time-series-type-custom-domain)
+ [

## Tipo de conjunto de dados de metadados de itens
](#item-metadata-type-custom-domain)

## Tipo de conjunto de dados de séries temporais de destino
<a name="target-time-series-type-custom-domain"></a>

Os seguintes campos são obrigatórios:
+ `item_id ` (string)
+ `timestamp` (timestamp)
+ `target_value` (inteiro de ponto flutuante): este é o campo `target` para o qual o Amazon Forecast gera uma previsão.

Idealmente, apenas esses campos obrigatórios devem ser incluídos. Outras informações adicionais sobre séries temporais devem ser incluídas em um conjunto de dados de séries temporais relacionadas.

## Tipo de conjunto de dados de séries temporais relacionadas
<a name="related-time-series-type-custom-domain"></a>

Os seguintes campos são obrigatórios:
+ `item_id` (string)
+ `timestamp` (timestamp)

Além dos campos obrigatórios, os dados de treinamento podem incluir outros campos. Para incluir outros campos no conjunto de dados, forneça os campos em um esquema ao criar o conjunto de dados.

## Tipo de conjunto de dados de metadados de itens
<a name="item-metadata-type-custom-domain"></a>

O campo a seguir é obrigatório:
+ `item_id` (string)

O campo a seguir é opcional e pode ser útil para melhorar os resultados da previsão:
+ `category` (string)

Além dos campos obrigatórios e opcionais sugeridos, os dados de treinamento podem incluir outros campos. Para incluir outros campos no conjunto de dados, forneça os campos em um esquema ao criar o conjunto de dados.

# Domínio INVENTORY\$1PLANNING
<a name="inv-planning-domain"></a>

Use o domínio INVENTORY\$1PLANNING para prever a demanda de matérias primas e determinar a quantidade de inventário de um item específico no estoque. Ele é compatível com os seguintes tipos de conjunto de dados. Para cada tipo de conjunto de dados, listamos campos obrigatórios e opcionais. Para obter mais informações sobre como mapear os campos para as colunas nos dados de treinamento, consulte [Domínios e tipos de conjunto de dados](howitworks-datasets-groups.md#howitworks-dataset-domainstypes).

**Topics**
+ [

## Tipo de conjunto de dados de séries temporais de destino
](#target-time-series-type-inv-planning-domain)
+ [

## Tipo de conjunto de dados de séries temporais relacionadas
](#related-time-series-type-related-time-series-domain)
+ [

## Tipo de conjunto de dados de metadados de itens
](#item-metadata-type-related-time-series-domain)

## Tipo de conjunto de dados de séries temporais de destino
<a name="target-time-series-type-inv-planning-domain"></a>

Os seguintes campos são obrigatórios: 
+ `item_id` (string)
+ `timestamp` (timestamp)
+ `demand` (flutuante): este é o campo `target` para o qual o Amazon Forecast gera uma previsão.

A dimensão a seguir é opcional e pode ser usada para alterar a granularidade da previsão:
+ `location` (string): o local do centro de distribuição em que o item é armazenado. Isso só deve ser usado se você tiver várias lojas/locais.

O ideal é que apenas esses campos obrigatórios e dimensões opcionais sejam incluídos. Outras informações adicionais sobre séries temporais devem ser incluídas em um conjunto de dados de séries temporais relacionadas.

## Tipo de conjunto de dados de séries temporais relacionadas
<a name="related-time-series-type-related-time-series-domain"></a>

Os seguintes campos são obrigatórios: 
+ `item_id` (string)
+ `timestamp` (timestamp)

Os campos a seguir são opcionais e podem ser úteis para melhorar os resultados da previsão:
+ `price` (flutuante): o preço do item 

Além dos campos obrigatórios e opcionais sugeridos, os dados de treinamento podem incluir outros campos. Para incluir outros campos no conjunto de dados, forneça os campos em um esquema ao criar o conjunto de dados.

## Tipo de conjunto de dados de metadados de itens
<a name="item-metadata-type-related-time-series-domain"></a>

Os seguintes campos são obrigatórios: 
+ `item_id` (string)

Os campos a seguir são opcionais e podem ser úteis para melhorar os resultados da previsão:
+ `category` (string): a categoria do item.
+ `brand` (string): a marca do item.
+ `lead_time` (string): o prazo, em dias, de fabricação do item.
+ `order_cycle` (string): o ciclo de pedidos começa quando o trabalho começa e termina quando o item está pronto para entrega.
+ `safety_stock` (string): a quantidade mínima desse item a ser mantida no estoque.

Além dos campos obrigatórios e opcionais sugeridos, os dados de treinamento podem incluir outros campos. Para incluir outros campos no conjunto de dados, forneça os campos em um esquema ao criar o conjunto de dados.

# Domínio EC2 CAPACITY
<a name="ec2-capacity-domain"></a>

Use o domínio EC2 CAPACITY para prever a capacidade do Amazon EC2. Ele é compatível com os seguintes tipos de conjunto de dados. Para cada tipo de conjunto de dados, listamos campos obrigatórios e opcionais. Para obter mais informações sobre como mapear os campos para as colunas nos dados de treinamento, consulte [Domínios e tipos de conjunto de dados](howitworks-datasets-groups.md#howitworks-dataset-domainstypes).

## Tipo de conjunto de dados de séries temporais de destino
<a name="target-time-series-type-ec2-capacity-domain"></a>

Os seguintes campos são obrigatórios:
+ `instance_type` (string): o tipo de instância (por exemplo, c5.xlarge).
+ `timestamp` (timestamp)
+ `number_of_instances` (inteiro): o número de instâncias desse tipo de instância específico que foram consumidas no carimbo de data/hora. Esse é o campo `target` para o qual o Amazon Forecast gera uma previsão.

A dimensão a seguir é opcional e pode ser usada para alterar a granularidade da previsão:
+ `location`(string) — Você pode fornecer um Região da AWS, como us-west-2 ou us-east-1. Isso só deve ser usado se você estiver modelando várias regiões.

Idealmente, apenas esses campos obrigatórios e opcionais sugeridos devem ser incluídos. Outras informações adicionais sobre séries temporais devem ser incluídas em um conjunto de dados de séries temporais relacionadas.

## Tipo de conjunto de dados de séries temporais relacionadas
<a name="related-time-series-type-ec2-capacity-domain"></a>

Os seguintes campos são obrigatórios: 
+ `instance_type` (string)
+ `timestamp` (timestamp)

Além dos campos obrigatórios, os dados de treinamento podem incluir outros campos. Para incluir outros campos no conjunto de dados, forneça os campos em um esquema ao criar o conjunto de dados.

# Domínio WORK\$1FORCE
<a name="workforce-domain"></a>

Use o domínio WORK\$1FORCE para prever a demanda da força de trabalho. Ele é compatível com os seguintes tipos de conjunto de dados. Para cada tipo de conjunto de dados, listamos campos obrigatórios e opcionais. Para obter mais informações sobre como mapear os campos para as colunas nos dados de treinamento, consulte [Domínios e tipos de conjunto de dados](howitworks-datasets-groups.md#howitworks-dataset-domainstypes).

**Topics**
+ [

## Tipo de conjunto de dados de séries temporais de destino
](#target-time-series-type-workforce-domain)
+ [

## Tipo de conjunto de dados de séries temporais relacionadas
](#related-time-series-type-workforce-domain)
+ [

## Tipo de conjunto de dados de metadados de itens
](#item-metadata-type-workforce-domain)

## Tipo de conjunto de dados de séries temporais de destino
<a name="target-time-series-type-workforce-domain"></a>

Os seguintes campos são obrigatórios: 
+ `workforce_type` (string): o tipo de força de trabalho que está sendo prevista. Por exemplo, a demanda do call center ou a demanda de trabalho do centro de atendimento.
+ `timestamp` (timestamp)
+ `workforce_demand` (inteiro de ponto flutuante): este é o campo `target` para o qual o Amazon Forecast gera uma previsão.

A dimensão a seguir é opcional e pode ser usada para alterar a granularidade da previsão:
+ `location` (string): o local onde os recursos da força de trabalho são procurados. Isso deve ser usado se você tiver várias lojas/locais.

O ideal é que apenas esses campos obrigatórios e dimensões opcionais sejam incluídos. Outras informações adicionais sobre séries temporais devem ser incluídas em um conjunto de dados de séries temporais relacionadas.

## Tipo de conjunto de dados de séries temporais relacionadas
<a name="related-time-series-type-workforce-domain"></a>

Os seguintes campos são obrigatórios: 
+ `workforce_type` (string)
+ `timestamp` (timestamp)

Além dos campos obrigatórios, os dados de treinamento podem incluir outros campos. Para incluir outros campos no conjunto de dados, forneça os campos em um esquema ao criar o conjunto de dados.

## Tipo de conjunto de dados de metadados de itens
<a name="item-metadata-type-workforce-domain"></a>

O campo a seguir é obrigatório: 
+ `workforce_type` (string)

Os campos a seguir são opcionais e podem ser úteis para melhorar os resultados da previsão:
+ `wages` (flutuante): o salário médio desse tipo de força de trabalho específico.
+ `shift_length` (string): a duração do turno.
+ `location` (string): o local da força de trabalho.

Além dos campos obrigatórios e opcionais sugeridos, os dados de treinamento podem incluir outros campos. Para incluir outros campos no conjunto de dados, forneça os campos em um esquema ao criar o conjunto de dados.

# Domínio WEB\$1TRAFFIC
<a name="webtraffic-domain"></a>

Use o domínio WEB\$1TRAFFIC para prever o tráfego da web para uma propriedade da web ou um conjunto de propriedades da web. Ele é compatível com os seguintes tipos de conjunto de dados. Os tópicos relevantes descrevem os campos obrigatórios e opcionais compatíveis com o tipo de conjunto de dados. Para obter mais informações sobre como mapear esses campos para colunas nos dados de treinamento, consulte [Domínios e tipos de conjunto de dados](howitworks-datasets-groups.md#howitworks-dataset-domainstypes).

**Topics**
+ [

## Tipo de conjunto de dados de séries temporais de destino
](#target-time-series-type-webtraffic-domain)
+ [

## Tipo de conjunto de dados de séries temporais relacionadas
](#related-time-series-type-webtraffic-domain)

## Tipo de conjunto de dados de séries temporais de destino
<a name="target-time-series-type-webtraffic-domain"></a>

Os seguintes campos são obrigatórios: 
+ `item_id` (string): um identificador exclusivo para cada propriedade da web que está sendo prevista.
+ `timestamp` (timestamp)
+ `value` (flutuante): este é o campo `target` para o qual o Amazon Forecast gera uma previsão.

Idealmente, apenas esses campos obrigatórios devem ser incluídos. Outras informações adicionais sobre séries temporais devem ser incluídas em um conjunto de dados de séries temporais relacionadas.

## Tipo de conjunto de dados de séries temporais relacionadas
<a name="related-time-series-type-webtraffic-domain"></a>

Os seguintes campos são obrigatórios: 
+ `item_id` (string)
+ `timestamp` (timestamp)

Além dos campos obrigatórios, os dados de treinamento podem incluir outros campos. Para incluir outros campos no conjunto de dados, forneça os campos em um esquema ao criar o conjunto de dados.

### Tipo de conjunto de dados de metadados de itens
<a name="idem-metadata-type-webtraffic-domain"></a>

O campo a seguir é obrigatório: 
+ `item_id` (string)

O campo a seguir é opcional e pode ser útil para melhorar os resultados da previsão:
+ `category` (string)

Além dos campos obrigatórios e opcionais sugeridos, os dados de treinamento podem incluir outros campos. Para incluir outros campos no conjunto de dados, forneça os campos em um esquema ao criar o conjunto de dados.

# Domínio METRICS
<a name="metrics-domain"></a>

Use o domínio METRICS para prever métricas, como receita, vendas e fluxo de caixa. Ele é compatível com os seguintes tipos de conjunto de dados. Para cada tipo de conjunto de dados, listamos campos obrigatórios e opcionais. Para obter mais informações sobre como mapear os campos para as colunas nos dados de treinamento, consulte [Domínios e tipos de conjunto de dados](howitworks-datasets-groups.md#howitworks-dataset-domainstypes).

**Topics**
+ [

## Tipo de conjunto de dados de séries temporais de destino
](#target-time-series-type-metrics-domain)
+ [

## Tipo de conjunto de dados de séries temporais relacionadas
](#related-time-series-type-metrics-domain)
+ [

## Tipo de conjunto de dados de metadados de itens
](#item-metadata-type-metrics-domain)

## Tipo de conjunto de dados de séries temporais de destino
<a name="target-time-series-type-metrics-domain"></a>

Os seguintes campos são obrigatórios: 
+ `metric_name` (string)
+ `timestamp` (timestamp)
+ `metric_value` (inteiro de ponto flutuante): este é o campo `target` para o qual o Amazon Forecast gera uma previsão (por exemplo, a quantidade de receita gerada em um determinado dia).

Idealmente, apenas esses campos obrigatórios devem ser incluídos. Outras informações adicionais sobre séries temporais devem ser incluídas em um conjunto de dados de séries temporais relacionadas.

## Tipo de conjunto de dados de séries temporais relacionadas
<a name="related-time-series-type-metrics-domain"></a>

Os seguintes campos são obrigatórios: 
+ `metric_name` (string)
+ `timestamp` (timestamp)

Além dos campos obrigatórios, os dados de treinamento podem incluir outros campos. Para incluir outros campos no conjunto de dados, forneça os campos em um esquema ao criar o conjunto de dados.

## Tipo de conjunto de dados de metadados de itens
<a name="item-metadata-type-metrics-domain"></a>

O campo a seguir é obrigatório: 
+ `metric_name` (string)

O campo a seguir é opcional e pode ser útil para melhorar os resultados da previsão:
+ `category` (string)

Além dos campos obrigatórios e opcionais sugeridos, os dados de treinamento podem incluir outros campos. Para incluir outros campos no conjunto de dados, forneça os campos em um esquema ao criar o conjunto de dados.

# Atualização de dados
<a name="updating-data"></a>

Ao coletar novos dados, você precisará importá-los para o Forecast. Para fazer isso, você tem duas opções: atualizações de substituição e incrementais. Uma tarefa de importação de conjunto de dados de substituição sobregravará todos os dados existentes pelos dados recém-importados. Uma atualização incremental anexará os dados recém-importados ao conjunto de dados.

Após importar os novos dados, você pode usar um preditor existente para gerar uma previsão para esses dados.

**Topics**
+ [

## Modos de importação
](#idsi)
+ [

## Como atualizar os conjuntos de dados existentes
](#idsi-console)
+ [

## Como atualizar previsões
](#update-data-new-forecasts)

## Modos de importação
<a name="idsi"></a>

Para configurar como o Amazon Forecast adiciona novos dados ao conjunto de dados existente, você especifica o modo de importação para seu trabalho de importação de conjunto de dados. O modo de importação padrão é `FULL`. Você só pode configurar o modo de importação usando a API do Amazon Forecast.
+ Para substituir todos os dados do conjunto de dados, especifique `FULL` na operação de API [CreateDatasetImportJob](API_CreateDatasetImportJob.md).
+ Para anexar os registros aos dados existentes no seu conjunto de dados, especifique `INCREMENTAL` na operação de API [CreateDatasetImportJob](API_CreateDatasetImportJob.md). Se um registro existente e um registro importado tiverem a mesma ID de série temporal (ID do item, dimensão e carimbo de data/hora), o registro existente será substituído pelo registro recém-importado. O Amazon Forecast sempre usa o registro com o carimbo de data e hora mais recente.

Se você não importou um conjunto de dados, a opção incremental não está disponível. O modo de importação padrão é uma substituição completa.

### Diretrizes do modo de importação incremental
<a name="idsi-incremental"></a>

Ao realizar uma importação incremental do conjunto de dados, você não pode alterar o formato do carimbo de data/hora, o formato dos dados ou os dados de geolocalização. Para alterar qualquer um desses itens, você precisa realizar uma importação completa do conjunto de dados.

## Como atualizar os conjuntos de dados existentes
<a name="idsi-console"></a>

**Importante**  
Por padrão, um trabalho de importação de conjunto de dados substitui todos os dados existentes no conjunto de dados para o qual você importou os dados. Você pode alterar isso especificando os [Modos de importação](#idsi) do trabalho de importação de conjunto de dados. 

Para atualizar um conjunto de dados, crie um trabalho de importação para o conjunto de dados e especifique o modo de importação.

------
#### [ CLI ]

Para atualizar um conjunto de dados, use o comando `create-dataset-import-job`. Para o `import-mode`, especifique `FULL` para substituir os dados existentes ou `INCREMENTAL` para adicionar dados a ele. Para obter mais informações, consulte [Modos de importação](#idsi).

O código a seguir mostra como criar um trabalho de importação de conjunto de dados que importa novos dados de forma incremental para um conjunto de dados.

```
aws forecast create-dataset-import-job \
                        --dataset-import-job-name dataset import job name \
                        --dataset-arn dataset arn \
                        --data-source "S3Config":{"KMSKeyArn":"string", "Path":"string", "RoleArn":"string"} \
                        --import-mode INCREMENTAL
```

------
#### [ Python ]

Para atualizar um conjunto de dados, use o método `create_dataset_import_job`. Para o `import-mode`, especifique `FULL` para substituir os dados existentes ou `INCREMENTAL` para adicionar dados a ele. Para obter mais informações, consulte [Modos de importação](#idsi).

```
import boto3

forecast = boto3.client('forecast')

response = forecast.create_dataset_import_job(
    datasetImportJobName = 'YourImportJob',
    datasetArn = 'dataset_arn',
    dataSource = {"S3Config":{"KMSKeyArn":"string", "Path":"string", "RoleArn":"string"}},
    importMode = 'INCREMENTAL'
)
```

------

## Como atualizar previsões
<a name="update-data-new-forecasts"></a>

Ao coletar novos dados, talvez você precise usá-los para gerar novas previsões. O Forecast não treina automaticamente um preditor quando você importa um conjunto de dados atualizado, mas você pode treinar manualmente um preditor para gerar uma nova previsão com os dados atualizados. Por exemplo, caso colete dados de vendas diárias e queira incluir novos pontos de dados na previsão, você poderá importar os dados atualizados e usá-los para gerar uma previsão sem treinar um novo preditor. Para que os dados recém-importados tenham um impacto em suas previsões, você deve treinar novamente o preditor.

**Para gerar uma previsão com base nos novos dados:**

1. Fala upload dos novos dados para um bucket do Amazon S3. Seus novos dados devem conter somente os dados adicionados desde a última importação do conjunto de dados.

1. Crie um trabalho de importação de conjunto de dados **incremental** com os novos dados. Os novos dados são anexados aos dados existentes e a previsão é gerada a partir dos dados atualizados. Se seu novo arquivo de dados contiver dados importados anteriormente e dados novos, crie um trabalho de importação de conjunto de dados **completo**.

1. Crie uma previsão usando o preditor existente.

1. Recupere a previsão normalmente.

# Lidar com valores ausentes
<a name="howitworks-missing-values"></a>

Um problema comum nos dados de previsão de séries temporais é a presença de valores ausentes. Seus dados podem conter valores ausentes por vários motivos, incluindo falhas de medição, problemas de formatação, erros humanos ou falta de informações para registro. Por exemplo, se você estiver prevendo a demanda de produtos para uma loja de varejo e um item estiver esgotado ou indisponível, não haverá dados de vendas para registrar enquanto esse item estiver esgotado. Se prevalentes o suficiente, os valores ausentes podem afetar significativamente a precisão de um modelo.

O Amazon Forecast fornece uma série de métodos de preenchimento para lidar com valores ausentes nos conjuntos de dados de séries temporais de destino e relacionadas. Preenchimento é o processo de adicionar valores padronizados a entradas ausentes em seu conjunto de dados.

O Forecast é compatível com os seguintes métodos de preenchimento:
+ **Preenchimento intermediário:** preenche todos os valores ausentes entre a data de início e a data de término do item de um conjunto de dados.
+ **Preenchimento retroativo:** preenche todos os valores ausentes entre o último ponto de dados registrado e a data de término global de um conjunto de dados.
+ **Preenchimento futuro (somente séries temporais relacionadas):** preenche quaisquer valores ausentes entre a data de término global e o final do horizonte de previsão.

A imagem a seguir fornece uma representação visual de diferentes métodos de preenchimento.

![\[Timeline showing three items with varying durations and fill methods between global start and end dates.\]](http://docs.aws.amazon.com/pt_br/forecast/latest/dg/images/Filling_types.PNG)


## Escolher a lógica de preenchimento
<a name="choosing-missing-values"></a>

Ao escolher uma lógica de preenchimento, você deve considerar como a lógica será interpretada por seu modelo. Por exemplo, em um cenário de varejo, registrar 0 vendas de um item disponível é diferente de registrar 0 vendas de um item indisponível, pois esse último não implica em uma falta de interesse do cliente no item. Por isso, o preenchimento `0` na série temporal de destino pode fazer com que o preditor seja subtendencioso em suas previsões, enquanto o preenchimento `NaN` pode ignorar ocorrências reais de 0 itens disponíveis que estão sendo vendidos e fazer com que o preditor seja excessivamente tendencioso.

Os gráficos de séries temporais a seguir ilustram como a escolha do valor de preenchimento incorreto pode afetar significativamente a precisão do seu modelo. Os gráficos A e B representam a demanda parcial de um item out-of-stock, com as linhas pretas representando dados reais de vendas. Os valores ausentes em A1 são preenchidos com `0`, o que resulta em previsões relativamente subtendenciosas (representadas pelas linhas pontilhadas) em A2. Da mesma forma, os valores ausentes em B1 são preenchidos com `NaN`, o que resulta em previsões mais exatas em B2.

![\[Time-series graphs comparing item demand predictions with different filling values for missing data.\]](http://docs.aws.amazon.com/pt_br/forecast/latest/dg/images/filling_values.PNG)


Para obter uma lista de lógicas de preenchimento compatíveis, consulte a seção a seguir.

## Lógica de preenchimento de séries temporais de destino e de séries temporais relacionadas
<a name="filling-restrictions"></a>

Você pode executar o preenchimento em séries temporais de destino e conjuntos de dados de séries temporais relacionadas. Cada tipo de conjunto de dados tem diferentes diretrizes e restrições de preenchimento.


**Diretrizes de preenchimento**  

| Tipo de conjunto de dados | Preencher por padrão? | Métodos de preenchimento compatíveis | Lógica de preenchimento padrão | Lógica de preenchimento aceita | 
| --- | --- | --- | --- | --- | 
| Séries cronológicas de destino | Sim | Preenchimento intermediário e retroativo | 0 |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/forecast/latest/dg/howitworks-missing-values.html)  | 
| Séries temporais relacionadas | Não | Preenchimento intermediário, retroativo e futuro | Sem padrão |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/forecast/latest/dg/howitworks-missing-values.html)  | 

**Importante**  
Para os conjuntos de dados de séries temporais de destino e relacionadas, `mean`, `median`, `min`, e `max` são calculados com base em uma janela contínua das 64 entradas de dados mais recentes antes dos valores ausentes.

## Sintaxe de valor ausente
<a name="filling-syntax"></a>

Para realizar o preenchimento de valores ausentes, especifique os tipos de preenchimento a serem implementados ao chamar a [CreatePredictor](API_CreatePredictor.md)operação. A lógica de preenchimento é especificada nos [FeaturizationMethod](API_FeaturizationMethod.md)objetos.

O trecho a seguir demonstra um objeto `FeaturizationMethod` formatado corretamente para um atributo de série temporal de destino e um atributo de série temporal relacionada (`target_value` e `price` respectivamente).

 Para definir um método de preenchimento para um valor específico, defina o parâmetro de preenchimento para `value` e defina o valor em um parâmetro `_value` correspondente. Conforme mostrado abaixo, o preenchimento retroativo da série temporal relacionada é definido como um valor de 2 da seguinte maneira: `"backfill": "value"` e `"backfill_value":"2"`. 

```
[
    {
        "AttributeName": "target_value",
        "FeaturizationPipeline": [
            {
                "FeaturizationMethodName": "filling",
                "FeaturizationMethodParameters": {
                    "aggregation": "sum",
                    "middlefill": "zero",
                    "backfill": "zero"
                }
            }
        ]
    },
    {
        "AttributeName": "price",
        "FeaturizationPipeline": [
            {
                "FeaturizationMethodName": "filling",
                "FeaturizationMethodParameters": {
                    "middlefill": "median",
                    "backfill": "value",
                    "backfill_value": "2",
                    "futurefill": "max"               
                    }
            }
        ]
    }
]
```

# Diretrizes de conjuntos de dados do Forecast
<a name="dataset-import-guidelines-troubleshooting"></a>

Consulte as diretrizes a seguir se o Amazon Forecast não importar o conjunto de dados ou se o conjunto de dados não funcionar conforme esperado.

**Formato do time stamp**  
Para as frequências de coleta Ano (`Y`), Mês (`M`), Semana (`W`) e Dia (`D`), o Forecast oferece suporte ao formato de carimbo de data e hora `yyyy-MM-dd` (por exemplo, `2019-08-21`) e, opcionalmente, ao formato `HH:mm:ss` (por exemplo, `2019-08-21 15:00:00`).  
Para as frequências Hora (`H`) e Minuto (`M`), o Forecast oferece suporte somente ao formato `yyyy-MM-dd HH:mm:ss` (por exemplo, `2019-08-21 15:00:00`).  
Diretriz: altere o formato de time stamp da frequência da coleta do conjunto de dados para o formato compatível.

**Arquivo ou bucket do Amazon S3 **  
Ao importar um conjunto de dados, é possível especificar o caminho para um arquivo CSV ou Parquet no bucket do Amazon Simple Storage Service (Amazon S3) que contém os dados ou o nome do bucket do S3 que contém os dados. Se você especificar um arquivo CSV ou Parquet, o Forecast importará apenas esse arquivo. Se você especificar um bucket do S3, o Forecast importará todos os arquivos CSV ou Parquet no bucket até 10.000 arquivos. Se você importar vários arquivos especificando um nome de bucket, todos os arquivos CSV ou Parquet deverão estar em conformidade com o esquema especificado.  
Diretriz: especifique um arquivo ou um bucket do S3 usando a seguinte sintaxe:  
`s3://bucket-name/example-object.csv`  
`s3://bucket-name/example-object.parquet`  
`s3://bucket-name/prefix/`  
`s3://bucket-name`  
Os arquivos Parquet podem ter a extensão .parquet, .parq, .pqt ou nenhuma extensão.

**Atualizações completas do conjunto de dados**  
Sua primeira importação de conjunto de dados é sempre uma importação completa. As importações subsequentes podem ser atualizações completas ou incrementais. Você deve usar a API do Forecast para especificar o modo de importação.  
Com uma atualização completa, todos os dados existentes são substituídos pelos dados recém-importados. Como os trabalhos de importação de conjunto de dados não são agregados, a importação de conjunto de dados mais recente é usada ao treinar um preditor ou gerar uma previsão.  
Diretriz: crie uma atualização incremental de conjunto de dados para anexar seus novos dados aos dados existentes. Diretriz: verifique se a sua importação de conjunto de dados mais recente contém todos os dados que você deseja modelar, e não apenas os novos dados coletados desde a importação anterior.

**Atualizações incrementais do conjunto de dados**  
Campos como carimbo de data/hora, formato de dados, geolocalização etc. são lidos a partir do conjunto de dados atualmente ativo. Você não precisa incluir essas informações em uma importação incremental do conjunto de dados. Se elas forem incluídas, deverão corresponder aos valores fornecidos originalmente.   
Diretriz: execute uma importação completa do conjunto de dados para alterar qualquer um desses valores.

**Ordem dos atributos**  
A ordem dos atributos especificados na definição do esquema deve corresponder à ordem das colunas no arquivo CSV ou Parquet que você está importando. Por exemplo, se você definiu `timestamp` como primeiro atributo, `timestamp` também deverá ser a primeira coluna no arquivo de entrada.   
Diretriz: verifique se as colunas no arquivo de entrada estão na mesma ordem que os atributos de esquema que você criou. 

**Weather Index**  
Para aplicar o Weather Index, você deve incluir um [atributo de geolocalização](weather.md#adding-geolocation) na série temporal de destino e em qualquer conjunto de dados de séries temporais relacionadas. Você também precisa especificar [fusos horários](weather.md#specifying-timezones) para os carimbos de data/hora das séries temporais de destino.  
Diretriz: certifique-se de que seus conjuntos de dados incluam um atributo de geolocalização e seus carimbos de data/hora tenham um fuso horário atribuído. Para obter mais informações, consulte as [Condições e restrições](weather.md#weather-conditions-restrictions) do Weather Index.

**Cabeçalho do conjunto de dados**  
Um cabeçalho do conjunto de dados no arquivo CSV de entrada pode causar um erro de validação. Recomendamos omitir o cabeçalho em arquivos CSV.  
Diretriz: exclua o cabeçalho do conjunto de dados e tente importar novamente.  
É necessário um cabeçalho de conjunto de dados para arquivos Parquet. 

**Status do conjunto de dados**  
Para que você possa importar dados de treinamento na operação [CreateDatasetImportJob](API_CreateDatasetImportJob.md), o `Status` do conjunto de dados deve ser `ACTIVE`.   
Diretriz: use a operação [DescribeDataset](API_DescribeDataset.md) para obter o status do conjunto de dados. Se a criação ou a atualização do conjunto de dados falhar, verifique a formatação do arquivo do conjunto de dados e tente criá-lo novamente.

**Formato de arquivo padrão**  
O formato de arquivo padrão é CSV. 

**Formato e delimitador de arquivo**  
O Forecast oferece suporte somente ao formato de arquivo CSV (valores separados por vírgulas) e Parquet. Não é possível separar valores usando tabulações, espaços, dois pontos ou qualquer outro caractere.  
Diretriz: converta o conjunto de dados em formato CSV (usando apenas vírgulas como delimitador) ou Parquet e tente importar o arquivo novamente. 

**Nome do arquivo**  
Os nomes dos arquivos devem conter pelo menos um caractere alfabético. Arquivos com nomes que são apenas numéricos não podem ser importados.  
Diretriz: renomeie o arquivo de dados de entrada para incluir pelo menos um caractere alfabético e tente importar o arquivo novamente. 

**Dados Parquet particionado**  
O Forecast não lê arquivos Parquet particionados.

**Requisitos de conjunto de dados da análise de hipóteses**  
As análises de hipóteses exigem conjuntos de dados CSV. A TimeSeriesSelector operação da [CreateWhatIfAnalysis](API_CreateWhatIfAnalysis.md) ação e a TimeSeriesReplacementDataSource operação do [CreateWhatIfForecast](API_CreateWhatIfForecast.md) não aceitam arquivos Parquet.