

 Amazon Forecast ist für Neukunden nicht mehr verfügbar. Bestehende Kunden von Amazon Forecast können den Service weiterhin wie gewohnt nutzen. [Erfahren Sie mehr“](https://aws.amazon.com/blogs/machine-learning/transition-your-amazon-forecast-usage-to-amazon-sagemaker-canvas/)

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Datensätze importieren
<a name="howitworks-datasets-groups"></a>

*Datasets* enthalten die Daten, die zum Trainieren eines [Predictors](howitworks-predictor.md) verwendet werden. Sie erstellen einen oder mehrere Amazon Forecast-Datensätze und importieren Ihre Trainingsdaten in diese. Eine *Datensatzgruppe* ist eine Sammlung ergänzender Datensätze, in denen eine Reihe sich ändernder Parameter im Laufe einer Reihe von Zeiträumen detailliert beschrieben wird. Nachdem Sie eine Dataset-Gruppe erstellt haben, verwenden Sie sie zum Schulen eines Predictors. 

Jede Dataset-Gruppe kann bis zu drei Datasets enthalten, eines von jedem [Dataset](#howitworks-dataset-domainstypes)-Typ: Ziel-Zeitreihen, verwandte Zeitreihen und Artikel-Metadaten.

Um Prognose-Datasets und Datensatzgruppen zu erstellen und zu verwalten, können Sie die Forecast-Konsole AWS Command Line Interface (AWS CLI) oder AWS das SDK verwenden.

Beispiele für Prognose-Datensätze finden Sie im [Amazon GitHub Forecast-Beispiel-Repository](https://github.com/aws-samples/amazon-forecast-samples).

**Topics**
+ [Datensätze](#howitworks-dataset)
+ [Dataset-Gruppen](#howitworks-datasetgroup)
+ [Beheben von Konflikten in der Häufigkeit der Datensammlung](#howitworks-data-alignment)
+ [Verwenden von Datasets verwandter Zeitreihen](related-time-series-datasets.md)
+ [Verwenden von Artikel-Metadaten-Datensätzen](item-metadata-datasets.md)
+ [Vordefinierte Dataset-Domänen und Dataset-Typen](howitworks-domains-ds-types.md)
+ [Aktualisieren von Daten](updating-data.md)
+ [Umgang mit fehlenden Werten](howitworks-missing-values.md)
+ [Datensatz-Richtlinien für Forecast](dataset-import-guidelines-troubleshooting.md)

## Datensätze
<a name="howitworks-dataset"></a>

Um Prognose-Datensätze zu erstellen und zu verwalten, können Sie die Forecast-APIs verwenden, einschließlich der [DescribeDataset](API_DescribeDataset.md) Operationen [CreateDataset](API_CreateDataset.md) und. Eine vollständige Liste der Forecast-APIs finden Sie unter[API-Referenz](api-reference.md).

Beim Erstellen eines Datasets geben Sie u. a. folgende Informationen an:
+ Die, frequency/interval an der Sie Ihre Daten aufgezeichnet haben. Sie können beispielsweise Einzelhandelsartikelverkäufe jede Woche aggregieren und aufzeichnen. In der [Erste Schritte](getting-started.md)-Übung verwenden Sie den durchschnittlich verbrauchten Strom pro Stunde.
+ Das Voraussageformat (die *Domäne*) und der Dataset-Typ (innerhalb der Domäne). Eine Datensatz-Domain gibt an, welche Art von Prognose Sie durchführen möchten, während ein Datensatztyp Ihnen hilft, Ihre Trainingsdaten in Forecast-friendly Kategorien zu organisieren.
+ Das Dataset-*Schema* Ein Schema ordnet die Spaltenüberschriften Ihres Datasets zu. Wenn Sie beispielsweise die Nachfrage überwachen, haben Sie möglicherweise stündliche Daten über den Verkauf eines Artikels in mehreren Geschäften gesammelt. In diesem Fall würde Ihr Schema die Reihenfolge von links nach rechts definieren, in der Zeitstempel, Standort und Stundensatz in Ihrer Schulungsdatendatei angezeigt werden. Schemata definieren auch den Datentyp der einzelnen Spalten, z. B. `string` oder `integer`.
+ Informationen zur Geolokalisierung und Zeitzone. Das Geolocation-Attribut ist innerhalb des Schemas mit dem Attributtyp definiert. `geolocation` Zeitzoneninformationen werden mit dem [ CreateDatasetImportJob](API_CreateDatasetImportJob.md)Vorgang definiert. Sowohl Geolokalisierungs- als auch Zeitzonendaten müssen enthalten sein, um den [Wetterindex](weather.md) zu aktivieren.

Jede Spalte in Ihrem Prognose-Dataset stellt entweder eine *Prognosedimension* oder ein *Prognose-Feature* dar. Prognosedimensionen beschreiben die Aspekte Ihrer Daten, die sich im Laufe der Zeit nicht ändern, z. B. `store` oder `location` Prognosefunktionen enthalten alle Parameter in Ihren Daten, die im Laufe der Zeit variieren, z. B. `price` oder `promotion`. Einige Dimensionen, z. B. `timestamp` oder `itemId`, sind in Ziel-Zeitreihen-Datasets und Datasets verwandter Zeitreihen erforderlich.

### Dataset-Domänen und Dataset-Typen
<a name="howitworks-dataset-domainstypes"></a>

Wenn Sie einen Prognose-Datensatz erstellen, wählen Sie eine Domäne und einen Datensatztyp aus. Forecast bietet Domains für eine Reihe von Anwendungsfällen, z. B. für die Prognose der Einzelhandelsnachfrage oder des Web-Traffics. Sie können auch eine benutzerdefinierte Domäne erstellen. Eine vollständige Liste der Forecast-Domänen finden Sie unter[Vordefinierte Dataset-Domänen und Dataset-Typen](howitworks-domains-ds-types.md).

Innerhalb jeder Domain können Forecast-Benutzer die folgenden Arten von Datensätzen angeben:
+ Ziel-Zeitreihen-Datensatz (erforderlich) — Verwenden Sie diesen Datensatztyp, wenn es sich bei Ihren Trainingsdaten um Zeitreihen handelt *und* diese das Feld enthalten, für das Sie eine Prognose erstellen möchten. Dieses Feld wird als *Zielfeld* bezeichnet.
+ Verwandter Zeitreihendatensatz (optional) — Wählen Sie diesen Datensatztyp, wenn es sich bei Ihren Trainingsdaten um Zeitreihen handelt, diese aber das Zielfeld *nicht* enthalten. Wenn Sie beispielsweise eine Artikelnachfrage prognostizieren, kann ein Dataset verwandter Zeitreihen zwar über `price` aber nicht über `demand` als Feld verfügen.
+ Element-Metadaten-Datensatz (optional) — Wählen Sie diesen Datensatztyp, wenn es sich bei Ihren Trainingsdaten *nicht* um Zeitreihendaten handelt, sondern Metadateninformationen zu den Elementen in der Zielzeitreihe oder in verwandten Zeitreihendatensätzen enthalten. Wenn Sie beispielsweise die Artikelnachfrage prognostizieren, kann ein Elementmetadaten-Datensatz Dimensionen `color` oder `brand` als Dimensionen haben. 

  Forecast berücksichtigt nur die Daten, die von einem Elementmetadaten-Datensatztyp bereitgestellt werden, wenn Sie den Algorithmus [CNN-QR](aws-forecast-algo-cnnqr.md)oder [DeePar\+](aws-forecast-recipe-deeparplus.md) verwenden.

  Artikel-Metadaten sind besonders nützlich in Kaltstart-Prognoseszenarien, in denen Sie über wenig direkte historische Daten, anhand derer Sie Vorhersagen treffen können, verfügen, aber über historische Daten über Artikel mit ähnlichen Metadaten-Attributen. Wenn Sie Elementmetadaten einbeziehen, erstellt Forecast Kaltstartprognosen auf der Grundlage ähnlicher Zeitreihen, wodurch genauere Prognosen erstellt werden können. 

Abhängig von den Informationen in Ihren Schulungsdaten und dem, was Sie prognostizieren möchten, können Sie mehr als ein Dataset erstellen. 

Angenommen, Sie möchten eine Prognose für die Nachfrage nach Einzelhandelsartikeln wie Schuhe, Socken usw. erstellen. Es bietet sich an, die folgenden Datasets in der RETAIL-Domäne zu erstellen:
+ Zielzeitreihen-Datensatz — Beinhaltet die historischen Zeitreihen-Nachfragedaten für die Einzelhandelsartikel (`item_id``timestamp`, und das Zielfeld). `demand` Da es das Zielfeld angibt, für das Sie eine Prognose erstellen möchten, müssen Sie mindestens ein Ziel-Zeitreihen-Dataset in einer Dataset-Gruppe haben.

  Sie können einem Ziel-Zeitreihen-Dataset auch bis zu zehn weitere Dimensionen hinzufügen. Wenn Sie nur ein Ziel-Zeitreihen-Dataset in Ihre Dataset-Gruppe aufnehmen, können Sie Prognosen entweder auf Artikelebene oder auf Prognosedimensionsebene erstellen. Weitere Informationen finden Sie unter [CreatePredictor](API_CreatePredictor.md).
+ Verwandter Zeitreihendatensatz — Enthält historische Zeitreihendaten mit Ausnahme des Zielfeldes, z. B. `price` oder. `revenue` Damit Daten verwandter Zeitreihen den Ziel-Zeitreihen-Daten zugeordnet werden können, muss jedes Dataset verwandter Zeitreihen die dieselben identifizierenden Felder enthalten. In der RETAIL-Domäne wären diese `item_id` und `timestamp`.

  Ein verwandtes Zeitreihen-Dataset kann Daten enthalten, die die Prognosen aus dem Zielzeitreihen-Dataset verfeinern. Sie können beispielsweise `price`-Daten in Ihr Dataset verwandter Zeitreihen für zukünftige Datumsangaben einschließen, für die Sie eine Prognose generieren möchten. Auf diese Weise kann Forecast Vorhersagen mit einer zusätzlichen Kontextdimension treffen. Weitere Informationen finden Sie unter [Verwenden von Datasets verwandter Zeitreihen](related-time-series-datasets.md).
+ Datensatz mit Artikelmetadaten — Beinhaltet Metadaten für Einzelhandelsartikel. Weitere Beispiele für Metadaten sind `brand`, `category`, `color` und `genre`.

**Beispiel-Dataset mit einer Prognosedimension**

Stellen Sie sich in Anlehnung an das vorherige Beispiel vor, dass Sie die Nachfrage nach Schuhen und Socken basierend auf den vorherigen Verkäufen in einem Geschäft prognostizieren möchten. Im folgenden Ziel-Zeitreihen-Dataset ist `store` eine Zeitreihen-Prognosedimension, während `demand` das Zielfeld ist. Socks werden in zwei Filialen (NYC und SFO) verkauft, und Schuhe werden nur in ORD verkauft.

Die ersten drei Zeilen dieser Tabelle enthalten die ersten verfügbaren Verkaufsdaten für die NYC-, SFO- und ORD-Filialen. Die letzten drei Zeilen enthalten die zuletzt aufgezeichneten Verkaufsdaten für jede Filiale. Die Zeile `...` stellt alle Artikelverkaufsdaten dar, die zwischen dem ersten und dem letzten Eintrag aufgezeichnet wurden.


<table>
<thead>
  <tr><th>timestamp</th><th>item\_id</th><th>store</th><th>demand</th></tr>
</thead>
<tbody>
  <tr><td>2019-01-01</td><td>socks</td><td>NYC</td><td> 25 </td></tr>
  <tr><td>2019-01-05</td><td>socks</td><td>SFO</td><td>45</td></tr>
  <tr><td>2019-02-01</td><td>shoes</td><td>ORD</td><td>10</td></tr>
  <tr><td colspan="4">...</td></tr>
  <tr><td>2019-06-01</td><td>socks</td><td>NYC</td><td>100</td></tr>
  <tr><td>2019-06-05</td><td>socks</td><td>SFO</td><td>5</td></tr>
  <tr><td>2019-07-01</td><td>shoes</td><td>ORD</td><td>50</td></tr>
</tbody>
</table>


### Dataset-Schema
<a name="howitworks-dataset-schema"></a>

Jedes Dataset erfordert ein Schema, d. h. eine vom Benutzer bereitgestellte JSON-Zuweisung der Felder in Ihren Schulungsdaten. Hier listen Sie sowohl die erforderlichen als auch die optionalen Dimensionen und Funktionen auf, die Sie in Ihr Dataset aufnehmen möchten.

Wenn Ihr Datensatz ein Geolocation-Attribut enthält, definieren Sie das Attribut innerhalb des Schemas mit dem Attributtyp. `geolocation` Weitere Informationen finden Sie unter [Geolocation-Informationen hinzufügen](weather.md#adding-geolocation). Um den [Wetterindex](weather.md) anwenden zu können, müssen Sie ein Geolocation-Attribut in Ihre Zielzeitreihe und alle zugehörigen Zeitreihendatensätze aufnehmen.

Einige Domänen haben optionale Dimensionen, die wir empfehlen, einzubeziehen. Optionale Dimensionen werden in den Beschreibungen der einzelnen Domänen weiter unten in dieser Anleitung aufgeführt. Ein Beispiel finden Sie unter [RETAIL-Domäne](retail-domain.md). Alle optionalen Dimensionen nehmen den Datentyp `string` an.

Für jedes Dataset ist ein Schema erforderlich. Im Folgenden finden Sie das zugehörige Schema für das obige Zielzeitreihen-Dataset.

```
{
     "attributes": [
        {
           "AttributeName": "timestamp",
           "AttributeType": "timestamp"
        },
        {
           "AttributeName": "item_id",
           "AttributeType": "string"
        },
        {
           "AttributeName": "store",
           "AttributeType": "string"
        },
        {
           "AttributeName": "demand",
           "AttributeType": "float"
        }
    ]
}
```

Wenn Sie Ihre Trainingsdaten in den Datensatz hochladen, der dieses Schema verwendet, geht Forecast davon aus, dass das `timestamp` `item_id` Feld Spalte 1, das `store` Feld Spalte 2, das Feld Spalte 3 und das `demand` Feld, das *Zielfeld*, Spalte 4 ist.

Für den Dataset-Typ der verwandte Zeitreihen müssen alle zugehörigen Funktionen den Attributtyp Gleitkommazahl oder Ganzzahl aufweisen. Für den Artikel-Metadaten-Dataset-Typ müssen alle Funktionen den Attributtyp Zeichenfolge haben. Weitere Informationen finden Sie unter [SchemaAttribute](API_SchemaAttribute.md).

**Anmerkung**  
Für jede Spalte im Datensatz ist ein `attributeName` `attributeType` Und-Paar erforderlich. Forecast reserviert eine Reihe von Namen, die nicht als Name eines Schemaattributs verwendet werden können. Die Liste der reservierten Namen finden Sie unter [Reservierte Feldnamen](reserved-field-names.md).

## Dataset-Gruppen
<a name="howitworks-datasetgroup"></a>

Eine *Dataset-Gruppe* ist eine Sammlung von einem bis drei verwandten Datasets, mit einem von jedem Dataset-Typ. Sie importieren Datasets in eine Dataset-Gruppe und verwenden dann die Dataset-Gruppe, um einen Predictor zu schulen.

Forecast umfasst die folgenden Operationen, um Datensatzgruppen zu erstellen und ihnen Datensätze hinzuzufügen:
+ [CreateDatasetGroup](API_CreateDatasetGroup.md)
+ [UpdateDatasetGroup](API_UpdateDatasetGroup.md)

## Beheben von Konflikten in der Häufigkeit der Datensammlung
<a name="howitworks-data-alignment"></a>

Forecast kann Prädiktoren mit Daten trainieren, die nicht mit der Datenhäufigkeit übereinstimmen, die Sie in der [CreateDataset](API_CreateDataset.md) Operation angeben. Sie können beispielsweise Daten importieren, die in stündlichen Intervallen aufgezeichnet wurden, obwohl einige der Daten zu Beginn der Stunde nicht mit einem Zeitstempel versehen sind (02:20, 02:45). Forecast verwendet die von Ihnen angegebene Datenhäufigkeit, um mehr über Ihre Daten zu erfahren. Anschließend aggregiert Forecast die Daten während des Prädiktortrainings. Weitere Informationen finden Sie unter [Datenaggregation für verschiedene Prognosefrequenzen](data-aggregation.md). 