

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Benutzerdefinierter Datenquellen-Connector
<a name="data-source-custom"></a>

Verwenden Sie eine benutzerdefinierte Datenquelle, wenn Sie über ein Repository verfügen, für das noch Amazon Kendra kein Datenquellen-Connector zur Verfügung steht. Sie können damit dieselben Metriken zum Ausführungsverlauf anzeigen, die Amazon Kendra Datenquellen bereitstellen, auch wenn Sie die Datenquellen nicht zum Synchronisieren Ihrer Amazon Kendra Repositorys verwenden können. Verwenden Sie dies, um eine konsistente Synchronisierungsüberwachung zwischen Amazon Kendra Datenquellen und benutzerdefinierten Datenquellen zu gewährleisten. Verwenden Sie insbesondere eine benutzerdefinierte Datenquelle, um Synchronisierungsmetriken für einen Datenquellen-Connector zu sehen, den Sie mithilfe der [BatchDeleteDocument](https://docs.aws.amazon.com/kendra/latest/APIReference/API_BatchDeleteDocument.html)APIs [BatchPutDocument](https://docs.aws.amazon.com/kendra/latest/APIReference/API_BatchPutDocument.html)und erstellt haben.

Informationen zur Fehlerbehebung bei Ihrem benutzerdefinierten Amazon Kendra-Datenquellen-Connector finden Sie unter[Problembehandlung bei Datenquellen](troubleshooting-data-sources.md).

Wenn Sie eine benutzerdefinierte Datenquelle erstellen, haben Sie die vollständige Kontrolle darüber, wie die zu indizierenden Dokumente ausgewählt werden. Amazon Kendra stellt nur Metrikinformationen bereit, die Sie zur Überwachung Ihrer Datenquellen-Synchronisierungsaufträge verwenden können. Sie müssen den Crawler erstellen und ausführen, der die Dokumente ermittelt, die Ihre Datenquelle indiziert.

Sie müssen den Haupttitel Ihrer Dokumente mithilfe des [`DocumentURI`Document-Objekts](https://docs.aws.amazon.com/kendra/latest/APIReference/API_Document.html) angeben, um das `Query` Ergebnis zu erhalten `DocumentTitle` und in die Antwort aufzunehmen. `_source_uri` [DocumentAttribute](https://docs.aws.amazon.com/kendra/latest/APIReference/API_DocumentAttribute.html)

Sie erstellen einen Bezeichner für Ihre benutzerdefinierte Datenquelle mithilfe der Konsole oder mithilfe der [CreateDataSource](https://docs.aws.amazon.com/kendra/latest/APIReference/API_CreateDataSource.html)API. Um die Konsole zu verwenden, geben Sie Ihrer Datenquelle einen Namen und optional eine Beschreibung und Ressourcen-Tags. Nachdem die Datenquelle erstellt wurde, wird eine Datenquellen-ID angezeigt. Kopieren Sie diese ID, um sie zu verwenden, wenn Sie die Datenquelle mit dem Index synchronisieren.

![Formular zur Angabe von Datenquellendetails, einschließlich Name, Beschreibung und optionalen Tags.](http://docs.aws.amazon.com/de_de/kendra/latest/dg/images/CustomDataSource.png)


Sie können mithilfe der `CreateDataSource` API auch eine benutzerdefinierte Datenquelle erstellen. Die API gibt eine ID zurück, die Sie verwenden können, wenn Sie die Datenquelle synchronisieren. Wenn Sie die `CreateDataSource` API verwenden, um eine benutzerdefinierte Datenquelle zu erstellen, können Sie die `Configuration` `Schedule` Parameter `RoleArn` oder nicht festlegen. Wenn Sie diese Parameter festlegen, wird eine `ValidationException` Ausnahme Amazon Kendra zurückgegeben.

Um eine benutzerdefinierte Datenquelle zu verwenden, erstellen Sie eine Anwendung, die für die Aktualisierung des Amazon Kendra Index verantwortlich ist. Die Anwendung hängt von einem Crawler ab, den Sie erstellen. Der Crawler liest die Dokumente in Ihrem Repository und bestimmt, an welche Dokumente gesendet werden sollen. Amazon Kendra Ihre Anwendung sollte die folgenden Schritte ausführen: 

1. Crawlen Sie Ihr Repository und erstellen Sie eine Liste der Dokumente in Ihrem Repository, die hinzugefügt, aktualisiert oder gelöscht wurden.

1. Rufen Sie die [StartDataSourceSyncJob](https://docs.aws.amazon.com/kendra/latest/APIReference/API_StartDataSourceSyncJob.html)API auf, um zu signalisieren, dass ein Synchronisierungsjob gestartet wird. Sie geben eine Datenquellen-ID an, um die Datenquelle zu identifizieren, die synchronisiert wird. Amazon Kendra gibt eine Ausführungs-ID zurück, um einen bestimmten Synchronisierungsjob zu identifizieren.

1. Rufen Sie die [BatchDeleteDocument](https://docs.aws.amazon.com/kendra/latest/APIReference/API_BatchDeleteDocument.html)API auf, um Dokumente aus dem Index zu entfernen. Sie geben die Datenquellen-ID und die Ausführungs-ID zur Identifizierung der Datenquelle, die synchronisiert wird, und den Auftrag an, dem dieses Update zugeordnet ist.

1. Rufen Sie die [StopDataSourceSyncJob](https://docs.aws.amazon.com/kendra/latest/APIReference/API_StopDataSourceSyncJob.html)API auf, um das Ende des Synchronisierungsauftrags zu signalisieren. Nachdem Sie die `StopDataSourceSyncJob` API aufgerufen haben, ist die zugehörige Ausführungs-ID nicht mehr gültig.

1. Rufen Sie die [ListDataSourceSyncJobs](https://docs.aws.amazon.com/kendra/latest/APIReference/API_ListDataSourceSyncJobs.html)API mit den Index- und Datenquellen-IDs auf, um die Synchronisierungsjobs für die Datenquelle aufzulisten und Metriken für die Synchronisierungsjobs anzuzeigen.

Nachdem Sie einen Synchronisierungsjob beendet haben, können Sie einen neuen Synchronisierungsjob starten. Es kann eine gewisse Zeit dauern, bis dem Index alle übermittelten Dokumente hinzugefügt werden. Verwenden Sie die `ListDataSourceSyncJobs` API, um den Status des Synchronisierungsauftrags zu überprüfen. Wenn der für den Synchronisierungsauftrag der Wert `SYNCING_INDEXING` für `Status` zurückgegeben wird, werden einige Dokumente noch indexiert. Sie können einen neuen Synchronisierungsauftrag starten, wenn der Status des vorherigen Jobs `FAILED` oder `SUCCEEDED` lautet.

Nachdem Sie die `StopDataSourceSyncJob` API aufgerufen haben, können Sie in einem Aufruf der `BatchDeleteDocument` APIs `BatchPutDocument` oder keine Sync-Job-ID verwenden. Wenn Sie dies tun, werden alle übermittelten Dokumente in der `FailedDocuments`-Antwortnachricht der API zurückgegeben.

## Erforderliche Attribute
<a name="custom-required-attributes"></a>

Wenn Sie ein Dokument Amazon Kendra über die `BatchPutDocument` API einreichen, benötigt jedes Dokument zwei Attribute, um die Datenquelle und den Synchronisierungslauf zu identifizieren, zu dem es gehört. Sie müssen die folgenden beiden Attribute angeben, um Dokumente aus Ihrer benutzerdefinierten Datenquelle korrekt einem Amazon Kendra Index zuzuordnen:
+ `_data_source_id`— Der Bezeichner der Datenquelle. Dieser Wert wird zurückgegeben, wenn Sie die Datenquelle mit der Konsole oder der `CreateDataSource` API erstellen.
+ `_data_source_sync_job_execution_id`— Die ID des Synchronisierungslaufs. Dies wird zurückgegeben, wenn Sie die Indexsynchronisierung mit der `StartDataSourceSyncJob` API starten.

Der folgende JSON-Code ist erforderlich, um ein Dokument mithilfe einer benutzerdefinierten Datenquelle zu indexieren.

```
{
    "Documents": [
        {
            "Attributes": [
                {
                    "Key": "_data_source_id",
                    "Value": {
                        "StringValue": "{{data source identifier}}"
                    }
                },
                {
                    "Key": "_data_source_sync_job_execution_id",
                    "Value": {
                        "StringValue": "{{sync job identifier}}"
                    }
                }
            ],
            "Blob": "{{document content}}",
            "ContentType": "{{content type}}",
            "Id": "{{document identifier}}",
            "Title": "{{document title}}"
        }
    ],
    "IndexId": "{{index identifier}}",
    "RoleArn": "{{IAM role ARN}}"
}
```

Wenn Sie ein Dokument mithilfe der `BatchDeleteDocument` API aus dem Index entfernen, müssen Sie die folgenden zwei Felder im `DataSourceSyncJobMetricTarget` Parameter angeben:
+ `DataSourceId`— Der Bezeichner der Datenquelle. Dieser Wert wird zurückgegeben, wenn Sie die Datenquelle mit der Konsole oder der `CreateDataSource` API erstellen.
+ `DataSourceSyncJobId`— Die ID des Synchronisierungslaufs. Dies wird zurückgegeben, wenn Sie die Indexsynchronisierung mit der `StartDataSourceSyncJob` API starten.

Das Folgende ist das JSON, das erforderlich ist, um ein Dokument mithilfe der `BatchDeleteDocument` API aus dem Index zu löschen.

```
{
    "DataSourceSyncJobMetricTarget": {
        "DataSourceId": "{{data source identifier}}",
        "DataSourceSyncJobId": "{{sync job identifier}}"
    },
    "DocumentIdList": [
        "{{document identifier}}"
    ],
    "IndexId": "{{index identifier}}"
}
```

## Anzeigen von Metriken
<a name="custom-metrics"></a>

Nach Abschluss eines Synchronisierungsauftrags können Sie die [DataSourceSyncJobMetrics](https://docs.aws.amazon.com/kendra/latest/APIReference/API_DataSourceSyncJobMetrics.html)API verwenden, um die mit dem Synchronisierungsjob verknüpften Metriken abzurufen. Verwenden Sie dies, um Ihre benutzerdefinierten Datenquellensynchronisierungen zu überwachen.

Wenn Sie dasselbe Dokument mehrmals einreichen, entweder als Teil der `BatchPutDocument` API, der API oder wenn das `BatchDeleteDocument` Dokument sowohl zum Hinzufügen als auch zum Löschen eingereicht wird, wird das Dokument in den Kennzahlen nur einmal gezählt.
+ `DocumentsAdded`— Die Anzahl der Dokumente, die über die `BatchPutDocument` API eingereicht wurden, die mit diesem Synchronisierungsjob verknüpft ist, wurde dem Index zum ersten Mal hinzugefügt. Wird ein Dokument in einer Synchronisierung mehrmals zum Hinzufügen übermittelt, wird das Dokument in den Metriken nur einmal gezählt.
+ `DocumentsDeleted`— Die Anzahl der Dokumente, die mithilfe der `BatchDeleteDocument` API eingereicht wurden, die diesem Synchronisierungsauftrag zugeordnet ist, wurde aus dem Index gelöscht. Wird ein Dokument in einer Synchronisierung mehrmals zum Löschen übermittelt, wird das Dokument in den Metriken nur einmal gezählt.
+ `DocumentsFailed`— Die Anzahl der Dokumente, die mit diesem Synchronisierungsauftrag verknüpft sind und bei dem die Indizierung fehlgeschlagen ist. Dies sind Dokumente, die von Amazon Kendra zur Indizierung akzeptiert wurden, aber nicht indexiert oder gelöscht werden konnten. Wenn ein Dokument nicht akzeptiert wird von Amazon Kendra, wird der Bezeichner für das Dokument in der `FailedDocuments` Antworteigenschaft der APIs `BatchPutDocument` und `BatchDeleteDocument` zurückgegeben.
+ `DocumentsModified`— Die Anzahl der geänderten Dokumente, die über die diesem Synchronisierungsauftrag zugeordnete `BatchPutDocument` API übermittelt wurden und die im Amazon Kendra Index geändert wurden.

Amazon Kendra gibt bei der Indizierung von Dokumenten auch Amazon CloudWatch Metriken aus. Weitere Informationen finden Sie unter [Überwachung Amazon Kendra](https://docs.aws.amazon.com/kendra/latest/dg/cloudwatch-metrics.html) mit. Amazon CloudWatch

Amazon Kendra gibt die `DocumentsScanned` Metrik für benutzerdefinierte Datenquellen nicht zurück. Es gibt auch die im Dokument CloudWatch Metriken [für Amazon Kendra Datenquellen aufgeführten Metriken](https://docs.aws.amazon.com/kendra/latest/dg/cloudwatch-metrics.html#cloudwatch-metrics-data-source) aus.

## Weitere Informationen
<a name="custom-learn-more"></a>

Weitere Informationen zur Integration Amazon Kendra mit Ihrer benutzerdefinierten Datenquelle finden Sie unter:
+ [Hinzufügen von benutzerdefinierten Datenquellen zu Amazon Kendra](https://aws.amazon.com/blogs/machine-learning/adding-custom-data-sources-to-amazon-kendra/)