

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Kommentieren von PDF-Dateien
<a name="cer-annotation-pdf"></a>

Bevor Sie Ihre Trainings-PDFs in SageMaker AI Ground Truth kommentieren können, müssen Sie die folgenden Voraussetzungen erfüllen:
+ Installieren Sie python3.8.x
+ Installieren Sie [jq](https://stedolan.github.io/jq/download/)
+ Installieren Sie die [AWS CLI](https://docs.aws.amazon.com/cli/latest/userguide/cli-chap-install.html)

  Wenn Sie die Region us-east-1 verwenden, können Sie die Installation der AWS CLI überspringen, da sie bereits in Ihrer Python-Umgebung installiert ist. In diesem Fall erstellen Sie eine virtuelle Umgebung, um Python 3.8 in AWS Cloud9 zu verwenden.
+ [Konfigurieren Sie Ihre Anmeldeinformationen AWS](https://docs.aws.amazon.com/cli/latest/userguide/cli-configure-files.html)
+ Schaffen Sie eine private [SageMaker KI-Ground-Truth-Belegschaft](https://docs.aws.amazon.com/sagemaker/latest/dg/sms-workforce-private-use-cognito.html) zur Unterstützung von Annotationen

  Notieren Sie sich unbedingt den Namen des Arbeitsteams, den Sie für Ihre neue private Belegschaft wählen, so wie Sie ihn bei der Installation verwenden.

**Topics**
+ [Einrichten Ihrer Umgebung](#cer-annotation-pdf-set-up)
+ [Eine PDF-Datei in einen S3-Bucket hochladen](#cer-annotation-pdf-upload)
+ [Einen Annotationsjob erstellen](#cer-annotation-pdf-job)
+ [Kommentieren mit SageMaker KI Ground Truth](#w2aac35c23c21c19c15)

## Einrichten Ihrer Umgebung
<a name="cer-annotation-pdf-set-up"></a>

1. Wenn Sie Windows verwenden, installieren Sie [Cygwin](https://cygwin.com/install.html). Wenn Sie Linux oder Mac verwenden, überspringen Sie diesen Schritt.

1. Laden Sie die [Annotationsartefakte](http://github.com/aws-samples/amazon-comprehend-semi-structured-documents-annotation-tools) von herunter. GitHub Entpacken Sie die Datei.

1. Navigieren Sie in Ihrem Terminalfenster zum entpackten Ordner (**amazon-comprehend-semi-structured-documents-annotation-tools-main**). 

1. Dieser Ordner enthält eine Auswahl von Optionen`Makefiles`, die Sie ausführen, um Abhängigkeiten zu installieren, eine virtuelle Python-Umgebung einzurichten und die erforderlichen Ressourcen bereitzustellen. Lesen Sie die **Readme-Datei**, um Ihre Wahl zu treffen.

1. Die empfohlene Option verwendet einen einzigen Befehl, um alle Abhängigkeiten in einer virtuellen Umgebung zu installieren, erstellt den CloudFormation Stack aus der Vorlage und stellt den Stack mit interaktiver Anleitung für Sie bereit. AWS-Konto Führen Sie den folgenden Befehl aus:

   `make ready-and-deploy-guided`

   Dieser Befehl bietet eine Reihe von Konfigurationsoptionen. Vergewissern Sie sich, dass Sie AWS-Region korrekt sind. Für alle anderen Felder können Sie entweder die Standardwerte akzeptieren oder benutzerdefinierte Werte eingeben. Wenn Sie den CloudFormation Stacknamen ändern, notieren Sie ihn in den nächsten Schritten so, wie Sie ihn benötigen.  
![Terminalsitzung mit CloudFormation Konfigurationsoptionen.](http://docs.aws.amazon.com/de_de/comprehend/latest/dg/images/deploy_guided_anno.png)

   Der CloudFormation Stack erstellt und verwaltet die [AWS Lambdas](https://aws.amazon.com/lambda/), [AWS IAM-Rollen](https://aws.amazon.com/iam/) und [AWS S3-Buckets, die für das Annotationstool](https://aws.amazon.com/s3/) erforderlich sind.

   Sie können jede dieser Ressourcen auf der Seite mit den Stack-Details in der Konsole überprüfen. CloudFormation 

1. Der Befehl fordert Sie auf, die Bereitstellung zu starten. CloudFormation erstellt alle Ressourcen in der angegebenen Region.  
![Terminalsitzung mit der bereitgestellten CloudFormation Konfiguration.](http://docs.aws.amazon.com/de_de/comprehend/latest/dg/images/deploy_guided_anno_2.png)

   Wenn der CloudFormation Stack-Status auf Create-Complete wechselt, sind die Ressourcen einsatzbereit.

## Eine PDF-Datei in einen S3-Bucket hochladen
<a name="cer-annotation-pdf-upload"></a>

Im Abschnitt [Einrichtung](#cer-annotation-pdf-set-up) haben Sie einen CloudFormation Stack bereitgestellt, der einen S3-Bucket mit dem Namen **comprehend-semi-structured-documents-$** {} -$ {} -$ {} erstellt. AWS::Region AWS::AccountId Sie laden jetzt Ihre PDF-Quelldokumente in diesen Bucket hoch.

**Anmerkung**  
Dieser Bucket enthält die Daten, die für Ihren Labeling-Job erforderlich sind. Die Richtlinie „Lambda Execution Role“ gewährt der Lambda-Funktion die Erlaubnis, auf diesen Bucket zuzugreifen.  
Den Namen des S3-Buckets finden Sie in den **CloudFormation Stack-Details** mithilfe des Schlüssels **SemiStructuredDocumentsS3Bucket**'.

1. Erstellen Sie einen neuen Ordner im S3-Bucket. Nennen Sie diesen neuen Ordner '**src**'. 

1. Fügen Sie Ihre PDF-Quelldateien zu Ihrem Ordner '**src**' hinzu. In einem späteren Schritt fügen Sie diesen Dateien Anmerkungen hinzu, um Ihr Erkennungsprogramm zu trainieren.

1. (Optional) Hier ist ein AWS CLI-Beispiel, mit dem Sie Ihre Quelldokumente aus einem lokalen Verzeichnis in einen S3-Bucket hochladen können:

   `aws s3 cp --recursive {{local-path-to-your-source-docs}} s3://{{deploy-guided}}/{{src}}/`

   Oder mit Ihrer Region und Konto-ID:

   `aws s3 cp --recursive {{local-path-to-your-source-docs}} s3://{{deploy-guided}}-{{Region}}-{{AccountID}}/{{src}}/`

1. Sie haben jetzt eine private SageMaker KI Ground Truth Belegschaft und haben Ihre Quelldateien in den S3-Bucket, **deploy-guided/src/**, hochgeladen; Sie können mit dem Kommentieren beginnen.

## Einen Annotationsjob erstellen
<a name="cer-annotation-pdf-job"></a>

Das Skript **comprehend-ssie-annotation-tool-cli.py** im `bin` Verzeichnis ist ein einfacher Wrapper-Befehl, der die Erstellung eines SageMaker AI Ground Truth Labeling-Jobs optimiert. Das Python-Skript liest die Quelldokumente aus Ihrem S3-Bucket und erstellt eine entsprechende einseitige Manifestdatei mit einem Quelldokument pro Zeile. Das Skript erstellt dann einen Labeling-Job, für den die Manifestdatei als Eingabe erforderlich ist. 

Das Python-Skript verwendet den S3-Bucket und den CloudFormation S3-Stack, die Sie im Abschnitt [Einrichtung](#cer-annotation-pdf-set-up) konfiguriert haben. Zu den erforderlichen Eingabeparametern für das Skript gehören:
+ **input-s3-path: S3-Uri** zu den Quelldokumenten, die Sie in Ihren S3-Bucket hochgeladen haben. Beispiel: `s3://deploy-guided/src/`. Sie können diesem Pfad auch Ihre Region und Konto-ID hinzufügen. Beispiel: `s3://deploy-guided-Region-AccountID/src/`.
+ **cfn-name: Der** CloudFormation Stack-Name. **Wenn Sie den Standardwert für den Stacknamen verwendet haben, lautet Ihr CFN-Name sam-app.**
+ **work-team-name: Der Name** der Belegschaft, den Sie beim Aufbau der privaten Belegschaft in SageMaker AI Ground Truth erstellt haben.
+ **job-name-prefix: Das Präfix** für den SageMaker AI Ground Truth Labeling-Job. Beachten Sie, dass für dieses Feld ein Limit von 29 Zeichen gilt. An diesen Wert wird ein Zeitstempel angehängt. Beispiel: `my-job-name-20210902T232116`.
+ **Entitätstypen**: Die Entitäten, die Sie während Ihres Labeling-Jobs verwenden möchten, getrennt durch Kommas. Diese Liste muss alle Entitäten enthalten, die Sie in Ihrem Trainingsdatensatz mit Anmerkungen versehen möchten. Der Ground Truth Labeling-Job zeigt nur diese Entitäten an, damit Annotatoren Inhalte in den PDF-Dokumenten beschriften können. 

Um zusätzliche Argumente anzuzeigen, die das Skript unterstützt, verwenden Sie die `-h` Option zum Anzeigen des Hilfeinhalts.
+ Führen Sie das folgende Skript mit den Eingabeparametern aus, wie in der vorherigen Liste beschrieben.

  ```
  python bin/comprehend-ssie-annotation-tool-cli.py \
  --input-s3-path s3://{{deploy-guided}}-{{Region}}-{{AccountID}}/{{src}}/ \
  --cfn-name {{sam-app}} \
  --work-team-name {{my-work-team-name}} \
  --region {{us-east-1}} \
  --job-name-prefix {{my-job-name-20210902T232116}} \
  --entity-types "{{EntityA}}, {{EntityB}}, {{EntityC}}" \
  --annotator-metadata "key={{info}},value={{sample}},key={{Due Date}},value={{12/12/2021}}"
  ```

  Das Skript erzeugt die folgende Ausgabe:

  ```
  Downloaded files to temp local directory /tmp/a1dc0c47-0f8c-42eb-9033-74a988ccc5aa
  Deleted downloaded temp files from /tmp/a1dc0c47-0f8c-42eb-9033-74a988ccc5aa
  Uploaded input manifest file to s3://comprehend-semi-structured-documents-us-west-2-123456789012/input-manifest/my-job-name-20220203-labeling-job-20220203T183118.manifest
  Uploaded schema file to s3://comprehend-semi-structured-documents-us-west-2-123456789012/comprehend-semi-structured-docs-ui-template/my-job-name-20220203-labeling-job-20220203T183118/ui-template/schema.json
  Uploaded template UI to s3://comprehend-semi-structured-documents-us-west-2-123456789012/comprehend-semi-structured-docs-ui-template/my-job-name-20220203-labeling-job-20220203T183118/ui-template/template-2021-04-15.liquid
  Sagemaker GroundTruth Labeling Job submitted: arn:aws:sagemaker:us-west-2:123456789012:labeling-job/my-job-name-20220203-labeling-job-20220203t183118
  (amazon-comprehend-semi-structured-documents-annotation-tools-main) user@3c063014d632 amazon-comprehend-semi-structured-documents-annotation-tools-main %
  ```

## Kommentieren mit SageMaker KI Ground Truth
<a name="w2aac35c23c21c19c15"></a>

Nachdem Sie die erforderlichen Ressourcen konfiguriert und einen Labeling-Job erstellt haben, können Sie sich beim Labeling-Portal anmelden und Ihre PDF-Dateien mit Anmerkungen versehen.

1. Melden Sie sich mit den Webbrowsern Chrome oder Firefox bei der [SageMaker AI-Konsole](https://console.aws.amazon.com/sagemaker) an.

1. Wählen Sie **Labeling Workforces** und dann **Privat** aus.

1. Wählen Sie unter **Übersicht über private Mitarbeiter** die Anmelde-URL für das Labeling-Portal aus, die Sie zusammen mit Ihren privaten Mitarbeitern erstellt haben. Melden Sie sich mit den entsprechenden Anmeldeinformationen an.

   Wenn keine Jobs aufgelistet sind, machen Sie sich keine Sorgen. Die Aktualisierung kann je nach Anzahl der Dateien, die Sie zur Anmerkung hochgeladen haben, eine Weile dauern.

1. Wählen Sie Ihre Aufgabe aus und klicken Sie in der oberen rechten Ecke auf Mit der **Arbeit beginnen, um den Kommentarbildschirm** zu öffnen.

   Auf dem Kommentarbildschirm wird eines Ihrer Dokumente geöffnet und darüber werden die Entitätstypen angezeigt, die Sie bei der Einrichtung angegeben haben. Rechts neben Ihren Entitätstypen befindet sich ein Pfeil, mit dem Sie durch Ihre Dokumente navigieren können.  
![Der Amazon Comprehend Comprehend-Kommentarbildschirm.](http://docs.aws.amazon.com/de_de/comprehend/latest/dg/images/annotation_demo1.png)

   Kommentieren Sie das geöffnete Dokument. Sie können Ihre Anmerkungen in jedem Dokument auch entfernen, rückgängig machen oder auto taggen. Diese Optionen sind im rechten Bereich des Kommentarwerkzeugs verfügbar.  
![Verfügbare Optionen im rechten Bereich der Amazon Comprehend Comprehend-Anmerkung.](http://docs.aws.amazon.com/de_de/comprehend/latest/dg/images/data_annotation.png)

   Um Auto-Tag zu verwenden, kommentieren Sie eine Instanz einer Ihrer Entitäten. Alle anderen Vorkommen dieses bestimmten Wortes werden dann automatisch mit diesem Entitätstyp annotiert.

   Wenn Sie fertig sind, wählen Sie unten rechts **Senden** aus und verwenden Sie dann die Navigationspfeile, um zum nächsten Dokument zu gelangen. Wiederholen Sie diesen Vorgang, bis Sie alle Ihre PDF-Dateien mit Anmerkungen versehen haben.

Nachdem Sie alle Schulungsdokumente mit Anmerkungen versehen haben, finden Sie die Anmerkungen im JSON-Format im Amazon S3 S3-Bucket an dieser Stelle:

```
/output/{{your labeling job name}}/annotations/
```

Der Ausgabeordner enthält auch eine Ausgabemanifestdatei, in der alle Anmerkungen in Ihren Schulungsdokumenten aufgeführt sind. Sie finden Ihre Ausgabe-Manifestdatei am folgenden Speicherort.

```
/output/{{your labeling job name}}/manifests/
```