

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Holen Sie sich Daten mit EMR Serverless in S3 Express One Zone
<a name="upload-data"></a>

Mit Amazon EMR-Versionen 7.2.0 und höher können Sie EMR Serverless mit der [Amazon S3 Express One Zone-Speicherklasse](https://docs.aws.amazon.com/AmazonS3/latest/userguide/s3-express-one-zone.html) verwenden, um die Leistung bei der Ausführung von Jobs und Workloads zu verbessern. S3 Express One Zone ist eine leistungsstarke Amazon S3 S3-Speicherklasse mit einer Zone, die für die meisten latenzempfindlichen Anwendungen einen konsistenten Datenzugriff im einstelligen Millisekundenbereich bietet. Zum Zeitpunkt seiner Veröffentlichung bietet S3 Express One Zone den Cloud-Objektspeicher mit der niedrigsten Latenz und der höchsten Leistung in Amazon S3.

## Voraussetzungen
<a name="upload-data-prereqs"></a>
+ S3 Express One Zone-Berechtigungen — Wenn S3 Express One Zone anfänglich eine Aktion wie`GET`, oder für ein S3-Objekt ausführt`LIST`, ruft die Speicherklasse in Ihrem Namen `PUT` auf. `CreateSession` Ihre IAM-Richtlinie muss die `s3express:CreateSession`-Genehmigung zulassen, damit der S3A-Konnektor die `CreateSession`-API aufrufen kann. Ein Beispiel für eine Richtlinie mit dieser Berechtigung finden Sie unter[Erste Schritte mit S3 Express One Zone](#upload-data-get-started).
+ S3Aconnector — Um Spark für den Zugriff auf Daten aus einem Amazon S3 S3-Bucket zu konfigurieren, der die Speicherklasse S3 Express One Zone verwendet, verwenden Sie den Apache Hadoop-ConnectorS3A. Um den Connector zu verwenden, stellen Sie sicher, dass alle S3 das `s3a` Schema URIs verwenden. Wenn dies nicht der Fall ist, ändern Sie die Dateisystemimplementierung, die Sie für `s3` und die `s3n` Schemas verwenden.

Um das `s3`-Schema zu ändern, geben Sie die folgenden Clusterkonfigurationen an: 

```
[
  {
    "Classification": "core-site",
    "Properties": {
      "fs.s3.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem",
      "fs.AbstractFileSystem.s3.impl": "org.apache.hadoop.fs.s3a.S3A"
    }
  }
]
```

Um das `s3n`-Schema zu ändern, geben Sie die folgenden Clusterkonfigurationen an: 

```
[
  {
    "Classification": "core-site",
    "Properties": {
      "fs.s3n.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem",
      "fs.AbstractFileSystem.s3n.impl": "org.apache.hadoop.fs.s3a.S3A"
    }
  }
]
```

## Erste Schritte mit S3 Express One Zone
<a name="upload-data-get-started"></a>

Folgen Sie diesen Schritten, um mit S3 Express One Zone zu beginnen.

1. [Erstellen Sie einen VPC-Endpunkt](https://docs.aws.amazon.com/vpc/latest/privatelink/create-interface-endpoint.html#create-interface-endpoint-aws). Fügen Sie den Endpunkt ` com.amazonaws.us-west-2.s3express` zum VPC-Endpunkt hinzu.

1. Folgen Sie [Getting started with Amazon EMR Serverless](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/getting-started.html), um eine Anwendung mit der Amazon EMR-Versionsbezeichnung 7.2.0 oder höher zu erstellen.

1. [Konfigurieren Sie Ihre Anwendung](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/vpc-access.html) so, dass sie den neu erstellten VPC-Endpunkt, eine private Subnetzgruppe und eine Sicherheitsgruppe verwendet.

1. Fügen Sie die `CreateSession` Berechtigung zu Ihrer Jobausführungsrolle hinzu.

------
#### [ JSON ]

****  

   ```
   {
     "Version":"2012-10-17",		 	 	 
     "Statement": [
       {
         "Effect": "Allow",
         "Resource": [
           "*"
         ],
         "Action": [
           "s3express:CreateSession"
         ],
         "Sid": "AllowS3EXPRESSCreatesession"
       }
     ]
   }
   ```

------

1. Führen Sie Ihren Job aus. Beachten Sie, dass Sie das `S3A` Schema verwenden, um auf S3 Express One Zone-Buckets zuzugreifen.

   ```
   aws emr-serverless start-job-run \      
   --application-id <application-id> \          
   --execution-role-arn <job-role-arn> \
   --name <job-run-name> \
   --job-driver '{
    "sparkSubmit": {                                                                                                                                                                                      
    "entryPoint": "s3a://<DOC-EXAMPLE-BUCKET>/scripts/wordcount.py", 
    "entryPointArguments":["s3a://<DOC-EXAMPLE-BUCKET>/emr-serverless-spark/output"],
    "sparkSubmitParameters": "--conf spark.executor.cores=4 
    --conf spark.executor.memory=8g --conf spark.driver.cores=4 
    --conf spark.driver.memory=8g --conf spark.executor.instances=2 
    --conf spark.hadoop.fs.s3a.change.detection.mode=none 
    --conf spark.hadoop.fs.s3a.endpoint.region={<AWS_REGION>}
    --conf spark.hadoop.fs.s3a.select.enabled=false 
    --conf spark.sql.sources.fastS3PartitionDiscovery.enabled=false 
    }'
   ```