

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Löschen verwaister Dateien
<a name="orphan-file-deletion"></a>

 AWS Glue Data Catalog ermöglicht es Ihnen, verwaiste Dateien aus Ihren Iceberg-Tabellen zu entfernen. Verwaiste Dateien sind nicht referenzierte Dateien, die in Ihrer Amazon-S3-Datenquelle unter dem angegebenen Tabellenort vorhanden sind, nicht von den Iceberg-Tabellenmetadaten verfolgt werden und älter als die von Ihnen konfigurierte Altersgrenze sind. Diese verwaisten Dateien können sich im Laufe der Zeit aufgrund von Fehlern bei Vorgängen wie Komprimierung, Partitionslöschungen oder Tabellenumschreibungen ansammeln und unnötigen Speicherplatz beanspruchen.

Der Optimierer für das Löschen verwaister Dateien AWS Glue scannt die Tabellenmetadaten und die eigentlichen Datendateien, identifiziert die verwaisten Dateien und löscht sie, um Speicherplatz freizugeben. Der Optimierer entfernt nur Dateien, die nach dem Erstellungsdatum des Optimierers erstellt wurden und auch die konfigurierten Löschkriterien erfüllen. Dateien, die vor oder am Erstellungsdatum des Optimierers erstellt wurden, werden niemals gelöscht.

**Logik zum Löschen verwaister Dateien**

1. Datumsprüfung – vergleicht das Erstellungsdatum der Datei mit dem Erstellungsdatum des Optimierers. Wenn die Datei mindestens so alt ist wie der Optimierer, wird die Datei übersprungen.

1. Konfigurationsprüfung des Optimierers – wenn die Datei neuer als der Optimierers ist, wird die Datei anhand der konfigurierten Altersbeschränkung bewertet. Der Optimierer löscht die Datei, wenn sie den Löschkriterien entspricht. Die Datei wird übersprungen, wenn sie den Kriterien nicht entspricht.

 Sie können das Löschen verwaister Dateien initiieren, indem Sie im Datenkatalog einen Tabellenoptimierer für das Löschen verwaister Dateien erstellen.

**Wichtig**  
 Standardmäßig werden beim Löschen verwaister Dateien Dateien an Ihrem gesamten Speicherort in der Tabelle ausgewertet. AWS Glue Sie können zwar mithilfe eines API-Parameters ein Unterpräfix konfigurieren, um den Umfang der Auswertung einzuschränken, müssen jedoch sicherstellen, dass Ihr Tabellenspeicherort keine Dateien aus anderen Datenquellen oder Tabellen enthält. Wenn sich Ihr Tabellenspeicherort mit anderen Datenquellen überschneidet, identifiziert und löscht der Dienst möglicherweise nicht zugehörige Dateien als verwaiste Dateien. 

**Topics**
+ [Aktivieren des Löschens verwaister Dateien](enable-orphan-file-deletion.md)
+ [Aktualisieren des Optimierers für das Löschen verwaister Dateien](update-orphan-file-deletion.md)
+ [Deaktivieren der Löschung verwaister Dateien](disable-orphan-file-deletion.md)

# Aktivieren des Löschens verwaister Dateien
<a name="enable-orphan-file-deletion"></a>

 Sie können die AWS Glue Konsole oder die AWS API verwenden AWS CLI, um das Löschen verwaister Dateien für Ihre Apache Iceberg-Tabellen im Datenkatalog zu aktivieren. Bei neuen Tabellen können Sie Apache Iceberg als Tabellenformat auswählen und beim Erstellen der Tabelle den Optimierer zum Löschen verwaister Dateien aktivieren. Für neue Tabellen ist die Snapshot-Aufbewahrung standardmäßig deaktiviert.

------
#### [ Console ]

**So aktivieren Sie das Löschen verwaister Dateien**

1.  Öffnen Sie die AWS Glue Konsole unter [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/)und melden Sie sich als Data Lake-Administrator, als Tabellenersteller oder als Benutzer an, dem die `lakeformation:GetDataAccess` Berechtigungen `glue:UpdateTable` und für die Tabelle erteilt wurden. 

1. Wählen Sie im Navigationsbereich unter **Datenkatalog** die Option **Tabellen** aus.

1. Wählen Sie auf der Seite **Tabellen** eine Iceberg-Tabelle aus, für die Sie das Löschen verwaister Dateien aktivieren möchten.

   Wählen Sie im unteren Bereich der Seite die Registerkarte **Tabellenoptimierung** und dann unter **Aktionen** die Optionen **Aktivieren** und **Löschen verwaister Dateien** aus. 

   Sie können auch im **Aktionsmenü** oben rechts die Option **Aktivieren** unter **Optimierung** auswählen.

1. Wählen Sie auf der Seite **Optimierung aktivieren** unter **Optimierungsoptionen** die Option **Löschen verwaister Dateien** aus.

1. Wenn Sie die **Standardeinstellungen** verwenden, werden alle verwaisten Dateien nach 3 Tagen gelöscht. Wenn Sie die verwaisten Dateien für eine bestimmte Anzahl von Tagen behalten möchten, wählen Sie **Einstellungen anpassen** aus.

1. Als Nächstes wählen Sie eine IAM-Rolle mit den erforderlichen Berechtigungen zum Löschen verwaister Dateien.

1. Wenn Sie Sicherheitsrichtlinien-Konfigurationen haben, bei denen der Iceberg-Tabellenoptimierer von einer bestimmten Virtual Private Cloud (VPC) aus auf Amazon S3 S3-Buckets zugreifen muss, stellen Sie eine AWS Glue Netzwerkverbindung her oder verwenden Sie eine bestehende.

   Wenn Sie noch keine AWS Glue VPC-Verbindung eingerichtet haben, erstellen Sie eine neue, indem Sie die Schritte im Abschnitt [Verbindungen für Konnektoren erstellen](https://docs.aws.amazon.com/glue/latest/dg/creating-connections.html) mithilfe der AWS Glue Konsole oder des AWS CLI/SDKs ausführen.

1. Wenn Sie **Einstellungen anpassen** auswählen, geben Sie unter **Konfiguration zum Löschen verwaister Dateien** die Anzahl der Tage ein, für die die Dateien vor dem Löschen beibehalten werden sollen. Sie können auch das Intervall zwischen zwei aufeinanderfolgenden Optimiererausführungen angeben. Der Standardwert beträgt 24 Stunden.

1. Wählen Sie **Optimierung aktivieren** aus.

------
#### [ AWS CLI ]

 Um das Löschen verwaister Dateien für eine Iceberg-Tabelle in zu aktivieren AWS Glue, müssen Sie einen Tabellenoptimierer vom Typ 1 erstellen `orphan_file_deletion` und das Feld auf true setzen. `enabled` Um mit dem einen Optimizer für das Löschen verwaister Dateien für eine Iceberg-Tabelle zu erstellen AWS CLI, können Sie den folgenden Befehl verwenden:

```
aws glue create-table-optimizer \
 --catalog-id 123456789012 \
 --database-name iceberg_db \
 --table-name iceberg_table \
 --table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012:role/optimizer_role","enabled":true, "vpcConfiguration":{
"glueConnectionName":"glue_connection_name"}, "orphanFileDeletionConfiguration":{"icebergConfiguration":{"orphanFileRetentionPeriodInDays":3, "location":'S3 location'}}}'\
 --type orphan_file_deletion
```

 Dieser Befehl erstellt einen Optimierer für das Löschen verwaister Dateien für die angegebene Iceberg-Tabelle. Folgende sind die wichtigsten Parameter:
+ roleArn – der ARN der IAM-Rolle mit Berechtigungen für den Zugriff auf den S3-Bucket und die Glue-Ressourcen.
+ aktiviert – auf „true“ festlegen, um den Optimierer zu aktivieren.
+ orphanFileRetentionPeriodInDays — Die Anzahl der Tage, für die verwaiste Dateien aufbewahrt werden sollen, bevor sie gelöscht werden (mindestens 1 Tag).
+ Typ – auf „orphan\$1file\$1deletion“ setzen, um einen Optimierer für das Löschen verwaister Dateien zu erstellen.

 Nach der Erstellung des Tabellenoptimierers wird das Löschen verwaister Dateien in regelmäßigen Abständen durchgeführt (einmal täglich, sofern aktiviert). Sie können die Ausführungen mithilfe der `list-table-optimizer-runs`-API überprüfen. Der Auftrag zum Löschen verwaister Dateien identifiziert und löscht Dateien, die nicht in den Iceberg-Metadaten für die Tabelle erfasst sind.

------
#### [ API ]

Rufen Sie den [CreateTableOptimizer](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-table-optimizers.html#aws-glue-api-table-optimizers-CreateTableOptimizer)Vorgang auf, um den Optimizer für das Löschen verwaister Dateien für eine bestimmte Tabelle zu erstellen.

------

# Aktualisieren des Optimierers für das Löschen verwaister Dateien
<a name="update-orphan-file-deletion"></a>

 Sie können die Konfiguration für den Optimizer für das Löschen verwaister Dateien ändern, z. B. den Aufbewahrungszeitraum für verwaiste Dateien oder die vom Optimierer verwendete IAM-Rolle mithilfe der AWS Glue Konsole oder des Vorgangs ändern. AWS CLI`UpdateTableOptimizer` 

------
#### [ AWS-Managementkonsole ]

**So aktualisieren Sie den Optimierer für das Löschen verwaister Dateien**

1.  Wählen Sie **Datenkatalog** und dann **Tabellen** aus. In der Liste der Tabellen wählen Sie die Tabelle aus, für die Sie die Konfiguration des Optimierers für das Löschen verwaister Dateien aktualisieren möchten.

1. Wählen Sie unten auf der Seite **Tabellendetails** die Registerkarte **Tabellenoptimierung** und dann **Bearbeiten** aus. 

1.  Nehmen Sie auf der Seite **Optimierung bearbeiten** die gewünschten Änderungen vor. 

1.  Wählen Sie **Speichern**. 

------
#### [ AWS CLI ]

 Sie können den `update-table-optimizer` Aufruf verwenden, um den Optimizer für das Löschen verwaister Dateien in zu aktualisieren, Sie können Call verwenden. AWS Glue Auf diese Weise können Sie die `OrphanFileDeletionConfiguration` im Feld `icebergConfiguration` ändern, in dem Sie den aktualisierten `OrphanFileRetentionPeriodInDays`-Wert angeben können. Damit können Sie die Anzahl der Tage für die Aufbewahrung verwaister Dateien festlegen und den Speicherort der Iceberg-Tabelle angeben, aus dem verwaiste Dateien gelöscht werden sollen. 

```
aws glue update-table-optimizer \
 --catalog-id 123456789012 \
 --database-name iceberg_db \
 --table-name Iceberg_table \
 --table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012:role/optimizer_role","enabled":true, "vpcConfiguration":{"glueConnectionName":"glue_connection_name"},"orphanFileDeletionConfiguration":{"icebergConfiguration":{"orphanFileRetentionPeriodInDays":5}}}' \
 --type orphan_file_deletion
```

------
#### [ API ]

Rufen Sie den [UpdateTableOptimizer](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-table-optimizers.html#aws-glue-api-table-optimizers-UpdateTableOptimizer)Vorgang auf, um den Optimizer für das Löschen verwaister Dateien für eine Tabelle zu aktualisieren.

------

 

# Deaktivieren der Löschung verwaister Dateien
<a name="disable-orphan-file-deletion"></a>

 Sie können den Optimizer für das Löschen verwaister Dateien für eine bestimmte Apache Iceberg-Tabelle mithilfe AWS Glue der Konsole oder deaktivieren. AWS CLI

------
#### [ Console ]

**Deaktivieren der Löschung verwaister Dateien**

1. Wählen Sie **Datenkatalog** und dann **Tabellen** aus. Wählen Sie aus der Tabellenliste die Iceberg-Tabelle aus, für die Sie den Optimierer für die Löschung verwaister Dateien deaktivieren möchten.

1. Wählen Sie im unteren Bereich der Seite **Tabellendetails** die Registerkarte **Tabellenoptimierung** aus.

1. Wählen Sie **Aktionen** und anschließend **Deaktivieren**, **Löschen verwaister Dateien** aus.

   Sie können auch im Menü **Aktionen** unter **Optimierung** die Option **Deaktivieren** auswählen.

1.  Klicken Sie in der Bestätigungsmeldung auf **Deaktivieren**. Sie können den Optimierer zum Löschen verwaister Dateien zu einem späteren Zeitpunkt wieder aktivieren. 

    Nach Ihrer Bestätigung wird der Optimierer zum Löschen verwaister Dateien deaktiviert und der Status für das Löschen verwaister Dateien wechselt zurück zu `Not enabled`.

------
#### [ AWS CLI ]

Ersetzen Sie im folgenden Beispiel die Konto-ID durch eine gültige AWS Konto-ID. Ersetzen Sie den Datenbanknamen und den Tabellennamen durch die tatsächlichen Tabellen- und Datenbanknamen in Iceberg. Ersetzen Sie das `roleArn` durch den AWS Ressourcennamen (ARN) der IAM-Rolle und den tatsächlichen Namen der IAM-Rolle, die über die erforderlichen Berechtigungen zum Deaktivieren des Optimierers verfügt.

```
aws glue update-table-optimizer \
  --catalog-id 123456789012 \
  --database-name iceberg_db \
  --table-name iceberg_table \
  --table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012:role/optimizer_role", "enabled":'false'}'\ 
  --type orphan_file_deletion
```

------
#### [ API ]

Rufen Sie den [UpdateTableOptimizer](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-table-optimizers.html#aws-glue-api-table-optimizers-UpdateTableOptimizer)Vorgang auf, um den Snapshot-Aufbewahrungsoptimizer für eine bestimmte Tabelle zu deaktivieren.

------