FileSize - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

FileSize

Mit dem FileSize Regeltyp können Sie sicherstellen, dass Dateien bestimmte Dateigrößenkriterien erfüllen. Dies ist für folgende Anwendungsfälle nützlich:

  1. Stellen Sie sicher, dass Produzenten keine leeren oder wesentlich kleineren Dateien zur Verarbeitung senden.

  2. Stellen Sie sicher, dass Ihre Ziel-Buckets keine kleineren Dateien enthalten, was zu Leistungseinbußen führen kann.

FileSize sammelt die folgenden Messwerte:

  1. Compliance: Gibt den Prozentsatz der Dateien zurück, die den von Ihnen festgelegten Regelschwellenwert erfüllen

  2. Dateianzahl: Die Anzahl der Dateien, die von der Regel gescannt wurden

  3. Minimale Dateigröße in Bytes

  4. Maximale Datengröße in Bytes

Dataset.*.FileSize.Compliance: 1.00, Dataset.*.FileCount: 8.00, Dataset.*.MaximumFileSize: 327413121.00, Dataset.*.MinimumFileSize: 204558920.00

Die Erkennung von Anomalien wird für diese Metriken nicht unterstützt.

Überprüfen der Größe von Dateien

Diese Regel wird erfüllt, wenn file.dat größer als 2 MB ist.

FileSize "s3://amzn-s3-demo-bucket/file.dat" > 2 MB

Zu den unterstützten Einheiten gehören B (Byte), MB (Megabytes), GB (Gigabytes) und TB (Terabyte).

Überprüfen der Größe von Dateien in Ordnern

FileSize "s3://bucket/" > 5 B FileSize "s3://bucket/" < 2 GB

Diese Regel wird erfüllt, wenn 70 % der Dateien in s3://amzn-s3-demo-bucket zwischen 2 GB und 1 TB groß sind.

FileSize "s3://amzn-s3-demo-bucket/" between 2 GB and 1 TB with threshold > 0.7

Ableiten von Dateinamen direkt aus Datenrahmen

Sie müssen nicht immer einen Dateipfad angeben. Wenn Sie beispielsweise die Regel im Datenkatalog erstellen, kann es schwierig sein, herauszufinden, welche Ordner die Katalogtabellen verwenden. AWS Glue Data Quality kann die spezifischen Ordner oder Dateien finden, die zum Füllen Ihres Datenrahmens verwendet werden.

Anmerkung

Diese Funktion funktioniert nur, wenn Dateien erfolgreich in das Feld DynamicFrame oder DataFrame eingelesen wurden.

FileSize < 10 MB with threshold > 0.7

Optionale dateibasierte Regel-Tags:

Mithilfe von Tags können Sie das Verhalten der Regel steuern.

recentFiles

Dieses Tag begrenzt die Anzahl der verarbeiteten Dateien, indem die neueste Datei zuerst angezeigt wird.

FileSize "s3://amzn-s3-demo-bucket/" > 5 B with recentFiles = 1

uriRegex

Anmerkung

Das uriRegex Tag ist in AWS Glue 5.0 und höher verfügbar.

Dieses Tag filtert Dateien, indem es ein Regex-Muster auf den Dateipfad anwendet. Es werden nur Dateien verarbeitet, deren Pfade dem Muster entsprechen. Sie können auch einen negativen Lookahead verwenden, um Dateien auszuschließen, die einem Muster entsprechen.

# Match only files with a .dat extension FileSize "s3://bucket/" > 5 B with uriRegex = "\.dat$" # Exclude files ending in .tmp using a negative lookahead FileSize "s3://bucket/" > 5 B with uriRegex = "(?!.*\.tmp$).*"

Reihenfolge filtern

Anmerkung

Das filterOrder Tag ist in AWS Glue 5.0 und höher verfügbar.

Wenn Sie mehrere Filter-Tags wie recentFiles und uriRegex zusammen verwenden, steuert das filterOrder Tag die Reihenfolge, in der sie angewendet werden. Die Standardreihenfolge ist recentFiles zuerst, dannuriRegex.

FileSize "s3://bucket/" > 5 B with recentFiles = 5 with uriRegex = "\.dat$" with filterOrder = ["uriRegex","recentFiles"]

FailFast

Wenn diese Option auf gesetzt ist"true", gibt die Regel sofort bei der ersten Datei, die die Größenbedingung nicht erfüllt, einen Fehler zurück, anstatt alle Dateien auszuwerten und ein Kompatibilitätsverhältnis zu berechnen.

FileSize "s3://bucket/" > 2 MB with failFast = "true"

Es gibt ein paar Überlegungen:

  1. In AWS Glue ETL muss Evaluate DataQuality Transform unmittelbar nach der Amazon S3- oder Data Catalog-Transformation installiert sein.

  2. Diese Regel funktioniert nicht in AWS Glue Interactive Sessions.