Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich. # FlagDuplicateRows Klasse Die `FlagDuplicateRows`-Transformation gibt eine neue Spalte mit einem bestimmten Wert in jeder Zeile zurück. Damit wird angegeben, ob diese Zeile exakt mit einer früheren Zeile im Datensatz übereinstimmt. Wenn Übereinstimmungen gefunden werden, werden diese als Duplikate gekennzeichnet. Das ursprüngliche Vorkommen wird nicht gekennzeichnet, da es nicht mit einer früheren Zeile übereinstimmt. ## Beispiel ``` from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FlagDuplicateRows.apply( data_frame=input_df, spark_context=sc, target_column="flag_row", true_string="True", false_string="False", target_index=1 ) except: print("Unexpected Error happened ") raise ``` ## Ausgabe Die Ausgabe wird eine PySpark DataFrame mit einer zusätzlichen Spalte sein`flag_row`, die anhand der Spalte angibt, ob es sich bei einer Zeile um ein Duplikat handelt oder nicht. `source_column_1` Das resultierende `df\$1output` DataFrame wird die folgenden Zeilen enthalten: ``` ``` +---------------+---------------+--------+ |source_column_1|source_column_2|flag_row| +---------------+---------------+--------+ | 105.111| 13.12| False| | 13.12| 13.12| True| | null| 13.12| True| | 13.12| 13.12| True| | null| 13.12| True| +---------------+---------------+--------+ ``` ``` Die `flag_row`-Spalte gibt an, ob es sich bei einer Zeile um ein Duplikat handelt oder nicht. „true\$1string“ ist auf „True“ gesetzt und „false\$1string“ ist auf „False“ gesetzt. Der `target\$1index` ist auf 1 gesetzt, was bedeutet, dass die `flag_row` Spalte an der zweiten Position (Index 1) in der Ausgabe eingefügt wird. DataFrame ## Methoden + [\$1\$1call\$1\$1](#aws-glue-api-pyspark-transforms-FlagDuplicateRows-__call__) + [apply](#aws-glue-api-crawler-pyspark-transforms-FlagDuplicateRows-apply) + [Name](#aws-glue-api-crawler-pyspark-transforms-FlagDuplicateRows-name) + [describeArgs](#aws-glue-api-crawler-pyspark-transforms-FlagDuplicateRows-describeArgs) + [describeReturn](#aws-glue-api-crawler-pyspark-transforms-FlagDuplicateRows-describeReturn) + [describeTransform](#aws-glue-api-crawler-pyspark-transforms-FlagDuplicateRows-describeTransform) + [describeErrors](#aws-glue-api-crawler-pyspark-transforms-FlagDuplicateRows-describeErrors) + [Beschreiben](#aws-glue-api-crawler-pyspark-transforms-FlagDuplicateRows-describe) ## \$1\$1call\$1\$1(spark\$1context, data\$1frame, target\$1column, true\$1string=DEFAULT\$1TRUE\$1STRING, false\$1string=DEFAULT\$1FALSE\$1STRING, target\$1index=None) Die `FlagDuplicateRows`-Transformation gibt eine neue Spalte mit einem bestimmten Wert in jeder Zeile zurück. Damit wird angegeben, ob diese Zeile exakt mit einer früheren Zeile im Datensatz übereinstimmt. Wenn Übereinstimmungen gefunden werden, werden diese als Duplikate gekennzeichnet. Das ursprüngliche Vorkommen wird nicht gekennzeichnet, da es nicht mit einer früheren Zeile übereinstimmt. + `true_string` – Wert, der eingefügt werden soll, wenn die Zeile mit einer früheren Zeile übereinstimmt. + `false_string` – Wert, der eingefügt werden soll, wenn die Zeile eindeutig ist. + `target_column` – Name der neuen Spalte, die in den Datensatz eingefügt wird. ## apply(cls, \$1args, \$1\$1kwargs) Geerbt von `GlueTransform` [apply](aws-glue-api-crawler-pyspark-transforms-GlueTransform.md#aws-glue-api-crawler-pyspark-transforms-GlueTransform-apply). ## name(cls) Geerbt von `GlueTransform` [Name](aws-glue-api-crawler-pyspark-transforms-GlueTransform.md#aws-glue-api-crawler-pyspark-transforms-GlueTransform-name). ## describeArgs(cls) Geerbt von `GlueTransform` [describeArgs](aws-glue-api-crawler-pyspark-transforms-GlueTransform.md#aws-glue-api-crawler-pyspark-transforms-GlueTransform-describeArgs). ## describeReturn(cls) Geerbt von `GlueTransform` [describeReturn](aws-glue-api-crawler-pyspark-transforms-GlueTransform.md#aws-glue-api-crawler-pyspark-transforms-GlueTransform-describeReturn). ## describeTransform(cls) Geerbt von `GlueTransform` [describeTransform](aws-glue-api-crawler-pyspark-transforms-GlueTransform.md#aws-glue-api-crawler-pyspark-transforms-GlueTransform-describeTransform). ## describeErrors(cls) Geerbt von `GlueTransform` [describeErrors](aws-glue-api-crawler-pyspark-transforms-GlueTransform.md#aws-glue-api-crawler-pyspark-transforms-GlueTransform-describeErrors). ## describe(cls) Geerbt von `GlueTransform` [Beschreiben](aws-glue-api-crawler-pyspark-transforms-GlueTransform.md#aws-glue-api-crawler-pyspark-transforms-GlueTransform-describe).