Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà. # FlagDuplicateRows classe La trasformazione `FlagDuplicateRows` restituisce una nuova colonna che contiene un valore specificato in ogni riga che indica se la stessa corrisponde esattamente a una riga precedente nel set di dati. Quando vengono trovate corrispondenze, i valori vengono contrassegnati come duplicati. L'occorrenza iniziale non viene contrassegnata poiché non corrisponde a una riga precedente. ## Esempio ``` from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FlagDuplicateRows.apply( data_frame=input_df, spark_context=sc, target_column="flag_row", true_string="True", false_string="False", target_index=1 ) except: print("Unexpected Error happened ") raise ``` ## Output L'output sarà PySpark DataFrame con una colonna aggiuntiva `flag_row` che indica se una riga è duplicata o meno, in base alla `source_column_1` colonna. Il `df\$1output` DataFrame risultante conterrà le seguenti righe: ``` ``` +---------------+---------------+--------+ |source_column_1|source_column_2|flag_row| +---------------+---------------+--------+ | 105.111| 13.12| False| | 13.12| 13.12| True| | null| 13.12| True| | 13.12| 13.12| True| | null| 13.12| True| +---------------+---------------+--------+ ``` ``` La colonna `flag_row` indica se una riga è duplicata o meno. Il valore di `true\$1string` è impostato su “True” e quello di `false\$1string` su “False”. Il `target\$1index` è impostato su 1, il che significa che la `flag_row` colonna verrà inserita nella seconda posizione (indice 1) nell'output. DataFrame ## Metodi + [\$1\$1call\$1\$1](#aws-glue-api-pyspark-transforms-FlagDuplicateRows-__call__) + [apply](#aws-glue-api-crawler-pyspark-transforms-FlagDuplicateRows-apply) + [name](#aws-glue-api-crawler-pyspark-transforms-FlagDuplicateRows-name) + [describeArgs](#aws-glue-api-crawler-pyspark-transforms-FlagDuplicateRows-describeArgs) + [describeReturn](#aws-glue-api-crawler-pyspark-transforms-FlagDuplicateRows-describeReturn) + [describeTransform](#aws-glue-api-crawler-pyspark-transforms-FlagDuplicateRows-describeTransform) + [describeErrors](#aws-glue-api-crawler-pyspark-transforms-FlagDuplicateRows-describeErrors) + [describe](#aws-glue-api-crawler-pyspark-transforms-FlagDuplicateRows-describe) ## \$1\$1call\$1\$1(spark\$1context, data\$1frame, target\$1column, true\$1string=DEFAULT\$1TRUE\$1STRING, false\$1string=DEFAULT\$1FALSE\$1STRING, target\$1index=None) La trasformazione `FlagDuplicateRows` restituisce una nuova colonna che contiene un valore specificato in ogni riga che indica se la stessa corrisponde esattamente a una riga precedente nel set di dati. Quando vengono trovate corrispondenze, i valori vengono contrassegnati come duplicati. L'occorrenza iniziale non viene contrassegnata poiché non corrisponde a una riga precedente. + `true_string`: valore da inserire se la riga corrisponde a una riga precedente. + `false_string`: valore da inserire se la riga è univoca. + `target_column`: nome della nuova colonna inserita nel set di dati. ## apply(cls, \$1args, \$1\$1kwargs) Ereditato da `GlueTransform` [apply](aws-glue-api-crawler-pyspark-transforms-GlueTransform.md#aws-glue-api-crawler-pyspark-transforms-GlueTransform-apply). ## name(cls) Ereditato da `GlueTransform` [name](aws-glue-api-crawler-pyspark-transforms-GlueTransform.md#aws-glue-api-crawler-pyspark-transforms-GlueTransform-name). ## describeArgs(cls) Ereditato da `GlueTransform` [describeArgs](aws-glue-api-crawler-pyspark-transforms-GlueTransform.md#aws-glue-api-crawler-pyspark-transforms-GlueTransform-describeArgs). ## describeReturn(cls) Ereditato da `GlueTransform` [describeReturn](aws-glue-api-crawler-pyspark-transforms-GlueTransform.md#aws-glue-api-crawler-pyspark-transforms-GlueTransform-describeReturn). ## describeTransform(cls) Ereditato da `GlueTransform` [describeTransform](aws-glue-api-crawler-pyspark-transforms-GlueTransform.md#aws-glue-api-crawler-pyspark-transforms-GlueTransform-describeTransform). ## describeErrors(cls) Ereditato da `GlueTransform` [describeErrors](aws-glue-api-crawler-pyspark-transforms-GlueTransform.md#aws-glue-api-crawler-pyspark-transforms-GlueTransform-describeErrors). ## describe(cls) Ereditato da `GlueTransform` [describe](aws-glue-api-crawler-pyspark-transforms-GlueTransform.md#aws-glue-api-crawler-pyspark-transforms-GlueTransform-describe).