Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
FlagDuplicateRows classe
La transformation FlagDuplicateRows renvoie une nouvelle colonne avec une valeur spécifiée dans chaque ligne qui indique si cette ligne correspond exactement à une ligne précédente dans le jeu de données. Lorsque des correspondances sont trouvées, elles sont signalées comme des doublons. L’occurrence initiale n’est pas signalée, car elle ne correspond pas à une ligne précédente.
Exemple
from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FlagDuplicateRows.apply( data_frame=input_df, spark_context=sc, target_column="flag_row", true_string="True", false_string="False", target_index=1 ) except: print("Unexpected Error happened ") raise
Output
La sortie sera une PySpark DataFrame avec une colonne supplémentaire flag_row qui indique si une ligne est un doublon ou non, en fonction de la source_column_1 colonne. Le fichier `df_output` qui en résultera DataFrame contiendra les lignes suivantes :
``` +---------------+---------------+--------+ |source_column_1|source_column_2|flag_row| +---------------+---------------+--------+ | 105.111| 13.12| False| | 13.12| 13.12| True| | null| 13.12| True| | 13.12| 13.12| True| | null| 13.12| True| +---------------+---------------+--------+ ```
La colonne flag_row indique si une ligne est un doublon ou non. La valeur `true_string` est définie sur « True » et `false_string` sur « False ». Le `target_index` est défini sur 1, ce qui signifie que la flag_row colonne sera insérée à la deuxième position (index 1) dans la sortie. DataFrame
Méthodes
__call__(spark_context, data_frame, target_column, true_string=DEFAULT_TRUE_STRING, false_string=DEFAULT_FALSE_STRING, target_index=None)
La transformation FlagDuplicateRows renvoie une nouvelle colonne avec une valeur spécifiée dans chaque ligne qui indique si cette ligne correspond exactement à une ligne précédente dans le jeu de données. Lorsque des correspondances sont trouvées, elles sont signalées comme des doublons. L’occurrence initiale n’est pas signalée, car elle ne correspond pas à une ligne précédente.
-
true_string: valeur à insérer si la ligne correspond à une ligne précédente. -
false_string: valeur à insérer si la ligne est unique. -
target_column: nom de la nouvelle colonne insérée dans le jeu de données.
apply(cls, *args, **kwargs)
Hérité de GlueTransform s'appliquent.
name(cls)
Hérité de GlueTransform name.
describeArgs(cls)
Hérité de GlueTransform describeArgs.
describeReturn(cls)
Hérité de GlueTransform describeReturn.
describeTransform(cls)
Hérité de GlueTransform describeTransform.
describeErrors(cls)
Hérité de GlueTransform describeErrors.
describe(cls)
Hérité de GlueTransform describe.