# RemoveDuplicates 类如果在选定的源列中遇到重复值，则 `RemoveDuplicates` 转换会删除整行。 ## 示例 ``` from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.RemoveDuplicates.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1" ) except: print("Unexpected Error happened ") raise ``` ## Output 输出是 PySpark DataFrame，其中根据 `source_column_1` 列删除了重复项。生成的“df\$1output”DataFrame 将包含以下行： ``` ``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 13.12| 13.12| | null| 13.12| +---------------+---------------+ ``` ``` 请注意，`source_column_1` 值为“13.12”和“null”的行在输出 DataFrame 中仅会出现一次，因为已根据 `source_column_1` 列删除了重复项。 ## 方法 + [\$1\$1call\$1\$1](#aws-glue-api-pyspark-transforms-RemoveDuplicates-__call__) + [apply](#aws-glue-api-crawler-pyspark-transforms-RemoveDuplicates-apply) + [name](#aws-glue-api-crawler-pyspark-transforms-RemoveDuplicates-name) + [describeArgs](#aws-glue-api-crawler-pyspark-transforms-RemoveDuplicates-describeArgs) + [describeReturn](#aws-glue-api-crawler-pyspark-transforms-RemoveDuplicates-describeReturn) + [describeTransform](#aws-glue-api-crawler-pyspark-transforms-RemoveDuplicates-describeTransform) + [describeErrors](#aws-glue-api-crawler-pyspark-transforms-RemoveDuplicates-describeErrors) + [describe](#aws-glue-api-crawler-pyspark-transforms-RemoveDuplicates-describe) ## \$1\$1call\$1\$1(spark\$1context, data\$1frame, source\$1column) 如果在选定的源列中遇到重复值，则 `RemoveDuplicates` 转换会删除整行。 + `source_column`：现有列的名称。 ## apply(cls, \$1args, \$1\$1kwargs) 继承自 `GlueTransform` [apply](aws-glue-api-crawler-pyspark-transforms-GlueTransform.md#aws-glue-api-crawler-pyspark-transforms-GlueTransform-apply)。 ## name(cls) 继承自 `GlueTransform` [名称](aws-glue-api-crawler-pyspark-transforms-GlueTransform.md#aws-glue-api-crawler-pyspark-transforms-GlueTransform-name)。 ## describeArgs(cls) 继承自 `GlueTransform` [describeArgs](aws-glue-api-crawler-pyspark-transforms-GlueTransform.md#aws-glue-api-crawler-pyspark-transforms-GlueTransform-describeArgs)。 ## describeReturn(cls) 继承自 `GlueTransform` [describeReturn](aws-glue-api-crawler-pyspark-transforms-GlueTransform.md#aws-glue-api-crawler-pyspark-transforms-GlueTransform-describeReturn)。 ## describeTransform(cls) 继承自 `GlueTransform` [describeTransform](aws-glue-api-crawler-pyspark-transforms-GlueTransform.md#aws-glue-api-crawler-pyspark-transforms-GlueTransform-describeTransform)。 ## describeErrors(cls) 继承自 `GlueTransform` [describeErrors](aws-glue-api-crawler-pyspark-transforms-GlueTransform.md#aws-glue-api-crawler-pyspark-transforms-GlueTransform-describeErrors)。 ## describe(cls) 继承自 `GlueTransform` [describe](aws-glue-api-crawler-pyspark-transforms-GlueTransform.md#aws-glue-api-crawler-pyspark-transforms-GlueTransform-describe)。