本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 PySpark 分析模板在已配置的表上运行 PySpark 作业
此过程演示如何使用 AWS Clean Rooms 控制台中的 PySpark 分析模板通过自定义分析规则分析已配置的表。
使用 PySpark 分析模板在已配置的表上运行 PySpark 作业
登录 AWS 管理控制台 并在 https://console.aws.amazon.com/clean
-
在左侧导航窗格中,选择协作。
-
选择处于 “您的成员权限” 状态为 “运行作业” 的协作。
-
在分析选项卡的表格部分下,查看表格及其关联的分析规则类型(自定义分析规则)。
-
在 “分析” 部分下,在 “分析” 模式下,选择 “运行分析模板”。
-
从 “ PySpark 分析模板” 下拉列表中选择分析模板。
PySpark 分析模板中的参数将自动填充到定义中。
-
如果分析模板定义了参数,请在 “参数” 下提供参数值:
-
查看每个参数的参数名称和默认值(如果已配置)。
-
为要覆盖的每个参数输入一个值。
注意
如果您未提供值但存在默认值,则将使用默认值。
重要
参数值最多可包含 1,000 个字符,并且支持 UTF-8 编码。所有参数值都被视为字符串,并通过上下文对象传递给您的用户脚本。
确保您的用户脚本能够安全地验证和处理参数值。有关安全参数处理的更多信息,请参阅使用 PySpark 分析模板中的参数。
-
-
指定支持的工作器类型和工作人员人数。
使用下表来确定您的用例所需的工作人员类型和人数。
Worker 类型 vCPU 内存(GB) 存储(GB) 工作线程数 洁净室处理单元总数 (CRPU) CR.1X(默认) 4 30 100 4 8 128 256 CR.4X 16 120 400 4 32 32 256 注意
不同的工作人员类型和人数会产生相关成本。要了解有关定价的更多信息,请参阅AWS Clean Rooms 定价
。 -
选择运行。
注意
如果可以接收结果的成员尚未配置作业结果设置,则无法运行作业。
-
继续调整参数并重新运行作业,或者选择 + 按钮在新选项卡中开始新作业。