

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 创建已配置的表-Amazon S3 数据源
<a name="create-config-table-s3"></a>

在此步骤中，[成员](glossary.md#glossary-member)将执行以下任务：
+  配置现有 AWS Glue 表以在中使用。 AWS Clean Rooms（除非使用 Clean Rooms 加密计算，否则此步骤可以在加入协作之前或之后完成。）
**注意**  
AWS Clean Rooms 支持 AWS Glue 表格。有关获取数据的更多信息 AWS Glue，请参阅[步骤 3：将数据表上传到 Amazon S3](prepare-data-S3.md#upload-to-s3)。
+ 为[配置表](glossary.md#glossary-configured-table)命名，并选择要在协作中使用的列。

以下步骤假设：
+ 协作成员已[将其数据表上传到 Amazon S3](prepare-data-S3.md#upload-to-s3) 并[创建了一个 AWS Glue 表](prepare-data-S3.md#create-glue-crawler)。
**注意**  
**Amazon S3 中的结果目标**不能与任何数据源位于同一 S3 存储桶中。
+ （可选）仅对于[加密](glossary.md#glossary-encryption)数据表，协作成员已经使用 C3R 加密客户端[准备了加密数据表](prepare-encrypted-data.md)。

您可以使用提供的统计数据生成 AWS Glue 来计算表的列级统计数据。 AWS Glue Data Catalog 为数据目录中的表 AWS Glue 生成统计数据后，Amazon Redshift Spectrum 会自动使用这些统计数据来优化查询计划。有关使用计算列级统计信息的更多信息 AWS Glue，请参阅*AWS Glue 用户*指南中的[使用列统计信息优化查询性能](https://docs.aws.amazon.com/glue/latest/dg/column-statistics.html)。有关更多信息 AWS Glue，请参阅 *[AWS Glue 开发人员指南](https://docs.aws.amazon.com/glue/latest/dg/what-is-glue.html)*。

**创建已配置的表-Amazon S3 数据源**

1. 登录 AWS 管理控制台 并在 [https://console.aws.amazon.com/clean](https://console.aws.amazon.com/cleanrooms/home) room AWS Clean Rooms s 上打开控制台。

1. 在左侧导航窗格中，选择 **表**。

1. 在右上角，选择**配置新表**。

1. 对于**数据源**，在**AWS 数据源**下，选择 **Amazon S3**。

1. 在 **Amazon S3 表格**下：

   1. 选择托管 S3 表的**区域**。

      默认情况下，选择当前区域（例如弗吉尼亚北部 us-east-1）。
**警告**  
当您的 Amazon S3 数据源位于与您的处理位置不同的区域时，数据处理可能会暂时在源区域之外进行。在继续操作之前，请验证跨区域数据移动是否符合您的数据主权要求、监管合规政策和数据治理标准。

      有关区域的更多信息，请参阅中的[区域和终端节点*AWS 一般参考*](https://docs.aws.amazon.com/general/latest/gr/rande.html)。

   1. 从下拉列表中选择**数据库**。

   1. 从下拉列表中选择要配置的**表**。
**注意**  
要验证是否是正确的表，请执行以下任一操作：  
选择 “**查看方式” AWS Glue**。
打开 “**查看来自的架构**” AWS Glue以查看架构。
**重要**  
对于数据采用 CSV 格式的 AWS Glue 表，Glue 架构中的列名和顺序必须与 CSV 数据完全匹配。如果它们不对齐，则可能无法正确执行已配置表的允许列列表。

1. 对于**协作中允许的列和分析方法**，

   1. **您想在协作中允许哪些专栏？**
      + 选择**所有列**以允许在协作中查询所有列。
      + 选择**自定义列表**以允许在协作中查询 “**指定允许的列**” 下拉列表中的一个或多个列。

   1. 对于**允许的分析方法**，

      1. 选择 “**直接查询**” 以允许直接在此表上运行 SQL 查询

      1. 选择 **Direct job** 以允许直接在此表上运行 PySpark 作业。  
**Example 示例**  

   例如，如果要允许协作成员在所有列上同时运行直接 SQL 查询和 PySpark 作业，请选择 “**所有列**”、“**直接查询**” 和 “**直接作业**”。

1. 对于**已配置表的详细信息**，

   1. 为已配置的表输入**名称**。

      您可以使用默认名称或重命名此表。

   1. 输入表的**描述**。

      该描述有助于区分其他具有相似名称的已配置表。

1. 如果要为已配置的表资源启用**标签**，请选择**添加新标签**，然后输入**键**和**值**对。

1. 选择**配置新表**。

现在您已经创建了一个配置表，您已准备好：
+ [为配置表添加分析规则](add-analysis-rule.md)
+ [将配置表与协作关联](associate-configured-table.md)