

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 处理数据导出
<a name="dataexports-processing"></a>

在以下部分中，您将找到有关处理数据导出的信息。

## 配置 Amazon Athena
<a name="dataexports-athena"></a>

**要使用 Athena 构建表和分区 AWS Glue crawler**

1. 使用以下数据导出传送选项，创建 CUR 2.0 或碳排放的导出：
   + 压缩类型和文件格式：Parquet - Parquet
   + 文件版本控制：覆盖现有数据导出文件

1. 在 Athena 中，使用带有 Trino SQL 的笔记本编辑器，然后**选择** “创建” 来创建带有 “Glue crawler”AWS 的表。使用 Glue 爬网程序工作流，将 Glue 爬网程序指向 s3://<bucket-name>/<prefix>/<export-name>/data 文件夹，在其中运行，以便将指定导出的所有已传送分区自动加载到 Athena。

1. Glue 爬网程序完成后，可以使用 Athena 对 Glue 爬网程序创建的表编写查询。

## 配置 Amazon Redshift
<a name="dataexports-redshift"></a>

Amazon Redshift 是一种云数据仓库，可以通过预置容量或无服务器模式进行访问。Amazon Redshift 提供快速的查询性能，用于处理 Data Exports 中的数据。

有关设置 Redshift 的信息，请参阅《[Amazon Redshift 入门指南](https://docs.aws.amazon.com/redshift/latest/gsg/new-user-serverless.html)》。**

## 用于处理 CUR 2.0 的推荐 SQL 查询
<a name="dataexports-recommended-sql-queries"></a>

将 CUR 2.0 导出数据加载到数据分析工具（例如 Amazon Athena 或 Amazon Redshift）后，您可以对其进行处理以获得成本和使用情况见解。 AWS Well-Architected Labs 提供了一个 CUR 查询库，你可以用它来处理 CUR。有关更多信息，请参阅 [AWS CUR 查询库](https://wellarchitectedlabs.com/cost-optimization/cur_queries/)。

请注意以下两条有关 SQL 查询的信息：
+  Well-Architected 实验室 SQL 查询不适用于数据导出查询字段，因为数据导出不支持聚合和这些查询中使用的其他 SQL 语法。
+ 只有当你没有使用默认名称重命名列时， Well-Architected Labs SQL 查询才会起作用。根据查询的不同，您可能需要使用点运算符将某些 product 列作为单独的列进行查询。有关更多信息，请参阅[数据查询 – SQL 查询和表配置](https://docs.aws.amazon.com/cur/latest/userguide/dataexports-data-query.html)。

## 用于处理碳排放数据导出的推荐 SQL 查询
<a name="carbon-emissions-sql-queries"></a>

要根据 payer\_account\_id 获取碳排放总量，请执行以下操作：

```
SELECT payer_account_id, SUM(total_mbm_emissions_value) AS total_emissions
FROM "ccft-data-exports"."ccft-data-exports-data" -- change to your table name
GROUP BY payer_account_id
ORDER BY total_emissions DESC;
```

要根据 payer\_account\_id 和 product\_code 获取碳排放总量，请执行以下操作：

```
SELECT payer_account_id, product_code, SUM(total_mbm_emissions_value) AS total_emissions
FROM "ccft-data-exports"."ccft-data-exports-data"-- change to your table name
GROUP BY payer_account_id, product_code
ORDER BY total_emissions DESC;
```

要根据 payer\_account\_id 和 region\_code 获取碳排放总量，请执行以下操作：

```
SELECT payer_account_id, region_code, SUM(total_mbm_emissions_value) AS total_emissions
FROM "ccft-data-exports"."ccft-data-exports-data" -- change to your table name
GROUP BY payer_account_id, region_code
ORDER BY total_emissions DESC;
```