本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
处理数据导出
在以下部分中,您将找到有关处理数据导出的信息。
配置 Amazon Athena
要使用 Athena 构建表和分区 AWS Glue crawler
-
使用以下数据导出传送选项,创建 CUR 2.0 或碳排放的导出:
-
压缩类型和文件格式:Parquet - Parquet
-
文件版本控制:覆盖现有数据导出文件
-
-
在 Athena 中,使用带有 Trino SQL 的笔记本编辑器,然后选择 “创建” 来创建带有 “Glue crawler”AWS 的表。使用 Glue 爬网程序工作流,将 Glue 爬网程序指向 s3://<bucket-name>/<prefix>/<export-name>/data 文件夹,在其中运行,以便将指定导出的所有已传送分区自动加载到 Athena。
-
Glue 爬网程序完成后,可以使用 Athena 对 Glue 爬网程序创建的表编写查询。
配置 Amazon Redshift
Amazon Redshift 是一种云数据仓库,可以通过预置容量或无服务器模式进行访问。Amazon Redshift 提供快速的查询性能,用于处理 Data Exports 中的数据。
有关设置 Redshift 的信息,请参阅《Amazon Redshift 入门指南》。
用于处理 CUR 2.0 的推荐 SQL 查询
将 CUR 2.0 导出数据加载到数据分析工具(例如 Amazon Athena 或 Amazon Redshift)后,您可以对其进行处理以获得成本和使用情况见解。 AWS
Well-Architected Labs 提供了一个 CUR 查询库,你可以用它来处理 CUR。有关更多信息,请参阅 AWS CUR 查询库
请注意以下两条有关 SQL 查询的信息:
-
Well-Architected 实验室 SQL 查询不适用于数据导出查询字段,因为数据导出不支持聚合和这些查询中使用的其他 SQL 语法。
-
只有当你没有使用默认名称重命名列时, Well-Architected Labs SQL 查询才会起作用。根据查询的不同,您可能需要使用点运算符将某些 product 列作为单独的列进行查询。有关更多信息,请参阅数据查询 – SQL 查询和表配置。
用于处理碳排放数据导出的推荐 SQL 查询
要根据 payer_account_id 获取碳排放总量,请执行以下操作:
SELECT payer_account_id, SUM(total_mbm_emissions_value) AS total_emissions FROM "ccft-data-exports"."ccft-data-exports-data" -- change to your table name GROUP BY payer_account_id ORDER BY total_emissions DESC;
要根据 payer_account_id 和 product_code 获取碳排放总量,请执行以下操作:
SELECT payer_account_id, product_code, SUM(total_mbm_emissions_value) AS total_emissions FROM "ccft-data-exports"."ccft-data-exports-data"-- change to your table name GROUP BY payer_account_id, product_code ORDER BY total_emissions DESC;
要根据 payer_account_id 和 region_code 获取碳排放总量,请执行以下操作:
SELECT payer_account_id, region_code, SUM(total_mbm_emissions_value) AS total_emissions FROM "ccft-data-exports"."ccft-data-exports-data" -- change to your table name GROUP BY payer_account_id, region_code ORDER BY total_emissions DESC;