View a markdown version of this page

Amazon Redshift Spectrum 中的指标 - Amazon Redshift

从补丁 198 开始,Amazon Redshift 将不再支持创建新的 Python UDF。现有的 Python UDF 将继续正常运行至 2026 年 6 月 30 日。有关更多信息,请参阅博客文章

Amazon Redshift Spectrum 中的指标

本主题介绍可用于监控数据湖查询的系统视图。

可以使用以下系统视图来监控数据湖查询:

  • SVL_S3QUERY

    使用 SVL_S3QUERY 视图可获取有关段和节点切片级别的数据湖查询的详细信息。

  • SVL_S3QUERY_SUMMARY

    使用 SVL_S3QUERY_SUMMARY 视图可获取已在系统上运行的所有数据湖查询的摘要。

下面是要在 SVL_S3QUERY_SUMMARY 中查找的一些内容:

  • 由 Redshift Spectrum 查询处理的文件的数量。

  • 从 Amazon S3 扫描到的字节数。Redshift Spectrum 查询的成本反映在从 Amazon S3 扫描到的数据量中。

  • 已从 Redshift Spectrum 层返回到集群的字节的数量。返回大量数据可能影响系统性能。

  • Redshift Spectrum 请求的最长持续时间和平均持续时间。长时间运行的请求可能表示存在瓶颈。

关于 RG 预置集群的注意事项

在 RG 预置集群上,Redshift Spectrum 查询在集群自己的计算上运行,而不是在 RA3 和 DC2 预置集群使用的专用 Spectrum 实例集上运行。将继续在 RG 集群上填充 SVL_S3QUERYSVL_S3QUERY_SUMMARY。以下各列具有不同的语义或已被弃用。

在 RG 预置集群上填充了不同语义的列

在 RA3 和 DC2 预置集群上,这些列描述了在集群和 Spectrum 实例集之间移动的行、字节和工作单元。在 RG 预置集群上,它们描述了集群的原生读取器执行的等效工作:

  • s3_scanned_rows:由集群的原生读取器直接从 Amazon S3 读取的行(预筛选)。

  • s3_scanned_bytes:由集群的原生读取器处理的扫描范围总大小,以字节为单位。

  • s3query_returned_rows:由集群的原生读取器下推筛选条件后生成的行。

  • s3query_returned_bytes:由集群的原生读取器下推筛选条件后生成的字节。

  • splits:由集群的原生读取器消耗的扫描范围数。

  • total_split_size:消耗的所有扫描范围的总大小,以字节为单位。

  • max_split_size:消耗的最大扫描范围的大小,以字节为单位。

RG 预置集群上已弃用的列

这些列描述了 RG 上不存在的 Spectrum 实例集概念。在 RG 集群上,它们在 STL_S3QUERY 中记录为 -1,因此在 SVL_S3QUERY 和 SVL_S3QUERY_SUMMARY 中显示为 -1 或者没有意义:

  • total_retriesmax_retries:在 RG 上,重试发生在 Amazon S3 客户端级别。使用 STL_S3CLIENT 和 STL_S3CLIENT_ERROR 来了解重试详情。

  • max_request_durationavg_request_duration:RG 不使用 Spectrum 请求模型。

  • max_request_parallelismavg_request_parallelism:RG 不使用 Spectrum 请求令牌。

  • slowdown_count, max_concurrent_slowdown_count:在 RG 上,在 STL_S3CLIENT 中跟踪 Amazon S3 减速。

要了解 RG 集群上每个查询的汇总指标(分区、扫描的文件数、返回的行数和字节数、文件格式、文件位置、列表和分区提取时间),您也可以使用 SYS_EXTERNAL_QUERY_DETAIL 监控视图。