Amazon Redshift Spectrum 中的指标

本主题介绍可用于监控数据湖查询的系统视图。

可以使用以下系统视图来监控数据湖查询：

SVL_S3QUERY

使用 SVL_S3QUERY 视图可获取有关段和节点切片级别的数据湖查询的详细信息。
SVL_S3QUERY_SUMMARY

使用 SVL_S3QUERY_SUMMARY 视图可获取已在系统上运行的所有数据湖查询的摘要。

下面是要在 SVL_S3QUERY_SUMMARY 中查找的一些内容：

由 Redshift Spectrum 查询处理的文件的数量。
从 Amazon S3 扫描到的字节数。Redshift Spectrum 查询的成本反映在从 Amazon S3 扫描到的数据量中。
已从 Redshift Spectrum 层返回到集群的字节的数量。返回大量数据可能影响系统性能。
Redshift Spectrum 请求的最长持续时间和平均持续时间。长时间运行的请求可能表示存在瓶颈。

关于 RG 预置集群的注意事项

在 RG 预置集群上，Redshift Spectrum 查询在集群自己的计算上运行，而不是在 RA3 和 DC2 预置集群使用的专用 Spectrum 实例集上运行。将继续在 RG 集群上填充 SVL_S3QUERY 和 SVL_S3QUERY_SUMMARY。以下各列具有不同的语义或已被弃用。

在 RG 预置集群上填充了不同语义的列

在 RA3 和 DC2 预置集群上，这些列描述了在集群和 Spectrum 实例集之间移动的行、字节和工作单元。在 RG 预置集群上，它们描述了集群的原生读取器执行的等效工作：

s3_scanned_rows：由集群的原生读取器直接从 Amazon S3 读取的行（预筛选）。
s3_scanned_bytes：由集群的原生读取器处理的扫描范围总大小，以字节为单位。
s3query_returned_rows：由集群的原生读取器下推筛选条件后生成的行。
s3query_returned_bytes：由集群的原生读取器下推筛选条件后生成的字节。
splits：由集群的原生读取器消耗的扫描范围数。
total_split_size：消耗的所有扫描范围的总大小，以字节为单位。
max_split_size：消耗的最大扫描范围的大小，以字节为单位。

RG 预置集群上已弃用的列

这些列描述了 RG 上不存在的 Spectrum 实例集概念。在 RG 集群上，它们在 STL_S3QUERY 中记录为 -1，因此在 SVL_S3QUERY 和 SVL_S3QUERY_SUMMARY 中显示为 -1 或者没有意义：

total_retries、max_retries：在 RG 上，重试发生在 Amazon S3 客户端级别。使用 STL_S3CLIENT 和 STL_S3CLIENT_ERROR 来了解重试详情。
max_request_duration、avg_request_duration：RG 不使用 Spectrum 请求模型。
max_request_parallelism、avg_request_parallelism：RG 不使用 Spectrum 请求令牌。
slowdown_count, max_concurrent_slowdown_count：在 RG 上，在 STL_S3CLIENT 中跟踪 Amazon S3 减速。

要了解 RG 集群上每个查询的汇总指标（分区、扫描的文件数、返回的行数和字节数、文件格式、文件位置、列表和分区提取时间），您也可以使用 SYS_EXTERNAL_QUERY_DETAIL 监控视图。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

执行相关的子查询

查询故障排除