从补丁 198 开始,Amazon Redshift 将不再支持创建新的 Python UDF。现有的 Python UDF 将继续正常运行至 2026 年 6 月 30 日。有关更多信息,请参阅博客文章
Amazon Redshift Spectrum 中的指标
本主题介绍可用于监控数据湖查询的系统视图。
可以使用以下系统视图来监控数据湖查询:
-
使用 SVL_S3QUERY 视图可获取有关段和节点切片级别的数据湖查询的详细信息。
-
使用 SVL_S3QUERY_SUMMARY 视图可获取已在系统上运行的所有数据湖查询的摘要。
下面是要在 SVL_S3QUERY_SUMMARY 中查找的一些内容:
-
由 Redshift Spectrum 查询处理的文件的数量。
-
从 Amazon S3 扫描到的字节数。Redshift Spectrum 查询的成本反映在从 Amazon S3 扫描到的数据量中。
-
已从 Redshift Spectrum 层返回到集群的字节的数量。返回大量数据可能影响系统性能。
-
Redshift Spectrum 请求的最长持续时间和平均持续时间。长时间运行的请求可能表示存在瓶颈。
关于 RG 预置集群的注意事项
在 RG 预置集群上,Redshift Spectrum 查询在集群自己的计算上运行,而不是在 RA3 和 DC2 预置集群使用的专用 Spectrum 实例集上运行。将继续在 RG 集群上填充 SVL_S3QUERY 和 SVL_S3QUERY_SUMMARY。以下各列具有不同的语义或已被弃用。
在 RG 预置集群上填充了不同语义的列
在 RA3 和 DC2 预置集群上,这些列描述了在集群和 Spectrum 实例集之间移动的行、字节和工作单元。在 RG 预置集群上,它们描述了集群的原生读取器执行的等效工作:
s3_scanned_rows:由集群的原生读取器直接从 Amazon S3 读取的行(预筛选)。
s3_scanned_bytes:由集群的原生读取器处理的扫描范围总大小,以字节为单位。
s3query_returned_rows:由集群的原生读取器下推筛选条件后生成的行。
s3query_returned_bytes:由集群的原生读取器下推筛选条件后生成的字节。
splits:由集群的原生读取器消耗的扫描范围数。
total_split_size:消耗的所有扫描范围的总大小,以字节为单位。
max_split_size:消耗的最大扫描范围的大小,以字节为单位。
RG 预置集群上已弃用的列
这些列描述了 RG 上不存在的 Spectrum 实例集概念。在 RG 集群上,它们在 STL_S3QUERY 中记录为 -1,因此在 SVL_S3QUERY 和 SVL_S3QUERY_SUMMARY 中显示为 -1 或者没有意义:
total_retries、max_retries:在 RG 上,重试发生在 Amazon S3 客户端级别。使用 STL_S3CLIENT 和 STL_S3CLIENT_ERROR 来了解重试详情。
max_request_duration、avg_request_duration:RG 不使用 Spectrum 请求模型。
max_request_parallelism、avg_request_parallelism:RG 不使用 Spectrum 请求令牌。
slowdown_count, max_concurrent_slowdown_count:在 RG 上,在 STL_S3CLIENT 中跟踪 Amazon S3 减速。
要了解 RG 集群上每个查询的汇总指标(分区、扫描的文件数、返回的行数和字节数、文件格式、文件位置、列表和分区提取时间),您也可以使用 SYS_EXTERNAL_QUERY_DETAIL 监控视图。