O Amazon Redshift não permitirá mais a criação de UDFs do Python a partir do Patch 198. As UDFs do Python existentes continuarão a funcionar normalmente até 30 de junho de 2026. Para ter mais informações, consulte a publicação de blog
Métricas no Amazon Redshift Spectrum
Este tópico descreve as visualizações do sistema que podem ser usadas para monitorar consultas de data lake.
Você pode monitorar consultas de data lake usando as seguintes visualizações do sistema:
-
Use a exibição SVL_S3QUERY para obter detalhes sobre as consultas de data lake nos níveis de segmento e de fatia do nó.
-
Use a visualização SVL_S3QUERY_SUMMARY para obter um resumo de todas as consultas de data lake que foram executadas no sistema.
Veja a seguir alguns itens a serem observados na exibição SVL_S3QUERY_SUMMARY:
-
O número de arquivos que foram processados pela consulta do Redshift Spectrum.
-
O número de bytes processados na varredura do Amazon S3. O custo de uma consulta do Redshift Spectrum é refletido na quantidade de dados processados na varredura do Amazon S3.
-
O número de bytes retornados da camada do Redshift Spectrum para o cluster. Uma grande quantidade de dados retornados pode afetar a performance do sistema.
-
A duração máxima e a duração média das solicitações do Redshift Spectrum. As solicitações de longa duração podem indicar um gargalo.
Observação sobre clusters RG provisionados
Em clusters RG provisionados, as consultas do Redshift Spectrum são executadas na computação do próprio cluster, e não na frota dedicada do Spectrum usada pelos clusters RA3 e DC2 provisionados. SVL_S3QUERY e SVL_S3QUERY_SUMMARYcontinuam sendo preenchidos em clusters RG. As colunas a seguir têm semânticas diferentes ou estão obsoletas.
Colunas preenchidas com semânticas diferentes em clusters RG provisionados
Em clusters RA3 e DC2 provisionados, essas colunas descrevem linhas, bytes e unidades de trabalho que se movem entre o cluster e a frota do Spectrum. Em clusters RG provisionados, elas descrevem o trabalho equivalente realizado pelo leitor nativo do cluster:
s3_scanned_rows: linhas lidas diretamente do Amazon S3 pelo leitor nativo do cluster (pré-filtro).
s3_scanned_bytes: tamanho total do intervalo de varredura em bytes processado pelo leitor nativo do cluster.
s3query_returned_rows: linhas produzidas após o envio do filtro pelo leitor nativo do cluster.
s3query_returned_bytes: bytes produzidos após o envio do filtro pelo leitor nativo do cluster.
splits: número de intervalos de varredura consumidos pelo leitor nativo do cluster.
total_split_size: tamanho total de todos os intervalos de varredura consumidos, em bytes.
max_split_size: tamanho do maior intervalo de varredura consumido, em bytes.
Colunas obsoletas em clusters RG provisionados
Essas colunas descrevem conceitos de frota do Spectrum que não existem no RG. Em clusters RG, elas são registradas como -1 em STL_S3QUERY e, portanto, aparecem como -1 ou não são significativas em SVL_S3QUERY e SVL_S3QUERY_SUMMARY:
total_retries, max_retries: no RG, as novas tentativas ocorrem no nível do cliente do Amazon S3. Use STL_S3CLIENT e STL_S3CLIENT_ERROR para obter detalhes sobre novas tentativas.
max_request_duration, avg_request_duration: o RG não usa o modelo de solicitação do Spectrum.
max_request_parallelism, avg_request_parallelism: o RG não usa tokens de solicitação do Spectrum.
slowdown_count, max_concurrent_slowdown_count: no RG, as lentidões do Amazon S3 são monitoradas em STL_S3CLIENT.
Para métricas agregadas por consulta em clusters RG (partições, arquivos digitalizados, linhas e bytes retornados, formato do arquivo, localização do arquivo, listagem e tempo de busca da partição), você também pode usar a visualização de monitoramento SYS_EXTERNAL_QUERY_DETAIL.