Use a AWS Glue versão mais recente -

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Use a AWS Glue versão mais recente

Recomendamos usar a AWS Glue versão mais recente. Há várias otimizações e atualizações incorporadas em cada versão que podem melhorar automaticamente a performance do trabalho. Por exemplo, a AWS Glue versão 4.0 fornece os seguintes novos recursos:

  • O novo tempo de execução otimizado do Apache Spark 3.3.0 — AWS Glue 4.0 se baseia no tempo de execução do Apache Spark 3.3.0, trazendo melhorias de desempenho comparáveis às do Spark de código aberto. O runtime do Spark 3.3.0 é baseado em muitas das inovações do Spark 2.x.

  • Conector aprimorado do Amazon Redshift: o AWS Glue 4.0 e versões posteriores oferecem integração do Amazon Redshift para Apache Spark. A integração se baseia em um conector de código aberto existente e o aprimora em termos de performance e segurança. A integração ajuda as aplicações a terem uma performance até dez vezes mais rápida. Para obter mais informações, consulte a publicação do blog Amazon Redshift integration with Apache Spark.

  • Execução baseada em SIMD para leituras vetorizadas com dados CSV e JSON — a AWS Glue versão 3.0 e versões posteriores adicionam leitores otimizados que podem acelerar significativamente o desempenho geral do trabalho em comparação com leitores baseados em linhas. Para obter mais informações sobre dados CSV, consulte Otimizar o desempenho de leitura com o leitor de SIMD vetorizado para CSV. Para obter mais informações sobre dados JSON, consulte Usar o leitor vetorizado SIMD para JSON com formato colunar Apache Arrow.

Cada AWS Glue versão incluirá atualizações desse tipo, entre muitas, incluindo conectores, atualizações de drivers e bibliotecas. Para obter mais informações, consulte AWS Glue Versões e Migração de AWS Glue trabalhos para a AWS Glue versão 4.0.