View a markdown version of this page

AWS tempo de execução para o Apache Spark (emr-spark-8.0.0) - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

AWS tempo de execução para o Apache Spark (emr-spark-8.0.0)

ciclo de vida suportado pelo emr-spark-8.0.0

A tabela a seguir descreve as datas de ciclo de vida suportadas pelo Amazon EMR Spark 8.0.0.

Fase de suporte Data
Data da versão inicial 21 de maio de 2026
Suporte padrão até 20 de maio de 2027
Fim da vida útil 20 de maio de 2027

versões do aplicativo emr-spark-8.0.0

Esta versão inclui os seguintes aplicativos: AmazonCloudWatchAgentDelta, Hudi, IcebergJupyterEnterpriseGateway, Livy,, Sparke.

A tabela abaixo lista as versões das aplicações disponíveis nesta versão do Amazon EMR e as versões de aplicações nas três versões anteriores do Amazon EMR (quando aplicável).

Para obter um histórico abrangente das versões das aplicações de cada versão do Amazon EMR, consulte os seguintes tópicos:

Informações da versão da aplicação
emr-spark-8.0.0
AWS SDK for Java 2.41.32
Python 3,11, 3,12, 3,13
Scala 2.13.16
AmazonCloudWatchAgent1.300032.2-amzn-0
Delta4.0.0-amzn-1-faísca
Hudi1.1.0-amzn-0
Iceberg1.10.1-amzn-0
JupyterEnterpriseGateway2.6.0
Livy0.8.0-incubating
Spark4.0.2-amzn-0

Notas de lançamento do emr-spark-8.0.0

As notas de lançamento a seguir incluem informações sobre o Amazon EMR versão 8.0.0 (emr-spark-8.0.0), com o Apache Spark 4.0.2.

O que há de novo

  • Apache Spark 4.0.2 GA — Primeira versão pronta para produção do Spark 4.x no Amazon EMR, com base na ramificação upstream da ramificação 4.0 com patches da Amazon para desempenho, segurança e integração.

  • Disponível em EC2, EKS e Serverless — Esta versão está disponível em todos os modos de implantação do Amazon EMR.

  • Modo ANSI SQL — Tratamento de tipos mais rigoroso ativado por padrão, melhorando a exatidão e a compatibilidade do SQL com o comportamento padrão do SQL.

  • Sintaxe SQL PIPE — Novo operador |> para encadear operações SQL em uma sintaxe mais legível, no estilo pipeline.

  • Tipo de dados VARIANT — Suporte nativo para dados JSON semiestruturados usando o tipo VARIANT, permitindo padrões de esquema na leitura sem definições explícitas de esquema.

  • Scripting SQL — Instruções de fluxo de controle (IF/ELSE, WHILE, FOR) e variáveis de sessão para lógica SQL procedural no Spark SQL.

  • User-Defined Funções SQL — Defina UDFs diretamente no SQL sem exigir Scala/Python código.

  • Aprimoramentos de streaming — API de processamento arbitrário com estado v2 com WithState operador de transformação e ponto de verificação aprimorado do changelog do RocksDB.

  • Suporte ao Apache Iceberg v3 — Suporte ao tipo de dados VARIANT em tabelas Iceberg AWS , integração com tabelas S3.

  • Controle de Fine-grained acesso nativo e acesso total à mesa (FTA) — Compatível com mesas Iceberg, Delta Lake e Hive.

  • Padrão do JDK 17 — O Amazon Corretto 17 é a JVM padrão; o JDK 21 também está disponível.

  • Scala 2.13 — O Spark 4.x elimina o suporte ao Scala 2.12; todos os componentes foram criados com base no Scala 2.13.

Alterações e aprimoramentos desde o emr-spark-8.0-preview

  • Livy e JupyterEnterpriseGateway disponível como aplicativos interativos de carga de trabalho

  • Suporte persistente ao Spark History Server

Problemas conhecidos e limitações

  • O endpoint seguro do Spark Connect com suporte nativo ao FGAC não está disponível nesta versão.

  • O AL2023 vem com o Python 3.9 como o Python do sistema, mas não é compatível com cargas de trabalho. PySpark

Migração do EMR 7.x (Spark 3.5.x)

Ao migrar do EMR 7.x (que usa o Spark 3.5.x) para o emr-spark-8.0.0 (Spark 4.0.2), considere usar o Spark Upgrade Agent para ajudar na migração.

  • O modo SQL ANSI é padrão — Coerção de tipo mais rigorosa; conversões implícitas que antes eram bem-sucedidas agora podem gerar erros.

  • Scala 2.13 — Todas as versões do Spark 4.x usam o Scala 2.13. Recompile todos os JARs personalizados criados com base no Scala 2.12.

  • JDK 17 padrão — O Spark 4.0.2 é compatível somente com JDK 17 (padrão) e JDK 21.

  • Python 3.11 padrão — Python 3.9 não é mais o padrão para. PySpark Verifique a compatibilidade de suas dependências do Python.

  • AWS SDK — O AWS SDK v1 para Java foi removido. Atualize seu aplicativo para usar o AWS SDK v2 para melhorar o desempenho e o gerenciamento de recursos.

  • Acesso ao S3 — o EMRFS não está mais disponível. Use o conector S3A para gravar dados persistentes no Amazon S3 para melhorar o desempenho e a compatibilidade. Consulte Otimizar o tempo de execução do Amazon EMR para o Apache Spark com o EMR S3A. O emr-s3-select foi removido.

  • Desenvolvimento interativo — JupyterHub, Zeppelin e Hue não estão mais incluídos. Para o desenvolvimento interativo do Spark, use o EMR Studio, Livy e. JupyterEnterpriseGateway

  • Trem de lançamento separado — O rótulo de lançamento é emr-spark-8.0.0, não emr-8.0.0. Esta versão se concentra no Spark. Para Flink, HBase, Phoenix, Tez, Trino, Presto, use o EMR 7.x e aguarde o futuro lançamento multimotor do emr-8.0.0. Pig e Oozie não estão incluídos.

  • Endpoint VPC para comunicação de cluster do EMR — A partir do Amazon EMR Spark 8.0.0, o Amazon EMR no EC2 provisiona um endpoint VPC em sua VPC para comunicação entre o serviço Amazon EMR e seu cluster ao iniciar um cluster em sub-redes privadas. Sua função de serviço do Amazon EMR deve incluir ec2:CreateVpcEndpoint ec2:ModifyVpcEndpoint permissões, ou você deve criar o VPC endpoint manualmente antes de iniciar um cluster. O nome do serviço do VPC endpoint é. aws.api.region.emr-service-cell01

    • Essa alteração atualiza os requisitos de rede para clusters de sub-rede privados:

      • O grupo de segurança de acesso ao serviço (ElasticMapReduce-ServiceAccess), conectado ao endpoint da VPC, requer HTTPS de entrada (porta 443) do bloco CIDR da VPC. 8443/9443 As regras de porta usadas nas versões 7.x e anteriores do Amazon EMR não são mais necessárias.

      • O grupo de segurança da instância primária exige HTTPS de saída (porta 443) para o grupo de segurança de acesso ao serviço.

      • As regras da porta de entrada 8443 e da porta de saída 9443 usadas nas versões 7.x e anteriores do Amazon EMR não são mais necessárias nos grupos de segurança de instâncias primárias, centrais e de tarefas.

      • Se você usar uma política de endpoint VPC personalizada para o Amazon S3, deverá permitir o acesso aos buckets de dados da instância do Amazon EMR (e). aws157-instance-data-0-prod-region aws157-instance-data-1-prod-region

    • Para obter mais informações, consulte Clusters do EMR em sub-redes privadas, grupos de segurança da EMR-managed Amazon e a política mínima do Amazon S3 para sub-rede privada no Guia de gerenciamento do Amazon EMR.

Versões Java padrão do emr-spark-8.0.0

AplicaçãoVersão Java/Amazon Corretto (o padrão é negrito)
Spark17, 21
Livy17, 11, 8
Hadoop17, 11, 8

versões do componente emr-spark-8.0.0

Os componentes que o Amazon EMR instala com esta versão estão listados abaixo. Alguns são instalados como parte de pacotes de aplicativos de big data. Outros são exclusivos do Amazon EMR e instalados para processos e atributos do sistema. Normalmente começam com emr ouaws. Big-data os pacotes de aplicativos na versão mais recente do Amazon EMR geralmente são a versão mais recente encontrada na comunidade. Disponibilizamos as versões da comunidade no Amazon EMR o mais rapidamente possível.

Alguns componentes no Amazon EMR diferem das versões da comunidade. Esses componentes tem um rótulo de versão no formulário CommunityVersion-amzn-EmrVersion. O EmrVersion começa em 0. Por exemplo, se um componente da comunidade de código aberto denominado myapp-component com a versão 2.2 tiver sido alterado três vezes para inclusão em versões diferentes do Amazon EMR, sua versão será listada como 2.2-amzn-2.

Componente Versão Description
adot-java-agent1.31.0Um Java Agent que coleta métricas de daemons de aplicações.
delta4.0.0-amzn-1-faíscaO Delta Lake é um formato de tabela aberto para grandes conjuntos de dados analíticos
emr-amazon-cloudwatch-agent1.300032.2-amzn-0Uma aplicação que coleta métricas internas no nível do sistema e métricas de aplicações personalizadas de instâncias do Amazon EC2.
emr-ddb6.0.0O conector do Amazon DynamoDB para aplicativos do ecossistema do Hadoop.
emr-goodies3.22.0 faíscaBibliotecas convenientes para o ecossistema do Hadoop.
emr-notebook-env1.18.0Ambiente Conda para bloco de anotações do emr, que inclui o jupyter enterprise gateway
emr-s3-dist-cp2.44.0Cópia distribuída otimizada de aplicativos para o Amazon S3.
hadoop-client3.4.2-amzn-1Clientes da linha de comando do Hadoop, como 'hdfs', 'hadoop', ou 'yarn'.
hadoop-hdfs-datanode3.4.2-amzn-1O serviço de nível de nó do HDFS para armazenamento de blocos.
hadoop-hdfs-library3.4.2-amzn-1O cliente de linha de comando e biblioteca do HDFS
hadoop-hdfs-namenode3.4.2-amzn-1O serviço do HDFS para rastrear nomes de arquivos e locais de blocos.
hadoop-hdfs-zkfc3.4.2-amzn-1Serviço ZKFC para rastrear namenodes para o modo HA.
hadoop-hdfs-journalnode3.4.2-amzn-1O serviço do HDFS para gerenciar o lançamento de arquivos do Hadoop em clusters de HA.
hadoop-httpfs-server3.4.2-amzn-1O endpoint de HTTP para as operações do HDFS.
hadoop-kms-server3.4.2-amzn-1Servidor de gerenciamento de chaves criptográficas baseado na API do Hadoop. KeyProvider
hadoop-mapred3.4.2-amzn-1MapReduce bibliotecas de mecanismos de execução para executar um MapReduce aplicativo.
hadoop-yarn-nodemanager3.4.2-amzn-1O serviço do YARN para o gerenciamento de contêineres em um nó individual.
hadoop-yarn-resourcemanager3.4.2-amzn-1O serviço do YARN para alocar e gerenciar recursos de cluster e aplicativos distribuídos.
hadoop-yarn-timeline-server3.4.2-amzn-1O serviço para recuperar informações atuais e históricas dos aplicativos do YARN.
hudi1.1.0-amzn-0Estrutura de processamento incremental para alimentar o pipeline de dados com baixa latência e alta eficiência.
hudi-spark1.1.0-amzn-0Biblioteca de pacotes para executar o Spark com o Hudi.
iceberg1.10.1-amzn-0Apache Iceberg é um formato de tabela aberta para conjuntos de dados analíticos imensos
livy-server0.8.0-incubatingInterface REST para interagir com o Apache Spark
nginx1.12.1nginx [mecanismo x] é um servidor de proxy reverso e HTTP
mariadb-server5.5.68+Servidor de banco de dados MariaDB.
nvidia-cuda12.5.0Drivers NVIDIA e toolkit CUDA
r4.3.2O projeto R para computação estatística
spark-client4.0.2-amzn-0Os clientes da linha de comando do Spark.
spark-history-server4.0.2-amzn-0A interface de usuário da web para visualizar os eventos registrados por toda a vida útil de um aplicativo Spark concluído.
spark-on-yarn4.0.2-amzn-0In-memory mecanismo de execução para YARN.
spark-yarn-slave4.0.2-amzn-0As bibliotecas do Apache Spark necessárias para subordinados do YARN.
spark-rapids26.02.2-amzn-0Plugin do Nvidia Spark RAPIDS que acelera o Apache Spark com GPUs.
zookeeper-server3.9.3-aman-6O serviço centralizado de manutenção de informações de configuração, nomenclatura, fornecimento de sincronização distribuída, e fornecimento de serviços de grupo.
zookeeper-client3.9.3-aman-6ZooKeeper cliente de linha de comando.

classificações de configuração do emr-spark-8.0.0

As classificações de configuração permitem que você personalize aplicações. Elas geralmente correspondem a um arquivo XML de configuração da aplicação, como hive-site.xml. Para obter mais informações, consulte Configurar aplicações.

Ocorrem ações de reconfiguração quando você especifica uma configuração para grupos de instâncias em um cluster em execução. O Amazon EMR só inicia ações de reconfiguração para as classificações que você modifica. Para obter mais informações, consulte Reconfigurar um grupo de instâncias de um cluster em execução.

classificações do emr-spark-8.0.0
Classificações Description Ações de reconfiguração

capacity-scheduler

Alterar os valores no arquivo capacity-scheduler.xml do Hadoop.

Restarts the ResourceManager service.

container-executor

Alterar os valores no arquivo container-executor.cfg do YARN do Hadoop.

Not available.

container-log4j

Altere os valores no arquivo container-log4j.properties do YARN do Hadoop.

Not available.

core-site

Alterar os valores no arquivo core-site.xml do Hadoop.

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.

docker-conf

Alterar as configurações relacionadas ao docker.

Not available.

hadoop-env

Alterar os valores no ambiente do Hadoop para todos os componentes do Hadoop.

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.

hadoop-log4j

Alterar os valores no arquivo log4j.properties do Hadoop.

Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.

hadoop-ssl-server

Alterar a configuração do servidor SSL no Hadoop

Not available.

hadoop-ssl-client

Alterar a configuração do cliente SSL no Hadoop

Not available.

hdfs-encryption-zones

Configurar as zonas de criptografia do HDFS.

This classification should not be reconfigured.

hdfs-env

Alterar os valores no ambiente do HDFS.

Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC.

hdfs-site

Alterar os valores no arquivo hdfs-site.xml do HDFS.

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs.

httpfs-env

Alterar os valores no ambiente do HTTPFS.

Restarts Hadoop Httpfs service.

httpfs-site

Alterar os valores no arquivo httpfs-site.xml do Hadoop.

Restarts Hadoop Httpfs service.

hadoop-kms-acls

Alterar os valores no arquivo kms-acls.xml do Hadoop.

Not available.

hadoop-kms-env

Alterar os valores no ambiente do Hadoop KMS.

Restarts Hadoop-KMS service.

hadoop-kms-java-home

Alterar a página inicial do KMS do Hadoop

Not available.

hadoop-kms-log4j

Alterar os valores no arquivo kms-log4j.properties do Hadoop.

Not available.

hadoop-kms-site

Alterar os valores no arquivo kms-site.xml do Hadoop.

Restarts Hadoop-KMS.

hudi-env

Altere os valores no ambiente do Hudi.

Not available.

hudi-defaults

Alterar os valores no arquivo hudi-defaults.conf do Hudi.

Not available.

iceberg-defaults

Alterar os valores no arquivo iceberg-defaults.conf do Iceberg.

Not available.

delta-defaults

Alterar os valores no arquivo delta-defaults.conf do Delta.

Not available.

jupyter-notebook-conf

Alterar os valores no arquivo jupyter_notebook_config.py do Notebook Jupyter.

Not available.

jupyter-s3-conf

Configurar a persistência do notebook Jupyter S3.

Not available.

jupyter-sparkmagic-conf

Altere os valores no arquivo config.json do Sparkmagic.

Not available.

livy-conf

Alterar os valores no arquivo livy.conf do Livy.

Restarts Livy Server.

livy-env

Alterar os valores no ambiente do Livy.

Restarts Livy Server.

livy-log4j2

Alterar as configurações de log4j2.properties do Livy.

Restarts Livy Server.

mapred-env

Altere os valores no ambiente do MapReduce aplicativo.

Restarts Hadoop MapReduce-HistoryServer.

mapred-site

Altere os valores no arquivo mapred-site.xml do MapReduce aplicativo.

Restarts Hadoop MapReduce-HistoryServer.

spark

EMR-curated Configurações da Amazon para o Apache Spark.

This property modifies spark-defaults. See actions there.

spark-defaults

Alterar os valores no arquivo spark-defaults.conf do Spark.

Restarts Spark history server and Spark thrift server.

spark-env

Alterar os valores no ambiente do Spark.

Restarts Spark history server and Spark thrift server.

spark-hive-site

Alterar os valores no arquivo hive-site.xml do Spark.

Not available.

spark-log4j2

Alterar os valores no arquivo log4j2.properties do Spark.

Restarts Spark history server and Spark thrift server.

spark-metrics

Alterar os valores no arquivo metrics.properties do Spark.

Restarts Spark history server and Spark thrift server.

yarn-env

Alterar os valores no ambiente do YARN.

Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.

yarn-site

Alterar os valores no arquivo yarn-site.xml do YARN.

Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer.

zookeeper-config

Altere os valores no ZooKeeper arquivo zoo.cfg do.

Restarts Zookeeper server.

zookeeper-logback

Altere os valores no ZooKeeper arquivo logback.xml do.

Restarts Zookeeper server.

cloudwatch-logs

Configure a integração de CloudWatch registros para nós de cluster do EMR.

Not available.

emr-metrics

Altere as configurações de métricas do EMR desse nó.

Restarts the CloudWatchAgent service.

Registro de alterações do EMR Spark 8.0.0

Registro de alterações do EMR Spark 8.0.0
DataEventDescription
2026-05-21Publicação de documentosNotas de lançamento do Amazon EMR Spark 8.0.0 (emr-spark-8.0.0) publicadas pela primeira vez