ciclo de vida suportado pelo emr-spark-8.0.0 versões do aplicativo emr-spark-8.0.0 Notas de lançamento do emr-spark-8.0.0 Versões Java padrão do emr-spark-8.0.0 versões do componente emr-spark-8.0.0 classificações de configuração do emr-spark-8.0.0 Registro de alterações do EMR Spark 8.0.0

AWS tempo de execução para o Apache Spark (emr-spark-8.0.0)

ciclo de vida suportado pelo emr-spark-8.0.0

A tabela a seguir descreve as datas de ciclo de vida suportadas pelo Amazon EMR Spark 8.0.0.

Fase de suporte	Data
Data da versão inicial	21 de maio de 2026
Suporte padrão até	20 de maio de 2027
Fim da vida útil	20 de maio de 2027

versões do aplicativo emr-spark-8.0.0

Esta versão inclui os seguintes aplicativos: AmazonCloudWatchAgent Delta, Hudi, Iceberg JupyterEnterpriseGateway, Livy,, Sparke.

A tabela abaixo lista as versões das aplicações disponíveis nesta versão do Amazon EMR e as versões de aplicações nas três versões anteriores do Amazon EMR (quando aplicável).

Para obter um histórico abrangente das versões das aplicações de cada versão do Amazon EMR, consulte os seguintes tópicos:

Informações da versão da aplicação
	emr-spark-8.0.0
AWS SDK for Java	2.41.32
Python	3,11, 3,12, 3,13
Scala	2.13.16
AmazonCloudWatchAgent	1.300032.2-amzn-0
Delta	4.0.0-amzn-1-faísca
Hudi	1.1.0-amzn-0
Iceberg	1.10.1-amzn-0
JupyterEnterpriseGateway	2.6.0
Livy	0.8.0-incubating
Spark	4.0.2-amzn-0

Notas de lançamento do emr-spark-8.0.0

As notas de lançamento a seguir incluem informações sobre o Amazon EMR versão 8.0.0 (emr-spark-8.0.0), com o Apache Spark 4.0.2.

O que há de novo

Apache Spark 4.0.2 GA — Primeira versão pronta para produção do Spark 4.x no Amazon EMR, com base na ramificação upstream da ramificação 4.0 com patches da Amazon para desempenho, segurança e integração.
Disponível em EC2, EKS e Serverless — Esta versão está disponível em todos os modos de implantação do Amazon EMR.
Modo ANSI SQL — Tratamento de tipos mais rigoroso ativado por padrão, melhorando a exatidão e a compatibilidade do SQL com o comportamento padrão do SQL.
Sintaxe SQL PIPE — Novo operador |> para encadear operações SQL em uma sintaxe mais legível, no estilo pipeline.
Tipo de dados VARIANT — Suporte nativo para dados JSON semiestruturados usando o tipo VARIANT, permitindo padrões de esquema na leitura sem definições explícitas de esquema.
Scripting SQL — Instruções de fluxo de controle (IF/ELSE, WHILE, FOR) e variáveis de sessão para lógica SQL procedural no Spark SQL.
User-Defined Funções SQL — Defina UDFs diretamente no SQL sem exigir Scala/Python código.
Aprimoramentos de streaming — API de processamento arbitrário com estado v2 com WithState operador de transformação e ponto de verificação aprimorado do changelog do RocksDB.
Suporte ao Apache Iceberg v3 — Suporte ao tipo de dados VARIANT em tabelas Iceberg AWS , integração com tabelas S3.
Controle de Fine-grained acesso nativo e acesso total à mesa (FTA) — Compatível com mesas Iceberg, Delta Lake e Hive.
Padrão do JDK 17 — O Amazon Corretto 17 é a JVM padrão; o JDK 21 também está disponível.
Scala 2.13 — O Spark 4.x elimina o suporte ao Scala 2.12; todos os componentes foram criados com base no Scala 2.13.

Alterações e aprimoramentos desde o emr-spark-8.0-preview

Livy e JupyterEnterpriseGateway disponível como aplicativos interativos de carga de trabalho
Suporte persistente ao Spark History Server

Problemas conhecidos e limitações

O endpoint seguro do Spark Connect com suporte nativo ao FGAC não está disponível nesta versão.
O Controle de Fine-grained Acesso Nativo (FGAC) não está disponível para tabelas Iceberg que usam o tipo de dados VARIANT.
O Glue Managed Compaction não é compatível com tabelas Iceberg que usam o tipo de dados VARIANT.
O AL2023 vem com o Python 3.9 como o Python do sistema, mas não é compatível com cargas de trabalho. PySpark
O número máximo de etapas que você pode adicionar ou cancelar por solicitação é 100.

Migração do EMR 7.x (Spark 3.5.x)

Ao migrar do EMR 7.x (que usa o Spark 3.5.x) para o emr-spark-8.0.0 (Spark 4.0.2), considere usar o Spark Upgrade Agent para ajudar na migração.

O modo SQL ANSI é padrão — Coerção de tipo mais rigorosa; conversões implícitas que antes eram bem-sucedidas agora podem gerar erros.
Scala 2.13 — Todas as versões do Spark 4.x usam o Scala 2.13. Recompile todos os JARs personalizados criados com base no Scala 2.12.
JDK 17 padrão — O Spark 4.0.2 é compatível somente com JDK 17 (padrão) e JDK 21.
Python 3.11 padrão — Python 3.9 não é mais o padrão para. PySpark Verifique a compatibilidade de suas dependências do Python.
AWS SDK — O AWS SDK v1 para Java foi removido. Atualize seu aplicativo para usar o AWS SDK v2 para melhorar o desempenho e o gerenciamento de recursos.
Acesso ao S3 — o EMRFS não está mais disponível. Use o conector S3A para gravar dados persistentes no Amazon S3 para melhorar o desempenho e a compatibilidade. Consulte Otimizar o tempo de execução do Amazon EMR para o Apache Spark com o EMR S3A. O emr-s3-select foi removido.
Desenvolvimento interativo — JupyterHub, Zeppelin e Hue não estão mais incluídos. Para o desenvolvimento interativo do Spark, use o EMR Studio, Livy e. JupyterEnterpriseGateway
Trem de lançamento separado — O rótulo de lançamento é emr-spark-8.0.0, não emr-8.0.0. Esta versão se concentra no Spark. Para Flink, HBase, Phoenix, Tez, Trino, Presto, use o EMR 7.x e aguarde o futuro lançamento multimotor do emr-8.0.0. Pig e Oozie não estão incluídos.
Endpoint VPC para comunicação de cluster do EMR — A partir do Amazon EMR Spark 8.0.0, o Amazon EMR no EC2 provisiona um endpoint VPC em sua VPC para comunicação entre o serviço Amazon EMR e seu cluster ao iniciar um cluster em sub-redes privadas. Sua função de serviço do Amazon EMR deve incluir ec2:CreateVpcEndpoint ec2:ModifyVpcEndpoint permissões, ou você deve criar o VPC endpoint manualmente antes de iniciar um cluster. O nome do serviço do VPC endpoint é. aws.api.region.emr-service-cell01
- Essa alteração atualiza os requisitos de rede para clusters de sub-rede privados:
  - O grupo de segurança de acesso ao serviço (ElasticMapReduce-ServiceAccess), conectado ao endpoint da VPC, requer HTTPS de entrada (porta 443) do bloco CIDR da VPC. 8443/9443 As regras de porta usadas nas versões 7.x e anteriores do Amazon EMR não são mais necessárias.
  - O grupo de segurança da instância primária exige HTTPS de saída (porta 443) para o grupo de segurança de acesso ao serviço.
  - As regras da porta de entrada 8443 e da porta de saída 9443 usadas nas versões 7.x e anteriores do Amazon EMR não são mais necessárias nos grupos de segurança de instâncias primárias, centrais e de tarefas.
  - Se você usar uma política de endpoint VPC personalizada para o Amazon S3, deverá permitir o acesso aos buckets de dados da instância do Amazon EMR (e). aws157-instance-data-0-prod-region aws157-instance-data-1-prod-region
- Para obter mais informações, consulte Clusters do EMR em sub-redes privadas, grupos de segurança da EMR-managed Amazon e a política mínima do Amazon S3 para sub-rede privada no Guia de gerenciamento do Amazon EMR.

Versões Java padrão do emr-spark-8.0.0

Aplicação	Versão Java/Amazon Corretto (o padrão é negrito)
Spark	17, 21
Livy	17, 11, 8
Hadoop	17, 11, 8

versões do componente emr-spark-8.0.0

Os componentes que o Amazon EMR instala com esta versão estão listados abaixo. Alguns são instalados como parte de pacotes de aplicativos de big data. Outros são exclusivos do Amazon EMR e instalados para processos e atributos do sistema. Normalmente começam com emr ouaws. Big-data os pacotes de aplicativos na versão mais recente do Amazon EMR geralmente são a versão mais recente encontrada na comunidade. Disponibilizamos as versões da comunidade no Amazon EMR o mais rapidamente possível.

Alguns componentes no Amazon EMR diferem das versões da comunidade. Esses componentes tem um rótulo de versão no formulário CommunityVersion-amzn-EmrVersion. O EmrVersion começa em 0. Por exemplo, se um componente da comunidade de código aberto denominado myapp-component com a versão 2.2 tiver sido alterado três vezes para inclusão em versões diferentes do Amazon EMR, sua versão será listada como 2.2-amzn-2.

Componente	Versão	Description
adot-java-agent	1.31.0	Um Java Agent que coleta métricas de daemons de aplicações.
delta	4.0.0-amzn-1-faísca	O Delta Lake é um formato de tabela aberto para grandes conjuntos de dados analíticos
emr-amazon-cloudwatch-agent	1.300032.2-amzn-0	Uma aplicação que coleta métricas internas no nível do sistema e métricas de aplicações personalizadas de instâncias do Amazon EC2.
emr-ddb	6.0.0	O conector do Amazon DynamoDB para aplicativos do ecossistema do Hadoop.
emr-goodies	3.22.0 faísca	Bibliotecas convenientes para o ecossistema do Hadoop.
emr-notebook-env	1.18.0	Ambiente Conda para bloco de anotações do emr, que inclui o jupyter enterprise gateway
emr-s3-dist-cp	2.44.0	Cópia distribuída otimizada de aplicativos para o Amazon S3.
hadoop-client	3.4.2-amzn-1	Clientes da linha de comando do Hadoop, como 'hdfs', 'hadoop', ou 'yarn'.
hadoop-hdfs-datanode	3.4.2-amzn-1	O serviço de nível de nó do HDFS para armazenamento de blocos.
hadoop-hdfs-library	3.4.2-amzn-1	O cliente de linha de comando e biblioteca do HDFS
hadoop-hdfs-namenode	3.4.2-amzn-1	O serviço do HDFS para rastrear nomes de arquivos e locais de blocos.
hadoop-hdfs-zkfc	3.4.2-amzn-1	Serviço ZKFC para rastrear namenodes para o modo HA.
hadoop-hdfs-journalnode	3.4.2-amzn-1	O serviço do HDFS para gerenciar o lançamento de arquivos do Hadoop em clusters de HA.
hadoop-httpfs-server	3.4.2-amzn-1	O endpoint de HTTP para as operações do HDFS.
hadoop-kms-server	3.4.2-amzn-1	Servidor de gerenciamento de chaves criptográficas baseado na API do Hadoop. KeyProvider
hadoop-mapred	3.4.2-amzn-1	MapReduce bibliotecas de mecanismos de execução para executar um MapReduce aplicativo.
hadoop-yarn-nodemanager	3.4.2-amzn-1	O serviço do YARN para o gerenciamento de contêineres em um nó individual.
hadoop-yarn-resourcemanager	3.4.2-amzn-1	O serviço do YARN para alocar e gerenciar recursos de cluster e aplicativos distribuídos.
hadoop-yarn-timeline-server	3.4.2-amzn-1	O serviço para recuperar informações atuais e históricas dos aplicativos do YARN.
hudi	1.1.0-amzn-0	Estrutura de processamento incremental para alimentar o pipeline de dados com baixa latência e alta eficiência.
hudi-spark	1.1.0-amzn-0	Biblioteca de pacotes para executar o Spark com o Hudi.
iceberg	1.10.1-amzn-0	Apache Iceberg é um formato de tabela aberta para conjuntos de dados analíticos imensos
livy-server	0.8.0-incubating	Interface REST para interagir com o Apache Spark
nginx	1.12.1	nginx [mecanismo x] é um servidor de proxy reverso e HTTP
mariadb-server	5.5.68+	Servidor de banco de dados MariaDB.
nvidia-cuda	12.5.0	Drivers NVIDIA e toolkit CUDA
r	4.3.2	O projeto R para computação estatística
spark-client	4.0.2-amzn-0	Os clientes da linha de comando do Spark.
spark-history-server	4.0.2-amzn-0	A interface de usuário da web para visualizar os eventos registrados por toda a vida útil de um aplicativo Spark concluído.
spark-on-yarn	4.0.2-amzn-0	In-memory mecanismo de execução para YARN.
spark-yarn-slave	4.0.2-amzn-0	As bibliotecas do Apache Spark necessárias para subordinados do YARN.
spark-rapids	26.02.2-amzn-0	Plugin do Nvidia Spark RAPIDS que acelera o Apache Spark com GPUs.
zookeeper-server	3.9.3-aman-6	O serviço centralizado de manutenção de informações de configuração, nomenclatura, fornecimento de sincronização distribuída, e fornecimento de serviços de grupo.
zookeeper-client	3.9.3-aman-6	ZooKeeper cliente de linha de comando.

classificações de configuração do emr-spark-8.0.0

As classificações de configuração permitem que você personalize aplicações. Elas geralmente correspondem a um arquivo XML de configuração da aplicação, como hive-site.xml. Para obter mais informações, consulte Configurar aplicações.

Ocorrem ações de reconfiguração quando você especifica uma configuração para grupos de instâncias em um cluster em execução. O Amazon EMR só inicia ações de reconfiguração para as classificações que você modifica. Para obter mais informações, consulte Reconfigurar um grupo de instâncias de um cluster em execução.

classificações do emr-spark-8.0.0
Classificações	Description	Ações de reconfiguração
capacity-scheduler	Alterar os valores no arquivo capacity-scheduler.xml do Hadoop.	Restarts the ResourceManager service.
container-executor	Alterar os valores no arquivo container-executor.cfg do YARN do Hadoop.	Not available.
container-log4j	Altere os valores no arquivo container-log4j.properties do YARN do Hadoop.	Not available.
core-site	Alterar os valores no arquivo core-site.xml do Hadoop.	Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.
docker-conf	Alterar as configurações relacionadas ao docker.	Not available.
hadoop-env	Alterar os valores no ambiente do Hadoop para todos os componentes do Hadoop.	Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.
hadoop-log4j	Alterar os valores no arquivo log4j.properties do Hadoop.	Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.
hadoop-ssl-server	Alterar a configuração do servidor SSL no Hadoop	Not available.
hadoop-ssl-client	Alterar a configuração do cliente SSL no Hadoop	Not available.
hdfs-encryption-zones	Configurar as zonas de criptografia do HDFS.	This classification should not be reconfigured.
hdfs-env	Alterar os valores no ambiente do HDFS.	Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC.
hdfs-site	Alterar os valores no arquivo hdfs-site.xml do HDFS.	Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs.
httpfs-env	Alterar os valores no ambiente do HTTPFS.	Restarts Hadoop Httpfs service.
httpfs-site	Alterar os valores no arquivo httpfs-site.xml do Hadoop.	Restarts Hadoop Httpfs service.
hadoop-kms-acls	Alterar os valores no arquivo kms-acls.xml do Hadoop.	Not available.
hadoop-kms-env	Alterar os valores no ambiente do Hadoop KMS.	Restarts Hadoop-KMS service.
hadoop-kms-java-home	Alterar a página inicial do KMS do Hadoop	Not available.
hadoop-kms-log4j	Alterar os valores no arquivo kms-log4j.properties do Hadoop.	Not available.
hadoop-kms-site	Alterar os valores no arquivo kms-site.xml do Hadoop.	Restarts Hadoop-KMS.
hudi-env	Altere os valores no ambiente do Hudi.	Not available.
hudi-defaults	Alterar os valores no arquivo hudi-defaults.conf do Hudi.	Not available.
iceberg-defaults	Alterar os valores no arquivo iceberg-defaults.conf do Iceberg.	Not available.
delta-defaults	Alterar os valores no arquivo delta-defaults.conf do Delta.	Not available.
jupyter-notebook-conf	Alterar os valores no arquivo jupyter_notebook_config.py do Notebook Jupyter.	Not available.
jupyter-s3-conf	Configurar a persistência do notebook Jupyter S3.	Not available.
jupyter-sparkmagic-conf	Altere os valores no arquivo config.json do Sparkmagic.	Not available.
livy-conf	Alterar os valores no arquivo livy.conf do Livy.	Restarts Livy Server.
livy-env	Alterar os valores no ambiente do Livy.	Restarts Livy Server.
livy-log4j2	Alterar as configurações de log4j2.properties do Livy.	Restarts Livy Server.
mapred-env	Altere os valores no ambiente do MapReduce aplicativo.	Restarts Hadoop MapReduce-HistoryServer.
mapred-site	Altere os valores no arquivo mapred-site.xml do MapReduce aplicativo.	Restarts Hadoop MapReduce-HistoryServer.
spark	EMR-curated Configurações da Amazon para o Apache Spark.	This property modifies spark-defaults. See actions there.
spark-defaults	Alterar os valores no arquivo spark-defaults.conf do Spark.	Restarts Spark history server and Spark thrift server.
spark-env	Alterar os valores no ambiente do Spark.	Restarts Spark history server and Spark thrift server.
spark-hive-site	Alterar os valores no arquivo hive-site.xml do Spark.	Not available.
spark-log4j2	Alterar os valores no arquivo log4j2.properties do Spark.	Restarts Spark history server and Spark thrift server.
spark-metrics	Alterar os valores no arquivo metrics.properties do Spark.	Restarts Spark history server and Spark thrift server.
yarn-env	Alterar os valores no ambiente do YARN.	Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.
yarn-site	Alterar os valores no arquivo yarn-site.xml do YARN.	Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer.
zookeeper-config	Altere os valores no ZooKeeper arquivo zoo.cfg do.	Restarts Zookeeper server.
zookeeper-logback	Altere os valores no ZooKeeper arquivo logback.xml do.	Restarts Zookeeper server.
cloudwatch-logs	Configure a integração de CloudWatch registros para nós de cluster do EMR.	Not available.
emr-metrics	Altere as configurações de métricas do EMR desse nó.	Restarts the CloudWatchAgent service.

Registro de alterações do EMR Spark 8.0.0

Registro de alterações do EMR Spark 8.0.0
Data	Event	Description
2026-05-21	Publicação de documentos	Notas de lançamento do Amazon EMR Spark 8.0.0 (emr-spark-8.0.0) publicadas pela primeira vez

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Versões do aplicativo em AWS tempo de execução para versões do Apache Spark

Versões 7.x do Amazon EMR