

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Apache Spark
<a name="emr-spark"></a>

O [Apache Spark](https://aws.amazon.com/emr/features/spark/) é um modelo de framework de processamento e de programação distribuído que ajuda você a executar machine learning, processamento de streams ou analytics de gráficos com clusters do Amazon EMR. Semelhante ao Apache Hadoop, o Spark é um sistema de processamento distribuído de código-fonte aberto comumente utilizado para workloads de big data. No entanto, o Spark tem várias diferenças notáveis em relação ao MapReduce Hadoop. O Spark possui um mecanismo de execução otimizado para gráficos acíclicos dirigidos (DAG) e faz ativamente o cache dos dados na memória, o que pode aumentar o desempenho, especialmente para determinados algoritmos e consultas interativas.

O Spark oferece suporte nativo a aplicativos escritos em Scala, Python e Java. Ele também inclui várias bibliotecas firmemente integradas para SQL ([Spark](https://spark.apache.org/sql/)), machine learning ([MLlib](https://spark.apache.org/mllib/)), processamento de streaming ([Spark streaming](https://spark.apache.org/streaming/)) e processamento de gráficos ([GraphX](https://spark.apache.org/graphx/)). Essas ferramentas facilitam o aproveitamento da estrutura do Spark para uma grande variedade de casos de uso. 

Você pode instalar o Spark em um cluster do Amazon EMR com outras aplicações do Hadoop e ele também pode aproveitar o sistema de arquivos do Amazon EMR (EMRFS) para acessar dados diretamente no Amazon S3. O Hive também é integrado ao Spark para que você possa usar um HiveContext objeto para executar scripts do Hive usando o Spark. Um contexto do Hive está incluído no spark-shell como `sqlContext`. 

Para ver um exemplo de tutorial sobre como configurar um cluster do EMR com o Spark e analisar um conjunto de dados de amostra, consulte [Tutorial: Getting started with Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-gs.html) no blog de notícias. AWS 

Você pode usar o Apache Spark Troubleshooting Agent para solucionar problemas de seus aplicativos Apache Spark no EMR no EC2 e no EMR Serverless. Para saber mais, consulte[O que é o agente de solução de problemas do Apache Spark para Amazon EMR](spark-troubleshoot.md).

**Importante**  
Apache Spark versão 2.3.1, disponível a partir da versão 5.16.0 do Amazon EMR, endereços e. [CVE-2018-8024[CVE-2018-1334](https://nvd.nist.gov/vuln/detail/CVE-2018-1334)](https://nvd.nist.gov/vuln/detail/CVE-2018-8024) Recomendamos que você migre as versões anteriores do Spark para a versão 2.3.1 ou posteriores.

A tabela a seguir lista a versão do Spark incluída na versão mais recente da série 7.x do Amazon EMR, além dos componentes que o Amazon EMR instala com o Spark.

Para a versão dos componentes instalados com o Spark nesta versão, consulte Versões de componentes da [versão 7.13.0](emr-7130-release.md).


**Informações sobre a versão do Spark para o emr-7.13.0**  

| Rótulo de versão do Amazon EMR | Versão do Spark | Componentes instalados com o Spark | 
| --- | --- | --- | 
| emr-7.13.0 | Spark 3.5.6-amzn-2 | delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-hdfs-zkfc, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave | 

A tabela a seguir lista a versão do Spark incluída na versão mais recente da série 6.x do Amazon EMR, além dos componentes que o Amazon EMR instala com o Spark.

Para obter a versão dos componentes instalados com o Spark nessa versão, consulte [Release 6.15.0 Component Versions](emr-6150-release.md).


**Informações de versão do Spark para o emr-6.15.0**  

| Rótulo de versão do Amazon EMR | Versão do Spark | Componentes instalados com o Spark | 
| --- | --- | --- | 
| emr-6.15.0 | Spark 3.4.1-amzn-2 | aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave | 

**nota**  
A versão 6.8.0 do Amazon EMR vem com a versão 3.3.0 do Apache Spark. Esta versão do Spark usa o Apache Log4j 2 e o arquivo `log4j2.properties` para configurar o Log4j nos processos do Spark. Se você usar o Spark no cluster ou criar clusters do EMR com parâmetros de configuração personalizados e quiser atualizar para a versão 6.8.0 do Amazon EMR, deverá migrar para a nova classificação de configuração `spark-log4j2` e para o formato de chave do Apache Log4j 2. Para obter mais informações, consulte [Migrar do Apache Log4j 1.x para Log4j 2.x](emr-spark-configure.md#spark-migrate-logj42).

A tabela a seguir lista a versão do Spark incluída na versão mais recente da série 5.x do Amazon EMR, além dos componentes que o Amazon EMR instala com o Spark.

Para obter a versão dos componentes instalados com o Spark nesse lançamento, consulte [Release 5.36.2 Component Versions](emr-5362-release.md).


**Informações de versão do Spark para o emr-5.36.2**  

| Rótulo de versão do Amazon EMR | Versão do Spark | Componentes instalados com o Spark | 
| --- | --- | --- | 
| emr-5.36.2 | Spark 2.4.8-amzn-2 | aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave | 

**Topics**
+ [Criação de um cluster com o Apache Spark](emr-spark-launch.md)
+ [Execução de aplicações do Spark com o Docker no Amazon EMR 6.x](emr-spark-docker.md)
+ [Use o AWS Glue Data Catalog com o Spark no Amazon EMR](emr-spark-glue.md)
+ [Trabalhando com uma hierarquia de vários catálogos no AWS Glue Data Catalog com o Spark no Amazon EMR](emr-multi-catalog.md)
+ [Configurar o Spark](emr-spark-configure.md)
+ [O que é o agente de solução de problemas do Apache Spark para Amazon EMR](spark-troubleshoot.md)
+ [Otimizar a performance do Spark](emr-spark-performance.md)
+ [Armazenamento em Cache de Fragmentos Resultantes do Spark](emr-spark-fragment-result-caching.md)
+ [Uso do RAPIDS Accelerator do NVIDIA para Apache Spark](emr-spark-rapids.md)
+ [Acessar o shell do Spark](emr-spark-shell.md)
+ [Use o Amazon SageMaker Spark para aprendizado de máquina](emr-spark-sagemaker.md)
+ [Escrever uma aplicação do Spark](emr-spark-application.md)
+ [Melhorar a performance do Spark com Amazon S3](emr-spark-s3-performance.md)
+ [Adicionar uma etapa do Spark](emr-spark-submit-step.md)
+ [Visualizar o histórico de aplicações do Spark](emr-spark-application-history.md)
+ [Acessar as interfaces de usuário Web do Spark](emr-spark-webui.md)
+ [Uso do conector do Amazon Kinesis Data Streams para streaming estruturado do Spark](emr-spark-structured-streaming-kinesis.md)
+ [Usar a integração do Amazon Redshift para Apache Spark com o Amazon EMR](emr-spark-redshift.md)
+ [Histórico de versões do Spark](Spark-release-history.md)
+ [Usando visualizações materializadas com o Amazon EMR](emr-spark-materialized-views.md)