# Solução de problemas de IA generativa para o Apache Spark no AWS Glue
<a name="troubleshoot-spark"></a>

 A solução de problemas de IA generativa para trabalhos do Apache Spark no AWS Glue é um novo recurso que ajuda engenheiros e cientistas de dados a diagnosticar e corrigir problemas nas aplicações Spark com facilidade. Utilizando tecnologias de machine learning e IA generativa, esse recurso analisa problemas em trabalhos do Spark e fornece uma análise detalhada da causa raiz, com recomendações práticas para resolver estes problemas. A solução de problemas de IA generativa para Apache Spark está disponível para trabalhos executados no AWS Glue versão 4.0 ou superior. 


|  | 
| --- |
| Transforme sua solução de problemas do Apache Spark com nosso agente de solução de problemas baseado em IA, agora compatível com todos os principais modos de implantação, incluindo o AWS Glue, o Amazon EMR-EC2, Amazon EMR Sem Servidor e os cadernos do Amazon SageMaker AI. Esse poderoso agente elimina processos complexos de depuração combinando interações de linguagem natural, análise de workload em tempo real e recomendações inteligentes de código em uma experiência perfeita. Para obter detalhes de implementação, consulte [What is Apache Spark Troubleshooting Agent for Amazon EMR](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/spark-troubleshoot.html). Veja a segunda demonstração em [Using the Troubleshooting Agent](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/spark-troubleshooting-using-troubleshooting-agent.html) para exemplos de solução de problemas do AWS Glue. | 

## Como funciona a solução de problemas de IA generativa para o Apache Spark?
<a name="troubleshoot-spark-how-it-works"></a>

 Para trabalhos do Spark que apresentam falha, a solução de problemas de IA generativa analisa os metadados do trabalho e as métricas e logs precisos associados à assinatura do erro do trabalho para gerar uma análise da causa raiz e recomenda soluções específicas e práticas recomendadas para ajudar a resolver falhas no trabalho. 

## Configuração da solução de problemas de IA generativa para trabalhos no Apache Spark
<a name="w2aac37c11c12c33c13"></a>

### Configurar permissões do IAM
<a name="troubleshoot-spark-iam-permissions"></a>

 A concessão de permissões às APIs usadas pela solução de problemas do Spark para trabalhos no AWS Glue exige permissões apropriadas do IAM. Você pode obter permissões anexando a política da AWS a seguir personalizada à sua identidade do IAM (como usuário, perfil ou grupo). 

------
#### [ JSON ]

****  

```
{
  "Version":"2012-10-17",		 	 	 
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "glue:StartCompletion",
        "glue:GetCompletion"
      ],
      "Resource": [
        "arn:aws:glue:*:*:completion/*",
        "arn:aws:glue:*:*:job/*"
      ]
    }
  ]
}
```

------

**nota**  
 As duas APIs a seguir são usadas na política do IAM para permitir essa experiência por meio do Console do AWS Glue Studio: `StartCompletion` e `GetCompletion`. 

### Atribuindo permissões
<a name="troubleshoot-spark-assigning-permissions"></a>

 Para conceder acesso, adicione as permissões aos seus usuários, grupos ou perfis: 
+  Usuários e grupos no Centro de Identidade do IAM: criem um conjunto de permissões. Sigam as instruções em [Criar um conjunto de permissões](https://docs.aws.amazon.com/singlesignon/latest/userguide/howtocreatepermissionset.html) no Guia do usuário do Centro de Identidade do IAM. 
+  Usuários gerenciados no IAM por meio de um provedor de identidades: criem um perfil para federação de identidades. Sigam as instruções em [Criar um perfil para um provedor de identidade de terceiros (federação)](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_roles_create_for-idp.html) no Guia do Usuário do IAM. 
+  Usuários do IAM: criem um perfil que o usuário possa assumir. Sigam as instruções em [Criar um perfil para um usuário do IAM](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_roles_create_for-user.html) no Guia do usuário do IAM. 

## Execução da análise de solução de problemas com base na execução de um trabalho com falha
<a name="troubleshoot-spark-run-analysis"></a>

 Você pode acessar o recurso de solução de problemas por meio de vários caminhos no console do AWS Glue. Veja como começar: 

### Opção 1: na página Lista de trabalhos
<a name="troubleshoot-spark-from-jobs-list"></a>

1.  Abra o console do AWS Glue em [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/). 

1.  No painel de navegação, escolha **Trabalhos de ETL**. 

1.  Localize o trabalho que apresentou falha na lista de trabalhos. 

1.  Selecione a guia **Execuções** na seção de detalhes do trabalho. 

1.  Clique na execução do trabalho que apresentou falha que você deseja analisar. 

1.  Escolha **Solucionar problemas com IA** para iniciar a análise. 

1.  Quando a análise da solução de problemas estiver concluída, você poderá visualizar a análise da causa raiz e as recomendações na guia **Análise da solução de problemas** na parte inferior da tela. 

![O GIF mostra a implementação de ponta a ponta de uma execução com falha e a solução do problema com a execução do recurso de IA.](http://docs.aws.amazon.com/pt_br/glue/latest/dg/images/troubleshoot_spark_option_1_jobs_list.gif)


### Opção 2: usando a página Monitoramento da execução do trabalho
<a name="troubleshoot-spark-job-run-monitoring-page"></a>

1.  Navegue até a página de **Monitoramento da execução do trabalho**. 

1.  Localize a execução do trabalho que apresentou falha. 

1.  Escolha o menu suspenso **Ações**. 

1.  Escolha **Solucionar problemas com IA**. 

![O GIF mostra a implementação de ponta a ponta de uma execução com falha e a solução do problema com a execução do recurso de IA.](http://docs.aws.amazon.com/pt_br/glue/latest/dg/images/troubleshoot_spark_option_2_job_monitoring.gif)


### Opção 3: na página Detalhes da execução do trabalho
<a name="troubleshoot-spark-job-run-details-page"></a>

1.  Navegue até a página de detalhes da execução do trabalho que apresentou falha clicando em **Visualizar detalhes** em uma execução com falha na guia **Execuções** ou selecionando a execução do trabalho na página **Monitoramento da execução do trabalho**. 

1.  Na página de detalhes da execução do trabalho, você encontrará a guia **Análise da solução de problemas**. 

## Categorias de solução de problemas compatíveis
<a name="troubleshoot-spark-supported-troubleshooting-categories"></a>

 Esse serviço se concentra em três categorias principais de problemas que engenheiros e desenvolvedores de dados frequentemente encontram em aplicações do Spark: 
+  **Erros de configuração e acesso de recursos:** ao executar aplicações do Spark no AWS Glue, os erros de configuração e acesso de recursos estão entre os problemas mais comuns, porém difíceis de diagnosticar. Esses erros muitas vezes ocorrem quando a aplicação do Spark tenta interagir com recursos da AWS, mas encontra problemas de permissão, de falta de recursos ou de configuração. 
+  **Problemas de memória do driver e do executor do Spark**: erros relacionados à memória em trabalhos do Apache Spark podem ser complexos de diagnosticar e resolver. Esses erros muitas vezes se manifestam quando os requisitos de processamento de dados excedem os recursos de memória disponíveis no nó do driver ou nos nós do executor. 
+  **Problemas de capacidade de disco do Spark**: erros relacionados a armazenamento em trabalhos do Spark no AWS Glue muitas vezes surgem durante operações de shuffle, vazamento de dados ou no caso de transformações de dados em grande escala. Esses erros podem ser particularmente complicados porque talvez não se manifestem até que o trabalho esteja em execução por algum tempo, podendo desperdiçar tempo e recursos de computação valiosos. 
+  **Erros de execução de consultas:** as falhas de consulta nas operações do Spark SQL e do DataFrame podem ser difíceis de solucionar porque as mensagens de erro podem não apontar claramente a causa raiz, e as consultas que funcionam bem com pequenos conjuntos de dados podem falhar repentinamente em grande escala. Esses erros se tornam ainda mais desafiadores quando ocorrem profundamente em canais de transformação complexos, onde o problema real pode resultar de problemas de qualidade de dados em estágios iniciais, em vez da própria lógica de consulta. 

**nota**  
 Antes de implementar qualquer alteração sugerida no ambiente de produção, analise minuciosamente as alterações sugeridas. O serviço fornece recomendações com base em padrões e práticas recomendadas, mas seu caso de uso específico pode exigir considerações adicionais. 

## Regiões compatíveis
<a name="troubleshoot-spark-supported-regions"></a>

A solução de problemas de IA generativa para o Apache Spark está disponível nas seguintes regiões:
+ **África**: Cidade do Cabo (af-south-1)
+ **Ásia-Pacífico**: Hong Kong (ap-east-1), Tóquio (ap-northeast-1), Seul (ap-northeast-2), Osaka (ap-northeast-3), Mumbai (ap-south-1), Cingapura (ap-southeast-1), Sydney (ap-southeast-2) e Jacarta (ap-southeast-3)
+ **Europa**: Frankfurt (eu-central-1), Estocolmo (eu-north-1), Milão (eu-south-1), Irlanda (eu-west-1), Londres (eu-west-2) e Paris (eu-west-3)
+ **Oriente Médio**: Bahrein (me-south-1) e Emirados Árabes Unidos (me-central-1)
+ **América do** Norte: Canadá (ca-central-1)
+ **América do Sul**: São Paulo (sa-east-1)
+ **Estados Unidos**: Virgínia do Norte (us-east-1), Ohio (us-east-2), Norte da Califórnia (us-west-1) e Oregon (us-west-2)