

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Preparação de dados usando sessões AWS Glue interativas
<a name="studio-notebooks-glue"></a>

As [sessões interativas do AWS Glue](https://docs.aws.amazon.com/glue/latest/dg/interactive-sessions-overview.html) são um serviço sem servidor ao qual você pode recorrer para coletar, transformar, limpar e preparar dados para armazenamento em seus data lakes e pipelines de dados. As sessões interativas do AWS Glue fornecem um ambiente de runtime do Apache Spark sob demanda e sem servidor que você pode inicializar em segundos em uma unidade de processamento de dados (DPU) dedicada sem precisar provisionar e gerenciar uma infraestrutura complexa de clusters de computação. Após a inicialização, você pode navegar pelo catálogo de AWS Glue dados, executar grandes consultas, acessar dados controlados e analisar e preparar dados de forma interativa usando o Spark, diretamente em seus notebooks Studio ou Studio Classic. AWS Lake Formation Em seguida, você pode usar os dados preparados para treinar, ajustar e implantar modelos usando as ferramentas de ML criadas especificamente no SageMaker Studio ou no Studio Classic. Você deve considerar as sessões AWS Glue interativas para suas cargas de trabalho de preparação de dados quando quiser um serviço Spark sem servidor com controle moderado de configurabilidade e flexibilidade.

Você pode iniciar uma sessão AWS Glue interativa iniciando um JupyterLab notebook no Studio ou no Studio Classic. Ao iniciar seu caderno, escolha o kernel integrado `Glue PySpark and Ray` ou `Glue Spark`. Isso inicia automaticamente uma sessão interativa sem servidor do Spark. Não é necessário provisionar nem gerenciar nenhum cluster ou infraestrutura de computação. Após a inicialização, você pode explorar e interagir com seus dados a partir dos seus cadernos do Studio ou Studio Classic.

Antes de iniciar sua sessão AWS Glue interativa no Studio ou no Studio Classic, você precisa definir as funções e políticas apropriadas. Além disso, talvez seja necessário dar acesso a recursos adicionais, como um bucket de armazenamento do Amazon S3. Para ver mais informações sobre as políticas do IAM necessárias, consulte [Permissões para sessões AWS Glue interativas no Studio ou no Studio Classic](getting-started-glue-sm.md#glue-sm-iam).

O Studio e o Studio Classic fornecem uma configuração padrão para sua sessão AWS Glue interativa, no entanto, você pode usar o catálogo completo AWS Glue de comandos mágicos do Jupyter para personalizar ainda mais seu ambiente. Para obter informações sobre as magias padrão e adicionais do Jupyter que você pode usar em sua sessão AWS Glue interativa, consulte. [Configure sua sessão AWS Glue interativa no Studio ou no Studio Classic](getting-started-glue-sm.md#glue-sm-magics)
+ Para usuários do Studio Classic que iniciam uma sessão AWS Glue interativa, eles podem selecionar entre as seguintes imagens e kernels:
  + Imagens: `SparkAnalytics 1.0`, `SparkAnalytics 2.0`
  + Kernel: `Glue Python [PySpark and Ray]` e `Glue Spark`
+ Para usuários do Studio, use a [imagem SageMaker de distribuição](https://github.com/aws/sagemaker-distribution) padrão e selecione um `Glue Python [PySpark and Ray]` ou um `Glue Spark` kernel.

# Comece com sessões AWS Glue interativas
<a name="getting-started-glue-sm"></a>

Neste guia, você aprende como iniciar uma sessão AWS Glue interativa no SageMaker AI Studio Classic e gerenciar seu ambiente com as magias do Jupyter.

## Permissões para sessões AWS Glue interativas no Studio ou no Studio Classic
<a name="glue-sm-iam"></a>

Esta seção lista as políticas necessárias para executar sessões AWS Glue interativas no Studio ou no Studio Classic e explica como configurá-las. Em particular, detalha como:
+ Vincule a política `AwsGlueSessionUserRestrictedServiceRole` gerenciada à sua função de execução de SageMaker IA.
+ Crie uma política personalizada em linha em sua função de execução de SageMaker IA.
+ Modifique a relação de confiança da sua função de execução de SageMaker IA.

**Para anexar a política gerenciada `AwsGlueSessionUserRestrictedServiceRole` ao seu perfil de execução**

1. Abra o [console do IAM](https://console.aws.amazon.com/iam/).

1. Selecione **Funções** no painel do lado esquerdo.

1. Encontre o perfil de execução do Studio Classic usado pelo seu perfil de usuário. Para obter informações sobre como visualizar um perfil de usuário, consulte [Visualizar perfis de usuário em um domínio](domain-user-profile-view.md).

1. Escolha o nome do perfil para acessar a página de resumo do perfil.

1. Na guia **Permissões**, selecione **Anexar políticas** no menu suspenso **Adicionar permissões**.

1. Marque a caixa de seleção ao lado da política gerenciada `AwsGlueSessionUserRestrictedServiceRole`.

1. Escolha **Anexar políticas**. 

   A página de resumo mostra as políticas gerenciadas recém-adicionadas.

   

**Criar uma política personalizada em linha no seu perfil de execução**

1. Selecione **Criar política em linha** no menu suspenso **Adicionar permissões**.

1. Selecione a guia **JSON**.

1. Copie e cole na política a seguir.

------
#### [ JSON ]

****  

   ```
   {
       "Version":"2012-10-17",		 	 	 
       "Statement": [
           {
               "Sid": "uniqueStatementId",
   
               "Effect": "Allow",
               "Action": [
   	     "iam:GetRole",
                   "iam:PassRole",
                   "sts:GetCallerIdentity"
               ],
               "Resource": "arn:aws:iam::*:role/GlueServiceRole*"
           }
       ]
   }
   ```

------

1. Escolha **Revisar política**.

1. Digite um **Nome** e escolha **Criar política**. 

   A página de resumo mostra as políticas personalizadas recém-adicionadas.

   

**Para modificar a relação de confiança do seu perfil de execução**

1. Selecione a guia **Relações de confiança**.

1. Escolha **Editar política de confiança**.

1. Copie e cole na política a seguir.

------
#### [ JSON ]

****  

   ```
   {
   "Version":"2012-10-17",		 	 	 
   "Statement": [
       {
           "Effect": "Allow",
           "Principal": {
               "Service": [
                   "glue.amazonaws.com",
                   "sagemaker.amazonaws.com"
               ]
           },
           "Action": "sts:AssumeRole"
       }
   ]
   }
   ```

------

1. Escolha **Atualizar política**.

Você pode adicionar outras funções e políticas se precisar acessar outros recursos AWS . Para obter uma descrição das funções e políticas adicionais que você pode incluir, consulte as [sessões interativas com o IAM](https://docs.aws.amazon.com/glue/latest/dg/glue-is-security.html) na AWS Glue documentação.

## Propagação de tags
<a name="glue-sm-tag-propagation"></a>

As tags são comumente usadas para rastrear e alocar custos, controlar o acesso à sua sessão, isolar seus recursos e muito mais. Para saber mais sobre como adicionar metadados aos seus recursos AWS usando tags ou para obter detalhes sobre casos de uso comuns, consulte [Mais informações](#more-information).

Você pode ativar a propagação automática de AWS tags para novas sessões AWS Glue interativas criadas na interface do usuário do Studio ou do Studio Classic. Quando uma sessão AWS Glue interativa é criada a partir do Studio ou do Studio Classic, todas as [tags definidas pelo](https://docs.aws.amazon.com/awsaccountbilling/latest/aboutv2/custom-tags.html) usuário anexadas ao perfil do usuário ou ao espaço compartilhado são transferidas para a nova sessão AWS Glue interativa. Além disso, o Studio e o Studio Classic adicionam automaticamente duas tags internas AWS geradas ((`sagemaker:user-profile-arn`e`sagemaker:domain-arn`) ou (`sagemaker:shared-space-arn`e`sagemaker:domain-arn`)) às novas sessões AWS Glue interativas criadas a partir de sua interface de usuário. Você pode usar essas tags para agregar custos em domínios, perfis de usuário ou espaços individuais.

### Habilitar propagação de tags
<a name="enable-propagation"></a>

Para ativar a propagação automática de tags para novas sessões AWS Glue interativas, defina as seguintes permissões para sua função de execução de SageMaker IA e a função do IAM associada à sua AWS Glue sessão:

**nota**  
Por padrão, a função associada à sessão AWS Glue interativa é a mesma que a função de execução da SageMaker IA. Você pode especificar uma função de execução diferente para a sessão AWS Glue interativa usando o comando `%iam_role` mágico. Para obter informações sobre os comandos mágicos do Jupyter disponíveis para configurar sessões interativas do AWS Glue , consulte [Configure sua sessão AWS Glue interativa no Studio ou no Studio Classic](#glue-sm-magics).
+ *Em sua função de execução de SageMaker IA*: crie uma nova política embutida e cole o seguinte arquivo JSON. A política concede à função de execução permissão para descrever (`DescribeUserProfile``DescribeSpace`,,`DescribeDomain`) e listar as tags (`ListTag`) definidas nos perfis de usuário, espaços compartilhados e domínio de SageMaker IA.

  ```
  {
      "Effect": "Allow",
      "Action": [
          "sagemaker:ListTags"
      ],
      "Resource": [
          "arn:aws:sagemaker:*:*:user-profile/*",
          "arn:aws:sagemaker:*:*:space/*"
      ]
  },
  {
      "Effect": "Allow",
      "Action": [
          "sagemaker:DescribeUserProfile"
      ],
      "Resource": [
          "arn:aws:sagemaker:*:*:user-profile/*"
      ]
  },
  {
      "Effect": "Allow",
      "Action": [
          "sagemaker:DescribeSpace"
      ],
      "Resource": [
          "arn:aws:sagemaker:*:*:space/*"
      ]
  }
  {
      "Effect": "Allow",
      "Action": [
          "sagemaker:DescribeDomain"
      ],
      "Resource": [
          "arn:aws:sagemaker:*:*:domain/*"
      ]
  }
  ```
+ *Na função de IAM da sua sessão AWS Glue *: Crie uma nova política em linha e cole o arquivo JSON a seguir. A política concede permissão à sua função para anexar tags (`TagResource`) à sua sessão ou recuperar sua lista de tags (`GetTags`).

  ```
  {
      "Effect": "Allow",
      "Action": [
          "glue:TagResource",
          "glue:GetTags"
      ],
      "Resource": [
          "arn:aws:glue:*:*:session/*"
      ]
  }
  ```

**nota**  
As falhas que ocorrem ao aplicar essas permissões não impedem a criação de sessões AWS Glue interativas. Você pode encontrar detalhes sobre o motivo da falha nos [CloudWatch](https://docs.aws.amazon.com//sagemaker/latest/dg/monitoring-cloudwatch.html)registros do Studio ou do Studio Classic.
Você deve reiniciar o kernel da sua sessão AWS Glue interativa para propagar a atualização do valor de uma tag.

É importante observar os seguintes pontos:
+ Depois que uma tag é anexada a uma sessão, ela não pode ser removida por propagação.

  Você pode remover tags de uma sessão AWS Glue interativa diretamente por meio do AWS CLI, da AWS Glue API ou do [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/). Por exemplo, usando o AWS CLI, você pode remover uma tag fornecendo o ARN da sessão e as chaves de tag que você deseja remover da seguinte forma:

  ```
  aws glue untag-resource \
  --resource-arn arn:aws:glue:region:account-id:session:session-name \
  --tags-to-remove tag-key1,tag-key2
  ```
+ O Studio e o Studio Classic adicionam duas tags internas AWS geradas ((`sagemaker:user-profile-arn`e`sagemaker:domain-arn`) ou (`sagemaker:shared-space-arn`e`sagemaker:domain-arn`)) às novas sessões AWS Glue interativas criadas a partir de sua interface de usuário. Essas tags contam contra o limite de 50 tags definido em todos os AWS recursos. Tanto `sagemaker:user-profile-arn` quanto `sagemaker:shared-space-arn` contêm o ID de domínio ao qual pertencem.
+ As chaves de tags que começam com `aws:``AWS:`,, ou qualquer combinação de letras maiúsculas e minúsculas como prefixo para chaves não são propagadas e são reservadas para uso. AWS 

### Mais informações
<a name="more-information"></a>

Para obter mais informações sobre marcação, consulte os recursos a seguir.
+ Para saber mais sobre como adicionar metadados aos seus AWS recursos com marcação, consulte Como [marcar AWS](https://docs.aws.amazon.com/tag-editor/latest/userguide/tagging.html) recursos.
+ Para obter informações sobre o controle de custos usando tags, consulte [Análise de custos](https://docs.aws.amazon.com/whitepapers/latest/sagemaker-studio-admin-best-practices/cost-attribution.html) nas práticas recomendadas de administração do Studio.
+ Para obter informações sobre como controlar o acesso AWS Glue com base em chaves de tag, consulte [ABAC com AWS Glue](glue/latest/dg/security_iam_service-with-iam.html#security_iam_service-with-iam-tags).

## Inicie sua sessão AWS Glue interativa no Studio ou no Studio Classic
<a name="glue-sm-launch"></a>

Depois de criar as funções, as políticas e o domínio de SageMaker IA, você pode iniciar sua sessão AWS Glue interativa no Studio ou no Studio Classic.

1. Faça login no console de SageMaker IA em [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. No painel de navegação à esquerda, escolha **Studio**.

1. Na página inicial do Studio, selecione o domínio e o perfil de usuário para iniciar o Studio.

1. Escolha **Open Studio** e inicie um aplicativo JupyterLab ou Studio Classic.

1. Na visualização do Jupyter, escolha **Arquivo**, depois **Novo** e, em seguida, **Cadernos.**

1. **Para usuários do Studio Classic: no menu suspenso **Imagem**, selecione **SparkAnalytics 1.0 ou SparkAnalytics 2.0**.** No menu suspenso do **kernel**, selecione Glue **Spark ou Glue PySpark ** **Python [**and Ray]. Escolha **Selecionar**.

   Para usuários do Studio, selecione um kernel **Glue Spark** ou **Glue Python PySpark [and** Ray]

1. (opcional) Use mágicas do Jupyter para personalizar seu ambiente. Para obter mais informações sobre como encerrar uma , consulte [Configure sua sessão AWS Glue interativa no Studio ou no Studio Classic](#glue-sm-magics).

1. Comece a escrever seus scripts de processamento de dados do Spark. O [caderno](https://github.com/aws/amazon-sagemaker-examples/blob/main/use-cases/pyspark_etl_and_training/pyspark-etl-training.ipynb) a seguir mostra um end-to-end fluxo de trabalho para ETL em um grande conjunto de dados usando uma sessão AWS Glue interativa, análise exploratória de dados, pré-processamento de dados e, finalmente, treinamento de um modelo nos dados processados com IA. SageMaker 

## Configure sua sessão AWS Glue interativa no Studio ou no Studio Classic
<a name="glue-sm-magics"></a>

**nota**  
Todas as configurações mágicas são transferidas para as sessões subsequentes durante a vida útil do AWS Glue kernel.

Você pode usar as magias do Jupyter em sua sessão AWS Glue interativa para modificar seus parâmetros de sessão e configuração. Magics são comandos curtos prefixados com `%` no início das células Jupyter que propiciam uma maneira rápida e fácil de ajudá-lo a controlar seu ambiente. Em sua sessão AWS Glue interativa, as seguintes magias são definidas para você por padrão:


| Magia | Valor padrão  | 
| --- | --- | 
| %glue\$1version |  3.0  | 
| %iam\$1role |  *execution role attached to your SageMaker AI domain*  | 
| %region |  sua região  | 

É possível usar mágicas para personalizar ainda mais seu ambiente. Por exemplo, se você quiser alterar o número de operadores alocados para seu trabalho do padrão de cinco para 10, você pode especificar `%number_of_workers 10`. Se quiser configurar sua sessão para parar após 10 minutos de tempo ocioso em vez do 2880 padrão, você pode especificar `%idle_timeout 10`.

Todas as magias de Jupyter atualmente disponíveis também AWS Glue estão disponíveis no Studio ou no Studio Classic. Para ver a lista completa das AWS Glue mágicas disponíveis, consulte [Configuração de sessões AWS Glue interativas para notebooks Jupyter](https://docs.aws.amazon.com/glue/latest/dg/interactive-sessions-magics.html) e Studio. AWS Glue 

# AWS Glue preços de sessões interativas
<a name="glue-sm-pricing"></a>

Ao usar sessões AWS Glue interativas em notebooks Studio ou Studio Classic, você é cobrado separadamente pelo uso de recursos nos AWS Glue notebooks Studio.

AWS cobranças por sessões AWS Glue interativas com base no tempo em que a sessão está ativa e no número de unidades de processamento de dados (DPU) usadas. É cobrada uma taxa horária pelo número de pessoas DPUs usadas para executar suas cargas de trabalho, cobrada em incrementos de um segundo. AWS Glue as sessões interativas atribuem um padrão de cinco DPUs e exigem um mínimo de duas DPUs. Também há um período mínimo para cobrança de um minuto para cada sessão interativa. Para ver as AWS Glue tarifas e exemplos de preços, ou para estimar seus custos usando a Calculadora de AWS preços, consulte [AWS Glue preços](https://aws.amazon.com/glue/pricing).

Seu caderno do Studio ou Studio Classic é executado em uma instância do Amazon EC2, e a cobrança é feita pelo tipo de instância escolhido, com base na duração do uso. O Studio Classic atribui a você o tipo de instância padrão da EC2 `ml-t3-medium` quando você seleciona a imagem `SparkAnalytics` e o kernel associado. Você pode alterar o tipo de instância do seu caderno do Studio Classic de acordo com seu workload. Para obter informações sobre os preços do Studio e do Studio Classic, consulte [ SageMaker Preços da Amazon](https://aws.amazon.com/sagemaker/pricing).