

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Processamento de dados usando o comando `dataprocessing`
<a name="machine-learning-api-dataprocessing"></a>

Use o comando `dataprocessing` do Neptune ML para criar um trabalho de processamento de dados, conferir o status, interrompê-lo ou listar todos os trabalhos ativos de processamento de dados.

## Criar um trabalho de processamento de dados usando o comando `dataprocessing` do Neptune ML
<a name="machine-learning-api-dataprocessing-create-job"></a>

Um comando `dataprocessing` típico do Neptune ML para criar um trabalho tem a seguinte aparência:

------
#### [ AWS CLI ]

```
aws neptunedata start-ml-data-processing-job \
  --endpoint-url https://{{your-neptune-endpoint}}:{{port}} \
  --input-data-s3-location "s3://{{(S3 bucket name)}}/{{(path to your input folder)}}" \
  --id "{{(a job ID for the new job)}}" \
  --processed-data-s3-location "s3://{{(S3 bucket name)}}/{{(path to your output folder)}}"
```

Para obter mais informações, consulte [start-ml-data-processing-job](https://docs.aws.amazon.com/cli/latest/reference/neptunedata/start-ml-data-processing-job.html) na Referência de AWS CLI Comandos.

------
#### [ SDK ]

```
import boto3
from botocore.config import Config

client = boto3.client(
    'neptunedata',
    endpoint_url='https://{{your-neptune-endpoint}}:{{port}}',
    config=Config(read_timeout=None, retries={'total_max_attempts': 1})
)

response = client.start_ml_data_processing_job(
    inputDataS3Location='s3://{{(S3 bucket name)}}/{{(path to your input folder)}}',
    id='{{(a job ID for the new job)}}',
    processedDataS3Location='s3://{{(S3 bucket name)}}/{{(path to your output folder)}}'
)

print(response)
```

------
#### [ awscurl ]

```
awscurl https://{{your-neptune-endpoint}}:{{port}}/ml/dataprocessing \
  --region {{us-east-1}} \
  --service neptune-db \
  -X POST \
  -H 'Content-Type: application/json' \
  -d '{
        "inputDataS3Location" : "s3://{{(S3 bucket name)}}/{{(path to your input folder)}}",
        "id" : "{{(a job ID for the new job)}}",
        "processedDataS3Location" : "s3://{{(S3 bucket name)}}/{{(path to your output folder)}}"
      }'
```

**nota**  
Este exemplo pressupõe que suas AWS credenciais estejam configuradas em seu ambiente. {{us-east-1}}Substitua pela região do seu cluster Neptune.

------
#### [ curl ]

```
curl \
  -X POST https://{{your-neptune-endpoint}}:{{port}}/ml/dataprocessing \
  -H 'Content-Type: application/json' \
  -d '{
        "inputDataS3Location" : "s3://{{(S3 bucket name)}}/{{(path to your input folder)}}",
        "id" : "{{(a job ID for the new job)}}",
        "processedDataS3Location" : "s3://{{(S3 bucket name)}}/{{(path to your output folder)}}"
      }'
```

------

Um comando para iniciar o reprocessamento incremental tem a seguinte aparência:

------
#### [ AWS CLI ]

```
aws neptunedata start-ml-data-processing-job \
  --endpoint-url https://{{your-neptune-endpoint}}:{{port}} \
  --input-data-s3-location "s3://{{(S3 bucket name)}}/{{(path to your input folder)}}" \
  --id "{{(a job ID for this job)}}" \
  --processed-data-s3-location "s3://{{(S3 bucket name)}}/{{(path to your output folder)}}" \
  --previous-data-processing-job-id "{{(the job ID of a previously completed job to update)}}"
```

Para obter mais informações, consulte [start-ml-data-processing-job](https://docs.aws.amazon.com/cli/latest/reference/neptunedata/start-ml-data-processing-job.html) na Referência de AWS CLI Comandos.

------
#### [ SDK ]

```
import boto3
from botocore.config import Config

client = boto3.client(
    'neptunedata',
    endpoint_url='https://{{your-neptune-endpoint}}:{{port}}',
    config=Config(read_timeout=None, retries={'total_max_attempts': 1})
)

response = client.start_ml_data_processing_job(
    inputDataS3Location='s3://{{(S3 bucket name)}}/{{(path to your input folder)}}',
    id='{{(a job ID for this job)}}',
    processedDataS3Location='s3://{{(S3 bucket name)}}/{{(path to your output folder)}}',
    previousDataProcessingJobId='{{(the job ID of a previously completed job to update)}}'
)

print(response)
```

------
#### [ awscurl ]

```
awscurl https://{{your-neptune-endpoint}}:{{port}}/ml/dataprocessing \
  --region {{us-east-1}} \
  --service neptune-db \
  -X POST \
  -H 'Content-Type: application/json' \
  -d '{
        "inputDataS3Location" : "s3://{{(S3 bucket name)}}/{{(path to your input folder)}}",
        "id" : "{{(a job ID for this job)}}",
        "processedDataS3Location" : "s3://{{(S3 bucket name)}}/{{(path to your output folder)}}",
        "previousDataProcessingJobId" : "{{(the job ID of a previously completed job to update)}}"
      }'
```

**nota**  
Este exemplo pressupõe que suas AWS credenciais estejam configuradas em seu ambiente. {{us-east-1}}Substitua pela região do seu cluster Neptune.

------
#### [ curl ]

```
curl \
  -X POST https://{{your-neptune-endpoint}}:{{port}}/ml/dataprocessing \
  -H 'Content-Type: application/json' \
  -d '{
        "inputDataS3Location" : "s3://{{(S3 bucket name)}}/{{(path to your input folder)}}",
        "id" : "{{(a job ID for this job)}}",
        "processedDataS3Location" : "s3://{{(S3 bucket name)}}/{{(path to your output folder)}}",
        "previousDataProcessingJobId" : "{{(the job ID of a previously completed job to update)}}"
      }'
```

------

**Parâmetros para criação de trabalhos `dataprocessing`**
+ **`id`**: (*opcional*) um identificador exclusivo do novo trabalho.

  *Tipo*: string. *Padrão*: um UUID gerado automaticamente.
+ **`previousDataProcessingJobId`**: (*opcional*) o ID de um trabalho de processamento de dados concluído executado em uma versão anterior dos dados.

  *Tipo*: string. *Padrão*: *nenhum*.

  *Observação*: use para processamento incremental de dados, para atualizar o modelo quando os dados do grafo forem alterados (mas não quando os dados forem excluídos).
+ **`inputDataS3Location`**— (*Obrigatório*) O URI do local do Amazon S3 em que você deseja que a SageMaker IA baixe os dados necessários para executar o trabalho de processamento de dados.

  *Tipo*: string.
+ **`processedDataS3Location`**— (*Obrigatório*) O URI do local do Amazon S3 em que você deseja que a SageMaker IA salve os resultados de um trabalho de processamento de dados.

  *Tipo*: string.
+ **`sagemakerIamRoleArn`**— (*Opcional*) O ARN de uma função do IAM para execução de SageMaker IA.

  *Tipo*: string. *Observação*: deve estar listado no grupo de parâmetros do cluster de banco de dados ou ocorrerá um erro.
+ **`neptuneIamRoleArn`**— (*Opcional*) O nome de recurso da Amazon (ARN) de uma função do IAM que a SageMaker IA pode assumir para realizar tarefas em seu nome.

  *Tipo*: string. *Observação*: deve estar listado no grupo de parâmetros do cluster de banco de dados ou ocorrerá um erro.
+ **`processingInstanceType`**: (*opcional*) o tipo de instância de ML usada durante o processamento de dados. A memória deve ser grande o suficiente para armazenar o conjunto de dados processado.

  *Tipo*: string. *Padrão*: o menor tipo `ml.r5` cuja memória é dez vezes maior que o tamanho dos dados de grafos exportados no disco.

  *Observação*: o Neptune ML pode selecionar o tipo de instância automaticamente. Consulte [Selecionar uma instância para processamento de dados](machine-learning-on-graphs-instance-selection.md#machine-learning-on-graphs-processing-instance-size).
+ **`processingInstanceVolumeSizeInGB`**: (*opcional*) o tamanho do volume do disco da instância de processamento. Tanto os dados de entrada quanto os dados processados são armazenados em disco, portanto, o tamanho do volume deve ser grande o suficiente para conter os dois conjuntos de dados.

  *Tipo*: número inteiro. *Padrão*: `0`.

  *Observação*: se não for especificado ou for 0, o Neptune ML escolherá o tamanho do volume automaticamente com base no tamanho dos dados.
+ **`processingTimeOutInSeconds`**: (*opcional*) tempo limite em segundos do trabalho de processamento de dados.

  *Tipo*: número inteiro. *Padrão*: `86,400` (um dia).
+ **`modelType`**: (*opcional*) um dos dois tipos de modelo que o Neptune ML aceita no momento: modelos de grafos heterogêneos (`heterogeneous`) e grafo de conhecimento (`kge`).

  *Tipo*: string. *Padrão*: *nenhum*.

  *Observação*: se não for especificado, o Neptune ML escolherá o tipo de modelo automaticamente com base nos dados.
+ **`configFileName`**: (*opcional*) um arquivo de especificação de dados que descreve como carregar os dados de grafos exportados para treinamento. O arquivo é gerado automaticamente pelo kit de ferramentas de exportação do Neptune.

  *Tipo*: string. *Padrão*: `training-data-configuration.json`.
+ **`subnets`**— (*Opcional*) A IDs das sub-redes na VPC Neptune.

  *Tipo*: lista de strings. *Padrão*: *nenhum*.
+ **`securityGroupIds`**— (*Opcional*) O grupo de segurança da VPC. IDs

  *Tipo*: lista de strings. *Padrão*: *nenhum*.
+ **`volumeEncryptionKMSKey`**— (*Opcional*) A chave AWS Key Management Service (AWS KMS) que a SageMaker IA usa para criptografar dados no volume de armazenamento anexado às instâncias de computação de ML que executam o trabalho de processamento.

  *Tipo*: string *Padrão*: *nenhum*.
+ **`enableInterContainerTrafficEncryption`**: (*opcional*) habilite ou desabilite a criptografia de tráfego entre contêineres em trabalhos de treinamento ou ajuste de hiperparâmetros.

  *Tipo*: booliano. *Padrão*: *verdadeiro*.
**nota**  
O parâmetro `enableInterContainerTrafficEncryption` só está disponível na [versão 1.2.0.2.R3 do mecanismo](engine-releases-1.2.0.2.R3.md).
+ **`s3OutputEncryptionKMSKey`**— (*Opcional*) A chave AWS Key Management Service (AWS KMS) que a SageMaker IA usa para criptografar a saída do trabalho de treinamento.

  *Tipo*: string *Padrão*: *nenhum*.

## Obter o status de um trabalho de processamento de dados usando o comando `dataprocessing` do Neptune ML
<a name="machine-learning-api-dataprocessing-get-job-status"></a>

Um exemplo de comando `dataprocessing` do Neptune ML para o status de um trabalho tem a seguinte aparência:

------
#### [ AWS CLI ]

```
aws neptunedata get-ml-data-processing-job \
  --endpoint-url https://{{your-neptune-endpoint}}:{{port}} \
  --id "{{(the job ID)}}"
```

Para obter mais informações, consulte [get-ml-data-processing-job](https://docs.aws.amazon.com/cli/latest/reference/neptunedata/get-ml-data-processing-job.html) na Referência de AWS CLI Comandos.

------
#### [ SDK ]

```
import boto3
from botocore.config import Config

client = boto3.client(
    'neptunedata',
    endpoint_url='https://{{your-neptune-endpoint}}:{{port}}',
    config=Config(read_timeout=None, retries={'total_max_attempts': 1})
)

response = client.get_ml_data_processing_job(
    id='{{(the job ID)}}'
)

print(response)
```

------
#### [ awscurl ]

```
awscurl https://{{your-neptune-endpoint}}:{{port}}/ml/dataprocessing/{{(the job ID)}} \
  --region {{us-east-1}} \
  --service neptune-db \
  -X GET
```

**nota**  
Este exemplo pressupõe que suas AWS credenciais estejam configuradas em seu ambiente. {{us-east-1}}Substitua pela região do seu cluster Neptune.

------
#### [ curl ]

```
curl -s \
  "https://{{your-neptune-endpoint}}:{{port}}/ml/dataprocessing/{{(the job ID)}}" \
  | python -m json.tool
```

------

**Parâmetros para o status do trabalho `dataprocessing`**
+ **`id`**: (*obrigatório*) o identificador exclusivo do trabalho de processamento de dados.

  *Tipo*: string.
+ **`neptuneIamRoleArn`**— (*Opcional*) O ARN de uma função do IAM que fornece ao Neptune acesso aos recursos de IA e SageMaker Amazon S3.

  *Tipo*: string. *Observação*: deve estar listado no grupo de parâmetros do cluster de banco de dados ou ocorrerá um erro.

## Interromper um trabalho de processamento de dados usando o comando `dataprocessing` do Neptune ML
<a name="machine-learning-api-dataprocessing-stop-job"></a>

Um exemplo de comando `dataprocessing` do Neptune ML para interromper um trabalho tem a seguinte aparência:

------
#### [ AWS CLI ]

```
aws neptunedata cancel-ml-data-processing-job \
  --endpoint-url https://{{your-neptune-endpoint}}:{{port}} \
  --id "{{(the job ID)}}"
```

Para também limpar artefatos do Amazon S3:

```
aws neptunedata cancel-ml-data-processing-job \
  --endpoint-url https://{{your-neptune-endpoint}}:{{port}} \
  --id "{{(the job ID)}}" \
  --clean
```

Para obter mais informações, consulte [cancel-ml-data-processing-job](https://docs.aws.amazon.com/cli/latest/reference/neptunedata/cancel-ml-data-processing-job.html) na Referência de AWS CLI Comandos.

------
#### [ SDK ]

```
import boto3
from botocore.config import Config

client = boto3.client(
    'neptunedata',
    endpoint_url='https://{{your-neptune-endpoint}}:{{port}}',
    config=Config(read_timeout=None, retries={'total_max_attempts': 1})
)

response = client.cancel_ml_data_processing_job(
    id='{{(the job ID)}}',
    clean=True
)

print(response)
```

------
#### [ awscurl ]

```
awscurl https://{{your-neptune-endpoint}}:{{port}}/ml/dataprocessing/{{(the job ID)}} \
  --region {{us-east-1}} \
  --service neptune-db \
  -X DELETE
```

Para também limpar artefatos do Amazon S3:

```
awscurl "https://{{your-neptune-endpoint}}:{{port}}/ml/dataprocessing/{{(the job ID)}}?clean=true" \
  --region {{us-east-1}} \
  --service neptune-db \
  -X DELETE
```

**nota**  
Este exemplo pressupõe que suas AWS credenciais estejam configuradas em seu ambiente. {{us-east-1}}Substitua pela região do seu cluster Neptune.

------
#### [ curl ]

```
curl -s \
  -X DELETE "https://{{your-neptune-endpoint}}:{{port}}/ml/dataprocessing/{{(the job ID)}}"
```

Ou esta:

```
curl -s \
  -X DELETE "https://{{your-neptune-endpoint}}:{{port}}/ml/dataprocessing/{{(the job ID)}}?clean=true"
```

------

**Parâmetros para um trabalho de interrupção `dataprocessing`**
+ **`id`**: (*obrigatório*) o identificador exclusivo do trabalho de processamento de dados.

  *Tipo*: string.
+ **`neptuneIamRoleArn`**— (*Opcional*) O ARN de uma função do IAM que fornece ao Neptune acesso aos recursos de IA e SageMaker Amazon S3.

  *Tipo*: string. *Observação*: deve estar listado no grupo de parâmetros do cluster de banco de dados ou ocorrerá um erro.
+ **`clean`**: (*opcional*) esse sinalizador especifica que todos os artefatos do Amazon S3 devem ser excluídos quando o trabalho é interrompido.

  *Tipo*: booliano. *Padrão*: `FALSE`.

## Listar trabalhos de processamento de dados ativos usando o comando `dataprocessing` do Neptune ML
<a name="machine-learning-api-dataprocessing-list-jobs"></a>

Um exemplo de comando `dataprocessing` do Neptune ML para listar trabalhos ativos tem a seguinte aparência:

------
#### [ AWS CLI ]

```
aws neptunedata list-ml-data-processing-jobs \
  --endpoint-url https://{{your-neptune-endpoint}}:{{port}}
```

Para limitar o número de resultados:

```
aws neptunedata list-ml-data-processing-jobs \
  --endpoint-url https://{{your-neptune-endpoint}}:{{port}} \
  --max-items 3
```

Para obter mais informações, consulte [list-ml-data-processing-jobs](https://docs.aws.amazon.com/cli/latest/reference/neptunedata/list-ml-data-processing-jobs.html) na Referência de AWS CLI Comandos.

------
#### [ SDK ]

```
import boto3
from botocore.config import Config

client = boto3.client(
    'neptunedata',
    endpoint_url='https://{{your-neptune-endpoint}}:{{port}}',
    config=Config(read_timeout=None, retries={'total_max_attempts': 1})
)

response = client.list_ml_data_processing_jobs(
    maxItems=3
)

print(response)
```

------
#### [ awscurl ]

```
awscurl https://{{your-neptune-endpoint}}:{{port}}/ml/dataprocessing \
  --region {{us-east-1}} \
  --service neptune-db \
  -X GET
```

Para limitar o número de resultados:

```
awscurl "https://{{your-neptune-endpoint}}:{{port}}/ml/dataprocessing?maxItems=3" \
  --region {{us-east-1}} \
  --service neptune-db \
  -X GET
```

**nota**  
Este exemplo pressupõe que suas AWS credenciais estejam configuradas em seu ambiente. {{us-east-1}}Substitua pela região do seu cluster Neptune.

------
#### [ curl ]

```
curl -s "https://{{your-neptune-endpoint}}:{{port}}/ml/dataprocessing"
```

Ou esta:

```
curl -s "https://{{your-neptune-endpoint}}:{{port}}/ml/dataprocessing?maxItems=3"
```

------

**Parâmetros para trabalhos de lista `dataprocessing`**
+ **`maxItems`**: (*opcional*) o número máximo de itens a serem gerados.

  *Tipo*: número inteiro. *Padrão*: `10`. *Valor máximo permitido*: `1024`.
+ **`neptuneIamRoleArn`**— (*Opcional*) O ARN de uma função do IAM que fornece ao Neptune acesso aos recursos de IA e SageMaker Amazon S3.

  *Tipo*: string. *Observação*: deve estar listado no grupo de parâmetros do cluster de banco de dados ou ocorrerá um erro.