

# Trabajar con tareas de Ray en AWS Glue
<a name="ray-jobs-section"></a>

**importante**  
AWS Glue para Ray ya no estará disponible para nuevos clientes a partir del 30 de abril de 2026. Si desea utilizar AWS Glue para Ray, regístrese antes de esa fecha. Los clientes existentes pueden seguir utilizando el servicio con normalidad. Para obtener capacidades similares a AWS Glue para Ray, explore Amazon EKS. Para obtener más información, consulte [Finalización del soporte de AWS Glue para Ray](https://docs.aws.amazon.com/glue/latest/dg/awsglue-ray-jobs-availability-change.html).

En esta sección se proporciona información sobre el uso de AWS Glue para trabajos de Ray. Para obtener más información sobre cómo escribir scripts de AWS Glue para Ray, consulte la sección [Programación de scripts de Ray](aws-glue-programming-ray.md).

**Topics**
+ [Introducción a AWS Glue para Ray](#author-job-ray-using)
+ [Entornos de tiempo de ejecución de Ray compatibles](#author-job-ray-runtimes)
+ [Contabilidad de los trabajadores en los trabajos de Ray](#author-job-ray-worker-accounting)
+ [Uso de los parámetros de trabajo en los trabajos de Ray](author-job-ray-job-parameters.md)
+ [Supervisión de trabajos de Ray con métricas](author-job-ray-monitor.md)

## Introducción a AWS Glue para Ray
<a name="author-job-ray-using"></a>

Para trabajar con AWS Glue para Ray, se utilizan los mismos trabajos de AWS Glue y las mismas sesiones interactivas que se usan con AWS Glue para Spark. Los trabajos de AWS Glue están diseñados para ejecutar el mismo script de forma periódica, mientras que las sesiones interactivas están diseñadas para permitir ejecutar fragmentos de código de forma secuencial con los mismos recursos aprovisionados. 

AWS Glue ETL y Ray son diferentes en el fondo, por lo que en el script tendrá acceso a diferentes herramientas, características y configuraciones. Como nuevo marco de cálculo administrado por AWS Glue, Ray tiene una arquitectura diferente y usa un vocabulario diferente para describir lo que hace. Para más información, consulte [Architecture Whitepapers](https://docs.ray.io/en/latest/ray-contribute/whitepaper.html) (Documentos técnicos sobre la arquitectura) en la documentación sobre Ray. 

**nota**  
AWS Glue para Ray está disponible en el Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Oregón), Asia Pacífico (Tokio) y Europa (Irlanda).

### Trabajos de Ray en la consola de AWS Glue Studio
<a name="author-job-ray-using-console"></a>

En la página **Trabajos** de la consola de AWS Glue Studio, puede seleccionar una nueva opción al crear un trabajo en el **editor de scripts AWS Glue Studio Ray**. Seleccione esta opción para crear un trabajo de Ray en la consola. Para más información sobre los trabajos y cómo se utilizan, consulte [Creación de trabajos de ETL visual](author-job-glue.md).

![\[La página Trabajos en AWS Glue Studio con la opción del editor de scripts de Ray seleccionada.\]](http://docs.aws.amazon.com/es_es/glue/latest/dg/images/ray_job_setup.png)


### Trabajos de Ray en la AWS CLI y SDK
<a name="author-job-ray-using-cli"></a>

Los trabajos de Ray en la AWS CLI utilizan las mismas acciones y parámetros del SDK que los demás trabajos. AWS Glue para Ray introduce nuevos valores para determinados parámetros. Para más información sobre la API de trabajos, consulte [Jobs](aws-glue-api-jobs-job.md).

## Entornos de tiempo de ejecución de Ray compatibles
<a name="author-job-ray-runtimes"></a>

En los trabajos de Spark, `GlueVersion` determina las versiones de Apache Spark y Python disponibles en un trabajo de AWS Glue para Spark. La versión de Python indica la versión admitida para trabajos de tipo Spark. No es así como se configuran los entornos de tiempo de ejecución de Ray.

Para los trabajos de Ray, debe configurar `GlueVersion` en `4.0` o superior. Sin embargo, las versiones de Ray, Python y bibliotecas adicionales que están disponibles en el trabajo de Ray vienen determinadas por el campo `Runtime` de la definición del trabajo.

El entorno de tiempo de ejecución de `Ray2.4` estará disponible durante un mínimo de 6 meses después del lanzamiento. A medida que Ray evolucione rápidamente, podrá incorporar actualizaciones y mejoras de Ray en futuras versiones del entorno de tiempo de ejecución.

Valores válidos: -.: `Ray2.4`


| Valor de tiempo de ejecución | Versiones de Ray y Python | 
| --- | --- | 
| Ray2.4 (para AWS Glue 4.0\$1) |  Ray 2.4.0 Python 3.9  | 

**Información adicional**
+ Para ver las notas de la versión que acompañan a las versiones de AWS Glue para Ray, consulte [AWS GlueVersiones de](release-notes.md#release-notes-versions).
+ Para ver las bibliotecas de Python que se proporcionan en un entorno de tiempo de ejecución, consulte [Módulos incluidos con los trabajos de Ray](edit-script-ray-env-dependencies.md#edit-script-ray-modules-provided).

## Contabilidad de los trabajadores en los trabajos de Ray
<a name="author-job-ray-worker-accounting"></a>

AWS Glue ejecuta los trabajos de Ray en los nuevos tipos de trabajadores de EC2 basados en Graviton, que solo están disponibles para los trabajos de Ray. Para aprovisionar adecuadamente a estos trabajadores para las cargas de trabajo para las que Ray está diseñado, ofrecemos una proporción diferente entre los recursos de cómputo y los recursos de memoria que la mayoría de los trabajadores. Para tener en cuenta estos recursos, utilizamos la unidad de procesamiento de datos optimizada para la memoria (M-DPU) en lugar de la unidad de procesamiento de datos (DPU) estándar.
+ Una M-DPU corresponde a 4 vCPU y 32 GB de memoria.
+ Una DPU corresponde a 4 vCPU y 16 GB de memoria. Las DPU se utilizan para contabilizar los recursos en AWS Glue con los trabajos de Spark y los trabajadores correspondientes.

Actualmente, los trabajos de Ray tienen acceso a un tipo de trabajador, `Z.2X`. El trabajador `Z.2X` se asigna a 2 M-DPU (8 vCPU, 64 GB de memoria) y tiene 128 GB de espacio en disco. Una máquina `Z.2X` proporciona 8 trabajadores de Ray (uno por vCPU).

La cantidad de M-DPU que puede utilizar simultáneamente en una cuenta está sujeta a una cuota de servicio. Para más información acerca de los límites de su cuenta de AWS Glue, consulte [Puntos de conexión y cuotas de AWS Glue](https://docs.aws.amazon.com/general/latest/gr/glue.html).

La cantidad de nodos de trabajo que están disponibles para un trabajo de Ray con `--number-of-workers (NumberOfWorkers)` se especifica en la definición de trabajo. Para obtener más información acerca de los valores Ray en la API de trabajos, consulte [Jobs](aws-glue-api-jobs-job.md).

También puede especificar un número mínimo de trabajadores que un trabajo de Ray debe asignar con el parámetro de trabajo de `--min-workers`. Para obtener más información acerca de la configuración de parámetros de trabajos, consulte [Referencia](author-job-ray-job-parameters.md#author-job-ray-parameters-reference). 

# Uso de los parámetros de trabajo en los trabajos de Ray
<a name="author-job-ray-job-parameters"></a>

**importante**  
AWS Glue para Ray ya no estará disponible para nuevos clientes a partir del 30 de abril de 2026. Si desea utilizar AWS Glue para Ray, regístrese antes de esa fecha. Los clientes existentes pueden seguir utilizando el servicio con normalidad. Para obtener capacidades similares a AWS Glue para Ray, explore Amazon EKS. Para obtener más información, consulte [Finalización del soporte de AWS Glue para Ray](https://docs.aws.amazon.com/glue/latest/dg/awsglue-ray-jobs-availability-change.html).

Establece los argumentos para los trabajos de Ray AWS Glue de la misma manera que establece los argumentos para AWS Glue para los trabajos de Spark. Para obtener más información sobre la API de AWS Glue, consulte [Jobs](aws-glue-api-jobs-job.md). Puede configurar los trabajos de Ray AWS Glue con diferentes argumentos, que se enumeran en esta referencia. También puede presentar sus propios argumentos. 

Puede configurar un trabajo en la consola, en la pestaña **Job details** (Detalles del trabajo), en el encabezado **Job Parameters** (Parámetros del trabajo). También puede configurar un trabajo mediante la AWS CLI al establecer `DefaultArguments` en un trabajo o `Arguments` en una ejecución de trabajos. Los parámetros de los trabajos y los argumentos predeterminados permanecerán con el trabajo durante varias ejecuciones. 

Por ejemplo, a continuación se muestra la sintaxis para ejecutar un trabajo con `--arguments` para configurar un parámetro especial.

```
$ aws glue start-job-run --job-name "CSV to CSV" --arguments='--scriptLocation="s3://my_glue/libraries/test_lib.py",--test-environment="true"'
```

Después de establecer los argumentos, puede acceder a los parámetros del trabajo desde su trabajo de Ray mediante variables de entorno. Esto permite configurar el trabajo para cada ejecución. El nombre de la variable de entorno será el nombre del argumento del trabajo sin el prefijo `--`. 

Por ejemplo, en el anterior, los nombres de las variables serían `scriptLocation` y `test-environment`. Luego, recuperaría el argumento mediante los métodos disponibles en la biblioteca estándar: `test_environment = os.environ.get('test-environment')`. Para más información sobre el acceso a las variables de entorno con Python, consulte [módulo del sistema operativo](https://docs.python.org/3/library/os.html) en la documentación de Python.

## Configure la forma en que los trabajos de Ray generan registros
<a name="author-job-ray-logging-configuration"></a>

De forma predeterminada, los trabajos de Ray generan registros y métricas que se envían a CloudWatch y Amazon S3. Puede usar el parámetro `--logging_configuration` para modificar la forma en que se generan los registros; actualmente, puede usarlo para evitar que los trabajos de Ray generen varios tipos de registros. Este parámetro toma un objeto JSON, cuyas claves corresponden a los registros o comportamientos que desea modificar. Admite las siguientes claves:
+ `CLOUDWATCH_METRICS`: configura las series de métricas de CloudWatch que se pueden usar para visualizar el estado del trabajo. Para obtener más información sobre las métricas, consulte [Supervisión de trabajos de Ray con métricas](author-job-ray-monitor.md).
+ `CLOUDWATCH_LOGS`: configura los registros de CloudWatch que proporcionan detalles a nivel de aplicación de Ray acerca del estado de ejecución del trabajo. Para obtener más información acerca de los logs, consulte [Solución de problemas AWS Glue de errores de Ray en los registros](troubleshooting-ray.md).
+ `S3`: configura lo que AWS Glue escribe en Amazon S3, principalmente información similar a la de los registros de CloudWatch, pero como archivos y no como flujos de registros.

Para deshabilitar un comportamiento de registro de Ray, indique el valor `{\"IS_ENABLED\": \"False\"}`. Por ejemplo, para deshabilitar las métricas y los registros de CloudWatch, proporcione la siguiente configuración:

```
"--logging_configuration": "{\"CLOUDWATCH_METRICS\": {\"IS_ENABLED\": \"False\"}, \"CLOUDWATCH_LOGS\": {\"IS_ENABLED\": \"False\"}}"
```

## Referencia
<a name="author-job-ray-parameters-reference"></a>

 Los trabajos de Ray reconocen los siguientes nombres de argumentos que se pueden usar para configurar el entorno de scripts para los trabajos de Ray y las ejecuciones de trabajos:
+ `--logging_configuration`: se usa para detener la generación de varios registros creados por trabajos de Ray. Estos registros se generan de forma predeterminada en todos los trabajos de Ray. Formato: objeto JSON incluido en una cadena de escape. Para obtener más información, consulte [Configure la forma en que los trabajos de Ray generan registros](#author-job-ray-logging-configuration).
+ `--min-workers`: la cantidad mínima de nodos de trabajo que se asignan a un trabajo de Ray. Un nodo de trabajo puede ejecutar varias réplicas, una por CPU virtual. Formato: entero. Mínimo: 0. Máximo: valor especificado en `--number-of-workers (NumberOfWorkers)` en la definición del trabajo. Para obtener más información sobre la contabilidad de los nodos de trabajo, consulte [Contabilidad de los trabajadores en los trabajos de Ray](ray-jobs-section.md#author-job-ray-worker-accounting).
+ `--object_spilling_config`: AWS Glue porque Ray admite el uso de Amazon S3 como una forma de ampliar el espacio disponible para el almacén de objetos de Ray. Para habilitar este comportamiento, puede proporcionar a Ray un *objeto* que vuelque un objeto de configuración de JSON con este parámetro. Para obtener más información sobre la configuración de volcado de objetos de Ray, consulte [Derrame de objetos](https://docs.ray.io/en/latest/ray-core/objects/object-spilling.html) en la documentación de Ray. Formato: objeto JSON.

  AWS Glue para Ray solo admite el volcado en el disco o en Amazon S3 a la vez. Puede proporcionar varios lugares para el volcado, siempre y cuando respeten esta limitación. Cuando vuelque a Amazon S3, también necesitará agregar permisos de IAM al trabajo para este bucket.

  Al proporcionar un objeto JSON como configuración con la CLI, debe proporcionarlo como una cadena, con el objeto JSON incluido en una cadena de escape. Por ejemplo, un valor de cadena para volcar en una ruta de Amazon S3 tendría el siguiente aspecto: `"{\"type\": \"smart_open\", \"params\": {\"uri\":\"s3path\"}}"`. En AWS Glue Studio, proporcione este parámetro como un objeto JSON sin formato adicional. 
+ `--object_store_memory_head`: la memoria asignada al almacén de objetos de Plasma en el nodo principal de Ray. Esta instancia ejecuta servicios de administración de clústeres, así como réplicas de procesos de trabajo. El valor representa un porcentaje de memoria libre en la instancia después de un inicio en caliente. Este parámetro se utiliza para ajustar las cargas de trabajo de uso intensivo de la memoria. Los valores predeterminados son aceptables para la mayoría de los casos de uso. Formato: entero positivo. Mínimo: 1. Máximo: 100.

  Para más información sobre Plasma, consulte [The Plasma In-Memory Object Store](https://ray-project.github.io/2017/08/08/plasma-in-memory-object-store.html) (Almacén de objetos en memoria de Plasma) en la documentación de Ray.
+ `--object_store_memory_worker`: memoria asignada al almacén de objetos de Plasma en los nodos de trabajo de Ray. Estas instancias solo ejecutan réplicas de procesos de trabajo. El valor representa un porcentaje de memoria libre en la instancia después de un inicio en caliente. Este parámetro se utiliza para ajustar las cargas de trabajo de uso intensivo de la memoria. Los valores predeterminados son aceptables para la mayoría de los casos de uso. Formato: entero positivo. Mínimo: 1. Máximo: 100.

  Para más información sobre Plasma, consulte [The Plasma In-Memory Object Store](https://ray-project.github.io/2017/08/08/plasma-in-memory-object-store.html) (Almacén de objetos en memoria de Plasma) en la documentación de Ray.
+ `--pip-install`: un conjunto de paquetes de Python para instalar. Puede instalar paquetes desde PyPI con este argumento. Formato: lista delimitada por comas.

  Una entrada de paquete de PyPI tiene el formato `package==version`, con el nombre y la versión de PyPI del paquete de destino. Las entradas utilizan la coincidencia de versiones de Python para hacer coincidir el paquete y la versión, como `==`, no la igualdad simple `=`. Hay otros operadores de coincidencia de versión. Para más información, consulte [PEP 440](https://peps.python.org/pep-0440/#version-matching) en el sitio web de Python. También puede proporcionar módulos personalizados con `--s3-py-modules`. 
+ `--s3-py-modules`: un conjunto de rutas de Amazon S3 que alojan distribuciones de módulos de Python. Formato: lista delimitada por comas.

  Puede usar esto para distribuir sus propios módulos en el trabajo de Ray. También puede proporcionar módulos desde PyPI con `--pip-install`. A diferencia de ETL de AWS Glue, los módulos personalizados no se configuran mediante pip, sino que se pasan a Ray para ser distribuidos. Para obtener más información, consulte [Módulos de Python adicionales para trabajos de Ray](edit-script-ray-env-dependencies.md#edit-script-ray-python-libraries-additional).
+ `--working-dir`: una ruta a un archivo .zip alojado en Amazon S3 que contiene archivos que se van a distribuir a todos los nodos que ejecutan el trabajo de Ray. Formato: cadena. Para obtener más información, consulte [Proporcionar archivos a su trabajo de Ray](edit-script-ray-env-dependencies.md#edit-script-ray-working-directory).

# Supervisión de trabajos de Ray con métricas
<a name="author-job-ray-monitor"></a>

**importante**  
AWS Glue para Ray ya no estará disponible para nuevos clientes a partir del 30 de abril de 2026. Si desea utilizar AWS Glue para Ray, regístrese antes de esa fecha. Los clientes existentes pueden seguir utilizando el servicio con normalidad. Para obtener capacidades similares a AWS Glue para Ray, explore Amazon EKS. Para obtener más información, consulte [Finalización del soporte de AWS Glue para Ray](https://docs.aws.amazon.com/glue/latest/dg/awsglue-ray-jobs-availability-change.html).

Puede supervisar los trabajos de Ray mediante AWS Glue Studio y Amazon CloudWatch. CloudWatch recopila y procesa las métricas sin formato desde AWS Glue con Ray, lo que las hace disponibles para el análisis. Estas métricas se visualizan en la consola de AWS Glue Studio, por lo que puede supervisar el trabajo a medida que se ejecuta.

Para obtener información general sobre cómo supervisar AWS Glue, consulte [Supervisión de AWS Glue con métricas de Amazon CloudWatch](monitoring-awsglue-with-cloudwatch-metrics.md). Para obtener una descripción general de cómo utilizar las métricas de CloudWatch publicadas por AWS Glue, consulte [Supervisión con Amazon CloudWatch](monitor-cloudwatch.md).

## Supervisión de los trabajos de Ray en la consola de AWS Glue
<a name="author-job-ray-monitor-console"></a>

En la página de detalles para una ejecución de trabajo, debajo de la sección **Detalles de ejecución**, puede consultar los gráficos agregados prediseñados que visualizan las métricas de trabajo disponibles. AWS Glue Studio envía las métricas del trabajo a CloudWatch para cada ejecución de trabajo. Con ellas, puede crear un perfil del clúster y las tareas y acceder a información detallada sobre cada nodo.

Para obtener más información sobre los gráficos de métricas disponibles, consulte [Visualización de métricas de Amazon CloudWatch para una ejecución de trabajo de Ray](view-job-runs.md#monitoring-job-run-metrics-ray).

## Información general de las métricas de trabajos de Ray en CloudWatch
<a name="author-job-ray-monitor-cw"></a>

Publicamos las métricas de Ray cuando la supervisión detallada está habilitada en CloudWatch. Las métricas se publican en el espacio de nombres de CloudWatch `Glue/Ray`.
+ **Métricas de la instancia**

  Publicamos métricas acerca del uso de la CPU, la memoria y el disco de las instancias asignadas a un trabajo. Estas métricas se identifican mediante características como `ExecutorId`, `ExecutorType` y `host`. Estas métricas son un subconjunto de las métricas estándar de los agentes de CloudWatch de Linux. Puede encontrar información sobre los nombres y características de las métricas en la documentación de CloudWatch. Para más información, consulte [Métricas que el agente de CloudWatch ha recopilado](https://docs.aws.amazon.com//AmazonCloudWatch/latest/monitoring/metrics-collected-by-CloudWatch-agent.html).
+ **Métricas del clúster de Ray**

  Reenviamos las métricas de los procesos de Ray que ejecutan el script en este espacio de nombres, luego proporcionamos los más críticos. Las métricas disponibles pueden diferir según la versión de Ray. Para más información sobre qué versión de Ray está en ejecución en su trabajo, consulte [AWS GlueVersiones de](release-notes.md). 

  Ray recopila métricas al nivel de instancia. También proporciona métricas para las tareas y el clúster. Para obtener más información sobre la estrategia de métricas subyacente de Ray, consulte [Métricas](https://docs.ray.io/en/latest/ray-observability/ray-metrics.html#system-metrics) en la documentación de Ray.

**nota**  
 No publicamos las métricas de Ray en el espacio de nombres de `Glue/Job Metrics/`, que solo se usa para trabajos de ETL de AWS Glue.