

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Travailler avec Ray Jobs dans AWS Glue
<a name="ray-jobs-section"></a>

**Important**  
AWS Glue for Ray ne sera plus ouvert aux nouveaux clients à compter du 30 avril 2026. Si vous souhaitez utiliser AWS Glue for Ray, inscrivez-vous avant cette date. Les clients existants peuvent continuer à utiliser le service normalement. Pour des fonctionnalités similaires à celles de AWS Glue for Ray, explorez Amazon EKS. Pour plus d'informations, consultez la section [AWS Glue relative à la fin du support de Ray](https://docs.aws.amazon.com/glue/latest/dg/awsglue-ray-jobs-availability-change.html).

Cette section fournit des informations sur l'utilisation AWS Glue des tâches For Ray. Pour plus d'informations sur l'écriture de scripts AWS Glue pour Ray, consultez la [Programmation de scripts Ray](aws-glue-programming-ray.md) section.

**Topics**
+ [Commencer avec AWS Glue For Ray](#author-job-ray-using)
+ [Environnements d'exécution Ray pris en charge](#author-job-ray-runtimes)
+ [Comptabilité pour les travailleurs dans les tâches Ray](#author-job-ray-worker-accounting)
+ [Utilisation des paramètres de tâche dans les tâches Ray](author-job-ray-job-parameters.md)
+ [Surveiller les tâches Ray à l'aide de métriques](author-job-ray-monitor.md)

## Commencer avec AWS Glue For Ray
<a name="author-job-ray-using"></a>

Pour travailler avec AWS Glue for Ray, vous utilisez les mêmes AWS Glue tâches et sessions interactives que AWS Glue pour Spark. AWS Glue les tâches sont conçues pour exécuter le même script à une cadence récurrente, tandis que les sessions interactives sont conçues pour vous permettre d'exécuter des extraits de code de manière séquentielle sur les mêmes ressources provisionnées. 

AWS Glue ETL et Ray sont différents en dessous, donc dans votre script, vous avez accès à différents outils, fonctionnalités et configurations. En tant que nouveau framework de calcul géré par AWS Glue, Ray possède une architecture différente et utilise un vocabulaire différent pour décrire ce qu'il fait. Pour plus d'informations, consultez les [livres blancs sur l'architecture](https://docs.ray.io/en/latest/ray-contribute/whitepaper.html) de la documentation Ray. 

**Note**  
AWS Glue for Ray est disponible dans l'est des États-Unis (Virginie du Nord), dans l'est des États-Unis (Ohio), dans l'ouest des États-Unis (Oregon), en Asie-Pacifique (Tokyo) et en Europe (Irlande).

### Ray Jobs dans la AWS Glue Studio console
<a name="author-job-ray-using-console"></a>

Sur la **page** Tâches de la AWS Glue Studio console, vous pouvez sélectionner une nouvelle option lorsque vous créez une tâche dans AWS Glue Studio l'**éditeur de script Ray**. Choisissez cette option pour créer une tâche Ray sur la console. Pour plus d'informations sur ces tâches et leur utilisation, consultez [Création de tâches ETL visuelles](author-job-glue.md).

![\[La page Jobs AWS Glue Studio apparaît avec l'option Ray Script editor sélectionnée.\]](http://docs.aws.amazon.com/fr_fr/glue/latest/dg/images/ray_job_setup.png)


### Offres d'emploi Ray dans le SDK AWS CLI et
<a name="author-job-ray-using-cli"></a>

Les tâches Ray AWS CLI utilisent les mêmes actions et paramètres du SDK que les autres tâches. AWS Glue for Ray introduit de nouvelles valeurs pour certains paramètres. Pour plus d'informations sur l'API Tâches, consultez [Tâches](aws-glue-api-jobs-job.md).

## Environnements d'exécution Ray pris en charge
<a name="author-job-ray-runtimes"></a>

Dans les tâches Spark, `GlueVersion` détermine les versions d'Apache Spark et de Python disponibles dans une tâche AWS Glue pour Spark. La version de Python indique la version qui est prise en charge pour les tâches de type Spark. Les environnements d'exécution Ray ne sont pas configurés de cette manière.

Pour les tâches Ray vous devez définir `GlueVersion` sur `4.0` ou supérieur. Toutefois, les versions de Ray, de Python et des bibliothèques supplémentaires disponibles dans votre tâche Ray sont déterminées par le champ `Runtime` de la définition de la tâche.

L'environnement d'exécution `Ray2.4` sera disponible pendant au moins six mois après sa sortie. Au fur et à mesure de l'évolution rapide de Ray, vous pourrez intégrer les mises à jour et les améliorations de Ray dans les futures versions de l'environnement d'exécution.

Valeurs valides : `Ray2.4`


| Valeur d'exécution | Versions Ray et Python | 
| --- | --- | 
| Ray2.4 (pour la version 4.0 et ultérieure de AWS Glue) |  Ray 2.4.0 Python 3.9  | 

**Informations supplémentaires**
+ Pour les notes de publication qui accompagnent AWS Glue les versions de Ray, voir[AWS Glue versions](release-notes.md#release-notes-versions).
+ Pour les bibliothèques Python fournies dans un environnement d'exécution, consultez [Modules fournis avec les tâches Ray](edit-script-ray-env-dependencies.md#edit-script-ray-modules-provided).

## Comptabilité pour les travailleurs dans les tâches Ray
<a name="author-job-ray-worker-accounting"></a>

AWS Glue exécute des tâches Ray sur de nouveaux types de travailleurs EC2 basés sur Graviton, qui ne sont disponibles que pour les tâches Ray. Afin de bien approvisionner ces travailleurs pour les charges de travail pour lesquelles Ray est conçu, nous fournissons un rapport différent entre les ressources de calcul et les ressources de mémoire de la plupart des travailleurs. Afin de tenir compte de ces ressources, nous utilisons l'unité de traitement des données à mémoire optimisée (M-DPU) plutôt que l'unité de traitement de données standard (DPU).
+ Un M-DPU correspond à 4 V CPUs et à 32 Go de mémoire.
+ Un DPU correspond à 4 V CPUs et 16 Go de mémoire. DPUs sont utilisés pour prendre en compte les ressources dans AWS Glue les tâches Spark et les travailleurs correspondants.

Les tâches Ray ont actuellement accès à un type de travailleur : `Z.2X`. Le `Z.2X` worker correspond à 2 M- DPUs (8 VCPUs, 64 Go de mémoire) et dispose de 128 Go d'espace disque. Une machine `Z.2X` fournit huit travailleurs Ray (un par vCPU).

Le nombre de M- DPUs que vous pouvez utiliser simultanément dans un compte est soumis à un quota de service. Pour plus d'informations sur les limites de votre AWS Glue compte, consultez la section [AWS Glue Points de terminaison et quotas](https://docs.aws.amazon.com/general/latest/gr/glue.html).

Vous indiquez le nombre de composants master disponibles pour une tâche Ray avec `--number-of-workers (NumberOfWorkers)` dans la définition de la tâche. Pour plus d'informations sur les valeurs Ray dans l'API Tâches, consultez [Tâches](aws-glue-api-jobs-job.md).

Vous pouvez également indiquer le nombre minimum de travailleurs qu'une tâche Ray doit allouer avec le paramètre de tâche `--min-workers`. Pour de plus amples informations sur la définition des paramètres de la tâche, consultez [Référence](author-job-ray-job-parameters.md#author-job-ray-parameters-reference). 

# Utilisation des paramètres de tâche dans les tâches Ray
<a name="author-job-ray-job-parameters"></a>

**Important**  
AWS Glue for Ray ne sera plus ouvert aux nouveaux clients à compter du 30 avril 2026. Si vous souhaitez utiliser AWS Glue for Ray, inscrivez-vous avant cette date. Les clients existants peuvent continuer à utiliser le service normalement. Pour des fonctionnalités similaires à celles de AWS Glue for Ray, explorez Amazon EKS. Pour plus d'informations, consultez la section [AWS Glue relative à la fin du support de Ray](https://docs.aws.amazon.com/glue/latest/dg/awsglue-ray-jobs-availability-change.html).

Vous définissez les arguments pour les tâches AWS Glue Ray de la même manière que AWS Glue pour les tâches Spark. Pour plus d'informations sur l' AWS Glue API, consultez[Tâches](aws-glue-api-jobs-job.md). Vous pouvez configurer les tâches AWS Glue Ray avec différents arguments, qui sont répertoriés dans cette référence. Vous pouvez également fournir vos propres arguments. 

Vous pouvez configurer une tâche via la console, dans l'onglet **Job details** (Détails de la tâche), sous **Job Parameters** (Paramètres de la tâche). Vous pouvez également configurer une tâche AWS CLI par le biais du paramètre `DefaultArguments` sur une tâche ou `Arguments` sur une exécution de tâche. Les arguments par défaut et les paramètres de la tâche restent associés à la tâche au fil des exécutions. 

Par exemple, ce qui suit est la syntaxe pour exécuter une tâche en utilisant `--arguments` pour définir un paramètre spécial.

```
$ aws glue start-job-run --job-name "CSV to CSV" --arguments='--scriptLocation="s3://my_glue/libraries/test_lib.py",--test-environment="true"'
```

Après avoir défini les arguments, vous pouvez accéder aux paramètres de la tâche depuis votre tâche Ray via des variables d'environnement. Vous pouvez ainsi configurer votre tâche pour chaque exécution. Le nom de la variable d'environnement correspond au nom de l'argument de la tâche sans le préfixe `--`. 

Par exemple, dans l'exemple précédent, les noms des variables sont `scriptLocation` et `test-environment`. Vous pouvez ensuite récupérer l'argument via les méthodes disponibles dans la bibliothèque standard : `test_environment = os.environ.get('test-environment')`. Pour plus d'informations sur l'accès aux variables d'environnement avec Python, consultez le [module os](https://docs.python.org/3/library/os.html) dans la documentation Python.

## Configuration de la façon dont les tâches Ray génèrent des journaux
<a name="author-job-ray-logging-configuration"></a>

Par défaut, les tâches Ray génèrent des journaux et des métriques qui sont envoyés à CloudWatch Amazon S3. Vous pouvez utiliser le paramètre `--logging_configuration` pour modifier la façon dont les journaux sont générés. Vous pouvez actuellement l’utiliser pour empêcher les tâches Ray de générer différents types de journaux. Ce paramètre prend un objet JSON dont les clés correspondent à celles que logs/behaviors vous souhaitez modifier. Il prend en charge les clés suivantes :
+ `CLOUDWATCH_METRICS`— Configure des séries de CloudWatch métriques qui peuvent être utilisées pour visualiser l'état de santé au travail. Pour plus d'informations sur les métriques, consultez la section [Surveiller les tâches Ray à l'aide de métriques](author-job-ray-monitor.md).
+ `CLOUDWATCH_LOGS`— Configure les CloudWatch journaux qui fournissent des informations détaillées au niveau de l'application Ray sur l'état d'exécution de la tâche. Pour de plus amples informations sur les journaux, veuillez consulter [Résolution AWS Glue des erreurs Ray liées aux journaux](troubleshooting-ray.md).
+ `S3`— Configure ce qui est AWS Glue écrit sur Amazon S3, principalement des informations similaires aux CloudWatch journaux, mais sous forme de fichiers plutôt que de flux de journaux.

Pour désactiver un comportement de journalisation de Ray, indiquez la valeur `{\"IS_ENABLED\": \"False\"}`. Par exemple, pour désactiver CloudWatch les métriques et CloudWatch les journaux, fournissez la configuration suivante :

```
"--logging_configuration": "{\"CLOUDWATCH_METRICS\": {\"IS_ENABLED\": \"False\"}, \"CLOUDWATCH_LOGS\": {\"IS_ENABLED\": \"False\"}}"
```

## Référence
<a name="author-job-ray-parameters-reference"></a>

 Les tâches Ray reconnaissent les noms d'arguments suivants que vous pouvez utiliser afin de configurer l'environnement de script pour vos tâches Ray et vos exécutions de tâche :
+ `--logging_configuration` : utilisé pour arrêter la génération de divers journaux créés par les tâches Ray. Ces journaux sont générés par défaut pour toutes les tâches Ray. Format : objet JSON en séquence d’échappement. Pour de plus amples informations, veuillez consulter [Configuration de la façon dont les tâches Ray génèrent des journaux](#author-job-ray-logging-configuration).
+ `--min-workers` : nombre minimum de composants master alloués à une tâche Ray. Un composant master peut exécuter plusieurs réplicas, un par processeur virtuel. Format : nombre entier. Minimum : 0. Maximum : valeur spécifiée dans `--number-of-workers (NumberOfWorkers)`, dans la définition de la tâche. Pour plus d'informations sur la comptabilisation des composants master, consultez [Comptabilité pour les travailleurs dans les tâches Ray](ray-jobs-section.md#author-job-ray-worker-accounting).
+ `--object_spilling_config`— AWS Glue for Ray prend en charge l'utilisation d'Amazon S3 pour étendre l'espace disponible dans le magasin d'objets de Ray. Pour activer ce comportement, vous pouvez fournir à Ray un objet de configuration JSON pour le *déversement d'objets* avec ce paramètre. Pour plus d'informations sur la configuration du déversement d'objets dans Ray, consulter [Object Spilling](https://docs.ray.io/en/latest/ray-core/objects/object-spilling.html) dans la documentation Ray. Format : objet JSON.

  AWS Glue for Ray ne prend en charge que le déversement sur le disque ou le déversement sur Amazon S3 en une seule fois. Vous pouvez indiquer plusieurs emplacements pour le déversement, à condition qu'ils respectent cette limite. Lors du déversement sur Amazon S3, vous devez également ajouter des autorisations IAM à votre tâche pour ce compartiment.

  Lorsque vous fournissez un objet JSON en tant que configuration avec la CLI, vous devez le fournir sous forme de chaîne, avec la chaîne de l'objet JSON échappée. Par exemple, une valeur de chaîne pour le déversement vers un chemin Amazon S3 ressemblerait à ce qui suit : `"{\"type\": \"smart_open\", \"params\": {\"uri\":\"s3path\"}}"`. Dans AWS Glue Studio, fournissez ce paramètre sous forme d'objet JSON sans mise en forme supplémentaire. 
+ `--object_store_memory_head` : mémoire allouée au magasin d'objets Plasma sur le nœud principal Ray. Cette instance exécute des services de gestion de clusters, ainsi que des réplicas de travail. La valeur représente un pourcentage de mémoire disponible sur l'instance après un démarrage à chaud. Vous utilisez ce paramètre pour régler les charges de travail gourmandes en mémoire. Les valeurs par défaut sont acceptables pour la plupart des cas d'utilisation. Format : entier positif. Minimum : 1. Maximum : 100.

  Pour plus d'informations sur Plasma, consultez [The Plasma In-Memory Object Store](https://ray-project.github.io/2017/08/08/plasma-in-memory-object-store.html) (Le magasin d'objets en mémoire Plasma) dans la documentation Ray.
+ `--object_store_memory_worker` : mémoire allouée au magasin d'objets Plasma sur les composants master Ray. Ces instances exécutent uniquement des réplicas de travail. La valeur représente un pourcentage de mémoire disponible sur l’instance après un démarrage à chaud. Ce paramètre est utilisé pour régler les charges de travail gourmandes en mémoire. Les valeurs par défaut sont acceptables pour la plupart des cas d'utilisation. Format : entier positif. Minimum : 1. Maximum : 100.

  Pour plus d’informations sur Plasma, consultez [The Plasma In-Memory Object Store](https://ray-project.github.io/2017/08/08/plasma-in-memory-object-store.html) (Le magasin d’objets en mémoire Plasma) dans la documentation Ray.
+ `--pip-install` : ensemble de packages Python à installer. Vous pouvez installer des packages depuis PyPI en utilisant cet argument. Format : liste délimitée par des virgules.

  Une entrée de package PyPI est au format `package==version`, avec le nom PyPI et la version de votre package cible. Les entrées utilisent la correspondance entre versions de Python pour faire correspondre le package et la version, comme `==` et non le signe `=` seul. Il existe d'autres opérateurs de mise en correspondance des versions. Pour plus d'informations, consultez [PEP 440](https://peps.python.org/pep-0440/#version-matching) sur le site Internet de Python. Vous pouvez également fournir des modules personnalisés avec `--s3-py-modules`. 
+ `--s3-py-modules` : un ensemble de chemins Amazon S3 qui hébergent des distributions de modules Python. Format : liste délimitée par des virgules.

  Vous pouvez l'utiliser pour distribuer vos propres modules à votre tâche Ray. Vous pouvez également fournir des modules à partir de PyPI avec `--pip-install`. Contrairement à l' AWS Glue ETL, les modules personnalisés ne sont pas configurés via pip, mais sont transmis à Ray pour distribution. Pour de plus amples informations, veuillez consulter [Modules Python supplémentaires pour les tâches Ray](edit-script-ray-env-dependencies.md#edit-script-ray-python-libraries-additional).
+ `--working-dir` : un chemin d'accès à un fichier .zip hébergé sur Amazon S3 contenant les fichiers à distribuer à tous les nœuds exécutant votre tâche Ray. Format : chaîne. Pour de plus amples informations, veuillez consulter [Fournir des fichiers à votre tâche Ray](edit-script-ray-env-dependencies.md#edit-script-ray-working-directory).

# Surveiller les tâches Ray à l'aide de métriques
<a name="author-job-ray-monitor"></a>

**Important**  
AWS Glue for Ray ne sera plus ouvert aux nouveaux clients à compter du 30 avril 2026. Si vous souhaitez utiliser AWS Glue for Ray, inscrivez-vous avant cette date. Les clients existants peuvent continuer à utiliser le service normalement. Pour des fonctionnalités similaires à celles de AWS Glue for Ray, explorez Amazon EKS. Pour plus d'informations, consultez la section [AWS Glue relative à la fin du support de Ray](https://docs.aws.amazon.com/glue/latest/dg/awsglue-ray-jobs-availability-change.html).

Vous pouvez suivre les jobs de Ray à l'aide AWS Glue Studio d'Amazon CloudWatch. CloudWatch collecte et traite les métriques brutes issues AWS Glue de Ray, ce qui les rend disponibles pour analyse. Ces mesures sont visualisées dans la AWS Glue Studio console, afin que vous puissiez surveiller votre tâche pendant son exécution.

Pour une présentation générale du mode de surveillance AWS Glue, voir[Surveillance AWS Glue à l'aide CloudWatch des métriques Amazon](monitoring-awsglue-with-cloudwatch-metrics.md). Pour un aperçu général de l'utilisation CloudWatch des métriques publiées par AWS Glue, voir[Surveillance avec Amazon CloudWatch](monitor-cloudwatch.md).

## Surveillance des tâches de Ray dans la AWS Glue console
<a name="author-job-ray-monitor-console"></a>

Sur la page de détails d'une exécution de tâche, sous la section **Détails de l'exécution**, vous pouvez consulter des graphiques agrégés prédéfinis qui visualisent les indicateurs de vos tâches disponibles. AWS Glue Studio envoie des métriques de tâche CloudWatch pour chaque exécution de tâche. Vous pouvez ainsi créer un profil de votre cluster et de vos tâches, ainsi qu'accéder à des informations détaillées sur chaque nœud.

Pour plus d'informations sur les graphiques de métriques disponibles, consultez [Afficher Amazon CloudWatch les statistiques relatives à l'exécution d'une tâche Ray](view-job-runs.md#monitoring-job-run-metrics-ray).

## Vue d'ensemble des indicateurs de Ray Jobs dans CloudWatch
<a name="author-job-ray-monitor-cw"></a>

Nous publions les métriques Ray lorsque la surveillance détaillée est activée dans CloudWatch. Les métriques sont publiées dans l'espace de `Glue/Ray` CloudWatch noms.
+ **Métriques des instances**

  Nous publions des métriques sur l'utilisation du processeur, de la mémoire et du disque des instances affectées à une tâche. Ces métriques sont identifiées par des fonctionnalités telles que `ExecutorId`, `ExecutorType` et `host`. Ces métriques constituent un sous-ensemble des métriques standard des CloudWatch agents Linux. Vous trouverez des informations sur les noms et les fonctionnalités des métriques dans la CloudWatch documentation. Pour plus d'informations, consultez la section [Mesures collectées par l' CloudWatch agent](https://docs.aws.amazon.com//AmazonCloudWatch/latest/monitoring/metrics-collected-by-CloudWatch-agent.html).
+ **Métriques du cluster Ray**

  Nous transmettons les métriques des processus Ray qui exécutent votre script à cet espace de noms, puis nous vous fournissons celles qui sont les plus essentielles pour vous. Les mesures disponibles peuvent varier selon la version de Ray. Pour plus d'informations sur la version de Ray exécutée par votre tâche, consultez [AWS Glue versions](release-notes.md). 

  Ray collecte des métriques au niveau de l'instance. Il fournit également des métriques pour les tâches et le cluster. Pour plus d'informations sur la stratégie métrique sous-jacente de Ray, consultez [Metrics](https://docs.ray.io/en/latest/ray-observability/ray-metrics.html#system-metrics) dans la documentation Ray.

**Note**  
 Nous ne publions pas les métriques Ray dans l'espace de noms `Glue/Job Metrics/`, qui n'est utilisé que pour les tâches AWS Glue ETL.