

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Création d'un modèle PySpark d'analyse
<a name="create-pyspark-analysis-template"></a>

**Note**  
Les paramètres sont des chaînes fournies par l'utilisateur qui peuvent contenir du contenu arbitraire.  
Passez en revue le code pour vous assurer que les paramètres sont gérés en toute sécurité afin d'éviter tout comportement inattendu dans votre analyse.
Concevez la gestion des paramètres de manière à ce qu'elle fonctionne en toute sécurité, quelles que soient les valeurs des paramètres fournies au moment de la soumission.

**Conditions préalables**

 Avant de créer un modèle d' PySpark analyse, vous devez disposer des éléments suivants :
+ L'adhésion à une AWS Clean Rooms collaboration active
+ Accès à au moins une table configurée dans la collaboration active
+ Autorisations pour créer des modèles d'analyse
+ Un script utilisateur Python et un environnement virtuel créés et stockés dans S3
  + La gestion des versions est activée dans le compartiment S3. Pour plus d'informations, voir [Utilisation de la gestion des versions dans les compartiments S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html)
  + Le compartiment S3 peut calculer les sommes de contrôle SHA-256 pour les artefacts téléchargés. Pour plus d'informations, voir [Utilisation des checksums](https://docs.aws.amazon.com/AmazonS3/latest/userguide/checking-object-integrity.html)
+ Autorisations pour lire le code d'un compartiment S3

  Pour plus d'informations sur la création du rôle de service requis, consultez[Création d'un rôle de service pour lire le code d'un compartiment S3 (rôle de modèle d'PySpark analyse)](setting-up-roles.md#create-role-pyspark-analysis-template).

La procédure suivante décrit le processus de création d'un modèle d' PySpark analyse à l'aide de la [AWS Clean Rooms console](https://console.aws.amazon.com/cleanrooms/home). Cela suppose que vous avez déjà créé un script utilisateur et des fichiers d'environnement virtuel et que vous avez stocké votre script utilisateur et vos fichiers d'environnement virtuel dans un compartiment Amazon S3.

**Note**  
Le membre qui crée le modèle PySpark d'analyse doit également être celui qui reçoit les résultats.

Pour plus d'informations sur la création d'un modèle d' PySpark analyse à l'aide du AWS SDKs, consultez la [référence de l'AWS Clean Rooms API](https://docs.aws.amazon.com/clean-rooms/latest/apireference/Welcome.html).

**Pour créer un modèle PySpark d'analyse**

1. Connectez-vous à la console AWS Management Console et ouvrez-la avec la [AWS Clean Rooms console](https://console.aws.amazon.com/cleanrooms/home) Compte AWS qui fonctionnera en tant que créateur de collaboration.

1. Dans le volet de navigation de gauche, sélectionnez **Collaborations**.

1. Choisissez la collaboration.

1. Dans l'onglet **Modèles**, accédez à la section **Modèles d'analyse que vous avez créés**.

1. Choisissez **Créer un modèle d'analyse**.

1. Sur la page **Créer un modèle d'analyse**, pour **plus de détails**, 

   1. Entrez un **nom** pour le modèle d'analyse.

   1. (Facultatif) Entrez une **description**.

   1. Pour **Format**, choisissez l'**PySpark**option.

1. Pour **la définition**,

   1. Passez en revue **les prérequis** et assurez-vous que chaque condition préalable est remplie avant de continuer.

   1. Pour le **fichier du point d'entrée**, entrez dans le compartiment S3 ou choisissez **Browse S3**.

   1. (Facultatif) Pour **le fichier Libraries**, entrez dans le compartiment S3 ou choisissez **Browse S3**.

1. Pour **les paramètres : facultatif**, si vous souhaitez ajouter des paramètres afin de rendre votre modèle d'analyse réutilisable :

   1. Choisissez **Ajouter un paramètre**.

   1. Entrez un **nom de paramètre**.

      Les noms des paramètres doivent commencer par une lettre ou un trait de soulignement, suivi de caractères alphanumériques ou de traits de soulignement.

   1. Pour **Type**, **STRING** est automatiquement sélectionné comme seul type pris en charge pour les modèles PySpark d'analyse.

   1. (Facultatif) Entrez une **valeur par défaut** pour le paramètre.

      Si vous fournissez une valeur par défaut, les exécuteurs de tâches peuvent utiliser cette valeur lorsqu'ils exécutent des tâches sans fournir explicitement de valeur de paramètre.

   1. Pour ajouter d'autres paramètres, choisissez **Ajouter un autre paramètre** et répétez les étapes précédentes.
**Note**  
Vous pouvez définir jusqu'à 50 paramètres par modèle PySpark d'analyse. Chaque valeur de paramètre peut comporter jusqu'à 1 000 caractères.

1. Pour **les tables référencées dans la définition**, 
   + Si toutes les tables référencées dans la définition ont été associées à la collaboration :
     + Laissez la case **Toutes les tables référencées dans la définition ont été associées à la collaboration** cochée.
     + Sous **Tables associées à la collaboration**, choisissez toutes les tables associées référencées dans la définition. 
   + Si toutes les tables référencées dans la définition n'ont pas été associées à la collaboration :
     + Décochez la case **Toutes les tables référencées dans la définition ont été associées à la collaboration**.
     + Sous **Tables associées à la collaboration**, choisissez toutes les tables associées référencées dans la définition.
     + Sous **Tables qui seront associées ultérieurement**, entrez un nom de table. 
     + Choisissez **Répertorier une autre table** pour répertorier une autre table.

1. Pour la **configuration des messages d'erreur**, choisissez l'une des options suivantes :
   + **Messages d'erreur** de base : renvoie les messages d'erreur de base sans exposer les données sous-jacentes. Recommandé pour les charges de travail de production.
   + **Messages d'erreur détaillés** : renvoie des messages d'erreur détaillés pour accélérer le dépannage. Recommandé dans les environnements de développement et de test. Peut exposer des données sensibles, y compris des informations personnelles identifiables (PII).
**Note**  
Lorsque vous utilisez **des messages d'erreur détaillés**, tous les membres du fournisseur de données doivent approuver ce paramètre pour le modèle.

1. Spécifiez les autorisations **d'accès au service** en sélectionnant un **nom de rôle de service existant** dans la liste déroulante.

   1. La liste des rôles s'affiche si vous êtes autorisé à répertorier les rôles.

      Si vous n'êtes pas autorisé à répertorier les rôles, vous pouvez saisir le nom de ressource Amazon (ARN) du rôle que vous souhaitez utiliser.

   1. Affichez le rôle de service en choisissant le lien externe **Afficher dans IAM**.

      S'il n'existe aucun rôle de service existant, l'option **Utiliser un rôle de service existant** n'est pas disponible.

      Par défaut, AWS Clean Rooms ne tente pas de mettre à jour la politique de rôle existante pour ajouter les autorisations nécessaires. 
**Note**  
AWS Clean Rooms nécessite des autorisations pour effectuer des requêtes conformément aux règles d'analyse. Pour plus d'informations sur les autorisations pour AWS Clean Rooms, voir[AWS politiques gérées pour AWS Clean Rooms](security-iam-awsmanpol.md).
Si le rôle ne dispose pas d'autorisations suffisantes pour AWS Clean Rooms, vous recevez un message d'erreur indiquant que le rôle ne dispose pas d'autorisations suffisantes pour AWS Clean Rooms. La politique de rôle doit être ajoutée avant de continuer.
Si vous ne pouvez pas modifier la politique de rôle, vous recevez un message d'erreur indiquant que AWS Clean Rooms la politique du rôle de service est introuvable.

1. Si vous souhaitez activer les **balises** pour la ressource de table configurée, choisissez **Ajouter une nouvelle balise**, puis entrez la paire ****clé/valeur****.

1. Choisissez **Créer**.

1. Vous êtes maintenant prêt à informer le membre de votre collaboration qu'il peut [réviser un modèle d'analyse](review-analysis-template.md). (Facultatif si vous souhaitez interroger vos propres données.)

**Important**  
Ne modifiez ni ne supprimez d'artefacts (scripts utilisateur ou environnements virtuels) après avoir créé un modèle d'analyse.  
Cela permettra de :  
Faire échouer toutes les futures tâches d'analyse utilisant ce modèle.
Exiger la création d'un nouveau modèle d'analyse avec de nouveaux artefacts.
Cela n'affecte pas les tâches d'analyse effectuées précédemment.