View a markdown version of this page

Utilisation de Spark Connect avec AWS Glue sessions interactives - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation de Spark Connect avec AWS Glue sessions interactives

Apache Spark Connect introduit une architecture client-serveur découplée qui sépare votre application du processus du pilote Spark. Avec Spark Connect, les sessions AWS Glue interactives bénéficient d'un client léger qui démarre plus rapidement, utilise moins de ressources locales et fournit une compatibilité native avec les API PySpark DataFrame et SQL. Vous pouvez utiliser des sessions AWS Glue interactives à partir de votre outil de bloc-notes ou de votre IDE préféré.

Spark Connect est pris en charge nativement dans les AWS Glue versions 5.1 et supérieures. Vous pouvez vous connecter à une session AWS Glue interactive directement depuis un environnement compatible avec l' PySpark remote()API.

Comparaison des types de sessions : Livy et Spark Connect

AWS Glueles sessions interactives prennent en charge deux types de sessions. Le tableau suivant compare les Livy-based sessions et les sessions Spark Connect.

Fonctionnalité Livy Spark Connect

Protocole

REST

gRPC (pour envoyer des plans d'exécution logiques) + Apache Arrow (pour diffuser les résultats)

Méthode de connexion

API de déclaration (RunStatement,CancelStatement,GetStatement,ListStatements)

Connexion directe via l'URL du point de terminaison via l' PySparkremote()API

Exigence du client

aws-glue-sessionspackage pour les noyaux ou AWS le SDK

PySpark avec le support de Spark Connect

Support de l'IDE

Grâce à Jupyter avec noyau SparkMagic

Des blocs-notes sur SageMaker Unified Studio ou des IDE dotés d'interpréteurs Python tels que VS Code PyCharm, etc.

Quand utiliser Spark Connect

Utilisez les sessions Spark Connect lorsque vous avez besoin d'un accès direct et programmatique à une session AWS Glue interactive depuis votre environnement de développement. Les cas d'utilisation les plus courants sont les suivants :

  • Ordinateurs portables dans SageMaker Unified Studio : connectez-vous à des sessions AWS Glue interactives directement depuis l'environnement de votre bloc-notes pour une exploration interactive des données.

  • Des IDE tels que VS Code ou PyCharm — PySpark À utiliser à partir de votre IDE préféré pour développer et tester des applications Spark sur un AWS Glue cluster distant.

  • Scripts et applications Python : accédez aux sessions AWS Glue interactives par programmation à partir d'une application Python qui utilise l' PySpark remote()API.

Disponibilité dans les Régions

AWS Glue des sessions interactives avec Spark Connect sont disponibles dans les AWS régions suivantes :

  • Asie-Pacifique (Mumbai)

  • Asie-Pacifique (Séoul)

  • Asie-Pacifique (Singapour)

  • Asie-Pacifique (Sydney)

  • Asie-Pacifique (Tokyo)

  • Canada (Centre)

  • Europe (Francfort)

  • Europe (Irlande)

  • Europe (Londres)

  • Europe (Paris)

  • Europe (Stockholm)

  • Amérique du Sud (São Paulo)

  • USA Est (Ohio)

  • USA Est (Virginie du Nord)

  • USA Ouest (Oregon)

Considérations et restrictions

Lorsque vous utilisez Spark Connect dans le cadre de sessions AWS Glue interactives, tenez compte des points suivants :

  • Spark Connect est disponible pour les sessions AWS Glue interactives exécutant AWS Glue la version 5.1 et les versions ultérieures.

  • Les API de déclaration (RunStatement, CancelStatementGetStatement, etListStatements) ne sont pas prises en charge pour les sessions Spark Connect. Vous interagissez avec la session directement par l'intermédiaire du PySpark client.

  • Vous ne pouvez pas modifier le type de session après en avoir créé une. Pour passer de Livy à Spark Connect, vous devez créer une nouvelle session.

  • Spark Connect n'est pas pris en charge sur AWS Glue Studio. Pour utiliser le développement interactif AWS Glue, vous pouvez utiliser des blocs-notes dans SageMaker Unified Studio ou vos IDE préférés avec des interpréteurs Python.

  • Fine-grained le contrôle d'accès via Lake Formation n'est pas pris en charge pour les sessions Spark Connect.