

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Configuration de l'accès réseau aux magasins de données
<a name="start-connecting"></a>

Pour exécuter vos tâches d'extraction, de transformation et de chargement (ETL), AWS Glue doit être en mesure d'accéder à vos magasins de données. Si une tâche n'a pas besoin de s'exécuter dans le sous-réseau de votre Virtual Private Cloud (VPC), par exemple, si elle transforme les données d'Amazon S3 vers Amazon S3, aucune configuration supplémentaire n'est nécessaire.

Si une tâche doit s'exécuter dans votre sous-réseau VPC, par exemple, en transformant des données d'un magasin de données JDBC dans un sous-réseau privé, AWS Glue configure les [interfaces réseau Elastic](https://docs.aws.amazon.com/vpc/latest/userguide/VPC_ElasticNetworkInterfaces.html) qui permettent à vos tâches de se connecter en toute sécurité à d'autres ressources au sein de votre VPC. À chaque interface réseau Elastic est affectée une adresse IP privée comprise dans la plage d'adresses IP du sous-réseau que vous avez spécifié. Aucune adresse IP publique n'est attribuée. Les groupes de sécurité spécifiés dans la connexion AWS Glue sont appliqués sur chacune des interfaces réseau Elastic. Pour de plus amples informations, veuillez consulter [Configuration d’Amazon VPC pour les connexions JDBC aux entrepôts de données Amazon RDS depuis AWS Glue](setup-vpc-for-glue-access.md). 

Tous les magasins de données JDBC auxquels la tâche peut accéder doivent être disponibles à partir du sous-réseau du VPC. Pour accéder à Amazon S3 à partir de votre VPC, un [point de terminaison d'un VPC](vpc-endpoints-s3.md) est requis. Si votre tâche a besoin d'accéder aux ressources du VPC et au réseau Internet public, le VPC doit disposer d'une passerelle de traduction d'adresses réseau (NAT) dans le VPC.

 Une tâche ou un point de terminaison de développement ne peut accéder qu'à un seul VPC (et sous-réseau) à la fois. Si vous devez accéder aux banques de données de différentes manières VPCs, les options suivantes s'offrent à vous : 
+ Utilisez l'appairage de VPC pour accéder aux magasins de données. Pour plus d'informations sur l'appairage de VPC, consultez [Principes de base de l'appairage de VPC](https://docs.aws.amazon.com/vpc/latest/peering/vpc-peering-basics.html). 
+ Utilisez un compartiment Amazon S3 comme emplacement de stockage intermédiaire. Fractionnez le travail en deux tâches, avec la sortie Amazon S3 de la tâche 1 comme entrée de la tâche 2.

Pour plus d'informations sur la façon de se connecter à un magasin de données Amazon Redshift à l'aide d'Amazon VPC, consultez [Configuration des connexions Redshift](aws-glue-programming-etl-connect-redshift-home.md#aws-glue-programming-etl-connect-redshift-configure).

Pour plus d'informations sur la façon de se connecter aux magasins de données Amazon RDS à l'aide d'Amazon VPC, consultez [Configuration d’Amazon VPC pour les connexions JDBC aux entrepôts de données Amazon RDS depuis AWS Glue](setup-vpc-for-glue-access.md).

Une fois les règles nécessaires définies dans Amazon VPC, vous créez une connexion dans AWS Glue avec les propriétés nécessaires pour vous connecter à vos magasins de données. Pour plus d'informations sur la connexion, consultez [Connexion aux données](glue-connections.md). 

**Note**  
Veillez à configurer votre environnement DNS pour AWS Glue. Pour de plus amples informations, veuillez consulter [Configuration du DNS de votre VPC](set-up-vpc-dns.md). 

**Topics**
+ [Configuration d'un VPC pour se connecter à PyPI pour AWS Glue](setup-vpc-for-pypi.md)
+ [Configuration du DNS de votre VPC](set-up-vpc-dns.md)

# Configuration d'un VPC pour se connecter à PyPI pour AWS Glue
<a name="setup-vpc-for-pypi"></a>

Le Python Package Index (PyPI) est un référentiel de logiciels pour le langage de programmation Python. Cette rubrique aborde les détails nécessaires pour prendre en charge l'utilisation des packages installés par pip (comme spécifié par le créateur de la session à l'aide de l'indicateur `--additional-python-modules`).

L'utilisation de sessions AWS Glue interactives avec un connecteur entraîne l'utilisation du réseau VPC via le sous-réseau spécifié pour le connecteur. Par conséquent, les AWS services et autres destinations réseau ne sont pas disponibles, sauf si vous configurez une configuration spéciale.

Les solutions à ce problème incluent :
+ L'utilisation d'une passerelle Internet accessible par votre session.
+ Configuration et utilisation d'un compartiment S3 avec un PyPI/simple dépôt contenant la fermeture transitive des dépendances d'un ensemble de packages.
+ Utilisation d'un CodeArtifact référentiel qui met en miroir PyPI et qui est connecté à votre VPC.

## Configuration d'une passerelle Internet
<a name="setup-vpc-for-pypi-internet-gateway"></a>

Les aspects techniques sont détaillés dans [Cas d'utilisation de la passerelle NAT](https://docs.aws.amazon.com/vpc/latest/userguide/nat-gateway-scenarios.html), mais notez ces exigences pour l'utilisation de `--additional-python-modules`. Plus précisément, `--additional-python-modules` nécessite l'accès à pypi.org, qui est déterminé par la configuration de votre VPC. Notez les critères suivants :

1. L'obligation d'installer des modules Python supplémentaires via l'installation pip pour la session d'un utilisateur. Si la session utilise un connecteur, votre configuration peut être affectée.

1. Lorsqu'un connecteur est utilisé avec `--additional-python-modules`, lors du démarrage de la session, le sous-réseau associé aux `PhysicalConnectionRequirements` du connecteur doit fournir un chemin réseau pour atteindre pypi.org.

1. Vous devez déterminer si votre configuration est correcte ou non.

## Configuration d'un compartiment Amazon S3 pour héberger un PyPI/simple dépôt ciblé
<a name="setup-vpc-for-pypi-s3-bucket"></a>

Cet exemple configure un miroir PyPI dans Amazon S3 pour un ensemble de packages et leurs dépendances.

Pour configurer le miroir PyPI pour un ensemble de packages :

```
# pip download all the dependencies
pip download -d s3pypi --only-binary :all: plotly gglplot
pip download -d s3pypi --platform manylinux_2_17_x86_64 --only-binary :all: psycopg2-binary
# create and upload the pypi/simple index and wheel files to the s3 bucket
s3pypi -b test-domain-name --put-root-index -v s3pypi/*
```

Si vous possédez déjà un référentiel d'artefacts, il contiendra une URL d'index pour l'utilisation de pip que vous pourrez fournir à la place de l'exemple d'URL pour le compartiment Amazon S3 comme indiqué ci-dessus.

Pour utiliser l'URL d'index personnalisée, avec quelques exemples de packages :

```
%%configure
{
    "--additional-python-modules": "psycopg2_binary==2.9.5",
    "python-modules-installer-option": "--no-cache-dir --verbose --index-url https://test-domain-name.s3.amazonaws.com/ --trusted-host test-domain-name.s3.amazonaws.com"
}
```

## Configuration d'un CodeArtifact miroir de pypi connecté à votre VPC
<a name="setup-vpc-for-pypi-code-artifact"></a>

Pour configurer un miroir :

1. Créez un référentiel dans la même région que le sous-réseau utilisé par le connecteur.

   Sélectionnez `Public upstream repositories` et choisissez `pypi-store`.

1. Fournissez un accès au référentiel depuis le VPC pour le sous-réseau.

1. Spécifiez l'`--index-url` correcte en utilisant le `python-modules-installer-option`. 

   ```
   %%configure
   {
       "--additional-python-modules": "psycopg2_binary==2.9.5",
       "python-modules-installer-option": "--no-cache-dir --verbose --index-url https://test-domain-name.s3.amazonaws.com/ --trusted-host test-domain-name.s3.amazonaws.com"
   }
   ```

Pour plus d'informations, consultez la section [Utilisation CodeArtifact depuis un VPC](https://docs.aws.amazon.com/codeartifact/latest/ug/use-codeartifact-from-vpc.html).

# Configuration du DNS de votre VPC
<a name="set-up-vpc-dns"></a>

Le DNS (Domain Name System) est une norme permettant la résolution des noms utilisés sur Internet en leurs adresses IP correspondantes. Un nom d'hôte DNS nomme de façon unique un ordinateur et se compose d'un nom d'hôte et d'un nom de domaine. Les serveurs DNS résolvent les noms d'hôte DNS en adresses IP correspondantes.

Pour configurer le DNS de votre VPC, assurez-vous que les noms d'hôte DNS et la résolution DNS sont activés dans votre VPC. Les attributs de réseau VPC `enableDnsHostnames` et `enableDnsSupport` doivent être définis sur `true`. Pour afficher et modifier ces attributs, accédez à la console VPC à l'adresse [https://console.aws.amazon.com/vpc/](https://console.aws.amazon.com/vpc/). 

Pour plus d'informations, consultez [Utilisation de DNS avec votre VPC](https://docs.aws.amazon.com/vpc/latest/userguide/vpc-dns.html). Vous pouvez également utiliser la [modify-vpc-attribute](https://docs.aws.amazon.com/cli/latest/reference/ec2/modify-vpc-attribute.html)commande AWS CLI and call pour configurer les attributs du réseau VPC.

**Note**  
Si vous utilisez Route 53, vérifiez que votre configuration ne remplace pas les attributs réseau DNS.