Meilleures pratiques pour neptune.read ()

neptune.read ()

Neptune prend en charge une CALL procédure neptune.read permettant de lire les données d'Amazon S3, puis d'exécuter une requête OpenCypher (lecture, insertion, mise à jour) à l'aide de ces données. La procédure génère chaque ligne du fichier en tant que ligne de variable de résultat déclarée. Il utilise les informations d'identification IAM de l'appelant pour accéder aux données dans Amazon S3. Consultez Gérer les autorisations pour neptune.read () pour configurer les autorisations. La AWS région du compartiment Amazon S3 doit se trouver dans la même région que celle où se trouve l'instance. Actuellement, les lectures entre régions ne sont pas prises en charge.

Syntaxe


CALL neptune.read(
  {
    source: "string",
    format: "parquet/csv",
    concurrency: 10
  }
)
YIELD row
...

Inputs

source (obligatoire) - URI Amazon S3 vers un seul objet. Le préfixe Amazon S3 désignant plusieurs objets n'est pas pris en charge.
format (obligatoire) - parquet et csv sont pris en charge.
- Vous trouverez plus de détails sur le format Parquet pris en charge dansTypes de colonnes de parquet pris en charge.
- Pour plus d'informations sur le format csv pris en charge, consultezFormat de chargement de données Gremlin.
simultanéité (facultatif) - Type : entier égal ou supérieur à 0. Valeur par défaut : 0. Spécifie le nombre de threads à utiliser pour lire le fichier. Si la valeur est 0, le nombre maximum de threads autorisés par la ressource sera utilisé. Pour le parquet, il est recommandé de définir un certain nombre de groupes de lignes.

Sorties

Le fichier neptune.read renvoie :

ligne - Type : carte
- Chaque ligne du fichier, où les clés sont les colonnes et les valeurs sont les données présentes dans chaque colonne.
- Vous pouvez accéder aux données de chaque colonne sous la forme d'un accès aux propriétés (row.col).

Meilleures pratiques pour neptune.read ()

Les opérations de lecture de Neptune S3 peuvent être gourmandes en mémoire. Veuillez utiliser des types d'instance adaptés aux charges de travail de production, comme indiqué dans la section Choix des types d'instance pour Amazon Neptune.

L'utilisation de la mémoire et les performances des neptune.read() requêtes sont affectées par divers facteurs tels que la taille du fichier, le nombre de colonnes, le nombre de lignes et le format du fichier. Selon la structure, les petits fichiers (par exemple, les fichiers CSV de 100 Mo ou moins, les fichiers Parquet de 20 Mo ou moins) peuvent fonctionner de manière fiable sur la plupart des types d'instances adaptés à la production, tandis que les fichiers plus volumineux peuvent nécessiter une mémoire importante que les types d'instances plus petits ne peuvent pas fournir.

Lorsque vous testez cette fonctionnalité, il est recommandé de commencer par de petits fichiers et de procéder à une mise à l'échelle progressive afin de garantir que votre charge de travail de lecture puisse être adaptée à la taille de votre instance. Si vous remarquez que des neptune.read() demandes entraînent des exceptions liées à un manque de mémoire ou des redémarrages d'instances, envisagez de diviser vos fichiers en plus petits morceaux, de réduire la complexité des fichiers ou de passer à des types d'instances plus importants.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Extensions

Exemples de requêtes utilisant du parquet