View a markdown version of this page

Configuration d'une intégration - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Configuration d'une intégration

Lorsque vous configurez une intégration zéro ETL, vous pouvez configurer différents paramètres pour contrôler la façon dont les données sont synchronisées entre vos systèmes source et cible. Les paramètres suivants ne sont actuellement disponibles que pour les sources SaaS.

Configuration de l'intervalle d'actualisation

Vous pouvez configurer l'intervalle d'actualisation pour l'intégration des sources SaaS au moment de la création de l'intégration. La valeur par défaut est 1 heure. Vous pouvez configurer la fréquence à laquelle le CDC (Change Data Capture) doit effectuer des extractions ou des charges incrémentielles. Cela permet d'aligner le taux de rafraîchissement en fonction de vos modèles de mise à jour des données spécifiques, des considérations relatives à la charge du système et des objectifs d'optimisation des performances. L’incrément de temps peut être réglé de 15 minutes à 8 640 minutes (six jours). L'intervalle d'actualisation ne peut pas être modifié une fois l'intégration créée lorsque la cible est Redshift. Pour les autres cibles, l'intervalle d'actualisation peut être modifié après la création de l'intégration. Pour les sources DynamoDB dont les intervalles d'actualisation sont supérieurs ou égaux à 24 heures, Lots quotidiens séquentiels pour les sources DynamoDB voir pour plus de détails sur le traitement par lots quotidien séquentiel.

Cela peut être fait via la console, en mettant à jour l'intervalle d'actualisation dans les paramètres de réplication.

La capture d'écran montre la configuration du paramètre RefreshInterval dans les paramètres d'intégration Zero-ETL.

L'incrément de temps peut être réglé de 15 minutes à 8 640 minutes (six jours), ce qui vous permet de trouver un équilibre entre la fraîcheur des données et l'utilisation des ressources du système. Actuellement, l'intervalle d'actualisation est personnalisable pour les sources DynamoDB et SaaS :

  • Intervalle minimum : 15 minutes

  • Intervalle maximal : 8640 minutes (6 jours)

  • Valeur par défaut : 15 minutes pour la source DynamoDB et 60 minutes pour la source SaaS

Facteurs à prendre en compte lors du choix d'un intervalle d'actualisation :

  • Volatilité des données : fréquence à laquelle vos données sources changent

  • Besoins commerciaux : dans quelle mesure vos données analytiques doivent être à jour

  • Considérations financières : des mises à jour plus fréquentes peuvent entraîner des coûts de traitement et de stockage plus élevés

Note

RefreshInterval paramètre définit la fréquence de déclenchement du CDC. La fréquence d'actualisation réelle peut être affectée par le volume de modifications apportées à vos données source et par la capacité de traitement du système cible. Surveillez les performances de votre intégration et ajustez l'intervalle d'actualisation selon les besoins afin de l'optimiser en fonction de votre cas d'utilisation spécifique.

Ou via l'API en transmettant le RefreshInterval within dans le IntegrationConfigcadre de CreateIntegration Request. Pour modifier l'intervalle d'actualisation par programmation, vous pouvez utiliser l'ModifyIntegration API avec le IntegrationConfig paramètre.

Lots quotidiens séquentiels pour les sources DynamoDB

Pour les intégrations sans ETL avec une source Amazon DynamoDB, lorsque vous configurez un intervalle d'actualisation de 1 440 minutes (24 heures) ou plus, l'intégration utilise un traitement par lots quotidien séquentiel au lieu d'une seule opération d'exportation. Ce comportement est dû à la limitation de la fenêtre d'exportation DynamoDB, dont la durée d'exportation maximale est de 24 heures.

Lorsque l'intervalle d'actualisation dépasse 24 heures, l'intégration fonctionne comme suit :

  1. Le processus CDC attend la durée complète de l'intervalle d'actualisation (par exemple, 6 jours pour un intervalle de 8 640 minutes).

  2. Une fois l'intervalle d'actualisation écoulé, l'intégration effectue plusieurs exportations DynamoDB séquentielles, chacune couvrant une fenêtre de 24 heures maximum.

  3. Les tâches CDC traitent chaque lot de manière séquentielle afin de capturer toutes les modifications survenues pendant la période d'intervalle d'actualisation.

Par exemple, si vous définissez un intervalle d'actualisation de 8 640 minutes (6 jours), l'intégration attendra 6 jours, puis exécutera 6 ou 7 exportations séquentielles (1 exportation finale couvrant le temps supplémentaire consacré aux opérations d'exportation) et des tâches CDC pour synchroniser toutes les modifications effectuées au cours de cette période.

Snapshot à la demande

Zero-ETL inclut par défaut la capture continue des données (CDC), mais si vous avez des cas d'utilisation pour répliquer des données complètes une fois, vous pouvez le faire en utilisant la fonctionnalité de capture instantanée à la demande. La fonctionnalité actuellement prise en charge uniquement pour les sources SaaS peut être utilisée pour répliquer les données une seule fois sans synchronisation continue. Cette option permet une réplication des données unique, sans mise à jour continue, et nécessite un nettoyage manuel. Une fois la réplication terminée, nous vous recommandons de supprimer la ressource d'intégration pour éviter d'atteindre la limite d'intégration du compte.

La capture d'écran montre la configuration des paramètres de capture instantanée à la demande.

Ou via l'API en définissant le ContinuousSync paramètre sur false within dans IntegrationConfigle cadre de CreateIntegration Request.

Note

Le paramètre On-Demand Snapshot ne peut pas être modifié une fois l'intégration créée. Choisissez cette option avec soin en fonction de vos besoins en matière de synchronisation des données.

Modification de l'intervalle d'actualisation

Cette fonctionnalité n'est actuellement disponible que pour les AWS Glue cibles et vous permet de mettre à jour l'intervalle d'actualisation pour une intégration existante.