本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
設定 整合
設定零 ETL 整合時,您可以設定各種參數,以控制來源和目標系統之間的資料同步方式。下列設定目前僅適用於 SaaS 來源。
設定重新整理間隔
您可以在建立整合時設定 SaaS 來源整合的重新整理間隔。預設值為 1 小時。您可以設定 CDC (變更資料擷取) 提取或增量載入應該發生的頻率。這可讓您靈活地將重新整理率與特定資料更新模式、系統負載考量和效能最佳化目標保持一致。時間增量可以設定為 15 分鐘至 8,640 分鐘 (6 天)。當目標為 Redshift 時,建立整合之後,無法修改重新整理間隔。對於其他目標,可以在整合建立後修改重新整理間隔。如需重新整理間隔為 24 小時或更長時間的 DynamoDB 來源,請參閱 DynamoDB 來源的連續每日批次 以取得循序每日批次處理的詳細資訊。
這可以透過主控台完成,方法是更新複寫設定中的重新整理間隔。
時間增量可以設定為 15 分鐘到 8640 分鐘 (六天),讓您平衡資料新鮮度和系統資源使用率。目前,DynamoDB 和 SaaS 來源都可以自訂重新整理間隔:
最短間隔:15 分鐘
間隔上限:8640 分鐘 (6 天)
預設值:DynamoDB 來源為 15 分鐘,SaaS 來源為 60 分鐘
選擇重新整理間隔時要考慮的因素:
資料波動:來源資料變更的頻率
業務需求:分析資料的最新狀態
成本考量:更頻繁的更新可能會導致更高的處理和儲存成本
注意
RefreshInterval 參數定義 CDC 觸發的頻率。實際重新整理頻率可能會受到來源資料中的變更量和目標系統的處理容量影響。監控整合效能並視需要調整重新整理間隔,以針對特定使用案例進行最佳化。
或透過 API 在 IntegrationConfig RefreshInterval中傳遞 作為 CreateIntegration 請求的一部分。若要以程式設計方式修改重新整理間隔,您可以使用 ModifyIntegration API 搭配 IntegrationConfig 參數。
DynamoDB 來源的連續每日批次
對於與 Amazon DynamoDB 來源的零 ETL 整合,當您設定重新整理間隔 1440 分鐘 (24 小時) 或更高時,整合會使用循序每日批次處理,而不是單一匯出操作。此行為是由於 DynamoDB 匯出時段限制,其匯出期間上限為 24 小時。
當重新整理間隔超過 24 小時時,整合的運作方式如下:
CDC 程序會等待完整重新整理間隔持續時間 (例如,間隔 8640 分鐘為 6 天)。
重新整理間隔經過之後,整合會執行多個循序 DynamoDB 匯出,每個匯出最多涵蓋 24 小時的時段。
CDC 任務會依序處理每個批次,以擷取重新整理間隔期間發生的所有變更。
例如,如果您將重新整理間隔設定為 8640 分鐘 (6 天),整合將等待 6 天,然後執行 6 或 7 個循序匯出 (1 個尾部匯出,涵蓋匯出操作所花費的額外時間) 和 CDC 任務,以同步該期間的所有變更。
隨需快照
根據預設,零 ETL 包括持續資料擷取 (CDC),但如果您有使用案例,一旦您可以使用隨需快照功能複寫完整資料,即可執行此操作。目前僅支援 SaaS 來源的功能可用於複寫資料一次,而無需持續同步。此選項提供一次性資料複寫,無需持續更新,且需要手動清除。複寫完成後,建議您刪除整合資源,以避免達到帳戶整合限制。
或者,透過 API,將 ContinuousSync 參數設定為 IntegrationConfig false 中的 作為 CreateIntegration 請求的一部分。
注意
建立整合後,無法修改隨需快照設定。根據您的資料同步需求,仔細選擇此選項。
修改重新整理間隔
此功能目前僅適用於 AWS Glue 目標,並可讓您更新現有整合的重新整理間隔。