View a markdown version of this page

資料集擴充 - Amazon Quick

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

資料集擴充

Dataset Enrichment 是 Amazon Quick Sight 中的功能,可讓資料集作者將豐富的語意中繼資料新增至資料集。透過提供描述、自訂指示和結構化中繼資料,您可以確保人類消費者和 AI 代理程式都了解資料集代表什麼,以及如何使用它。

資料集擴充概觀

Dataset Enrichment 可讓作者和作者使用資料集層級和資料欄層級的語意內容來註釋資料集。此中繼資料會將原始資料與業務內容連線。它為兩個受眾提供服務:

  • 資料集取用者 (其他作者、讀者專家) – 取得每個資料集包含內容、其用途和適當使用案例的更佳商業內容。

  • AI 代理程式 – 接收更豐富的內容資訊,以在透過資料集問答回答問題時產生更準確的查詢和解釋。

資料集擴充元件

資料集層級擴充

重要

請勿將敏感資訊新增至資料集描述自訂指示欄位。所有資料集檢視器都可看見此資訊。

資料集描述

資料集所代表內容、其範圍和預期用途的業務層級摘要。UI 中的所有資料集取用者都可看見此描述,協助他們快速了解資料集的目的。長度上限:5,000 個字元。

自訂指示

AI 代理器特別使用的自由格式文字指示。這些指示會引導 AI 如何解譯、查詢和說明資料集的原因。長度上限:5,000 個字元。

檔案上傳

您可以上傳 YAML、JSON 或 TXT 格式的單一檔案,其中包含從第三方工具匯出的目錄級語意中繼資料 (例如 Databricks、dbt 或 Alation)。這可讓數百個資料欄定義、業務規則和指標計算擷取在單一上傳中 – 消除column-by-column手動項目。長度上限:50,000 個字元。

資料欄層級擴充

資料夾

將資料欄組織成邏輯分組,以便於導覽和理解。

資料欄描述

每欄代表什麼、其有效值和業務意義的人類可讀描述。長度上限:500 個字元。

其他備註

每個資料欄的補充內容,例如資料品質考量、相關資料表或常見分析模式。長度上限:2,000 個字元。

資料集擴充的優勢

  • 更準確的 AI 驅動資料集問答 – 更豐富的語意內容有助於 AI 代理器產生更精確的 SQL 查詢和解釋,從而獲得更好的答案。

  • 更了解消費者 – 描述和中繼資料可協助整個組織的所有使用者了解資料集包含的內容,以及如何正確使用這些資料集。

  • 從外部目錄擴展中繼資料 – 檔案上傳可讓作者在單一操作中從第三方目錄工具引入豐富的中繼資料,而不是依資料欄手動輸入定義欄。

許可和要求

使用企業授權的作者和作者專業人員可以豐富他們擁有或管理的任何資料集。

存取資料集擴充

若要存取資料集擴充,請完成下列步驟。

  1. 在資料準備體驗中儲存資料集。

  2. 選擇 Output (輸出) 索引標籤。

  3. 輸入資料集描述自訂說明,或上傳語意中繼資料檔案。

撰寫有效的自訂指示

自訂指示是資料集擴充中最具影響力的元件。他們會直接引導 AI 代理器如何解譯和查詢資料集。以下是有效和無效自訂指示的範例。

良好的自訂指示

範例 1 – 營收資料集

This dataset contains net revenue after returns and discounts, calculated on an accrual basis. Revenue is recognized at the point of sale for retail transactions and upon delivery confirmation for B2B orders. All figures are in USD. The 'revenue' column specifically excludes taxes, shipping fees, and promotional credits. For year-over-year comparisons, use the 'fiscal_year' field rather than 'calendar_year' as our fiscal year runs April–March.

為什麼有效:

  • 釐清模棱兩可的詞彙 (淨收入與總收入)

  • 定義計算方法

  • 指定貨幣和排除項目

  • 提供如何正確使用特定欄位的指引

範例 2 – 客戶資料集

Customer status definitions: 'Active' = purchased within last 12 months; 'Dormant' = 12–24 months since last purchase; 'Churned' = 24+ months inactive. The 'customer_segment' field uses RFM analysis (Recency, Frequency, Monetary). 'Lifetime_value' is calculated as total historical spend, not predictive LTV. When analyzing customer counts, always filter out 'is_test_account = true' to exclude internal test data.

為什麼有效:

  • 定義商業邏輯和閾值

  • 說明縮寫和方法

  • 有關資料品質考量的警告

  • 引導適當的篩選以準確分析

無效自訂指示

範例 – 客戶資料集

Contains customer information including names, addresses, purchase history, and other details. Use this for customer analysis.

為什麼無效:

  • 描述欄位名稱中已經明顯的內容

  • 不提供業務內容或定義

  • 不提供資料品質、計算或適當使用的指導

  • 無法協助 AI 區分類似的概念

撰寫良好自訂指示的重要原則

  • 釐清模棱兩可處 – 定義可以有多個解釋的術語。

  • 說明商業邏輯 – 文件計算、閾值和分類。

  • 提供內容 – 包含單位、期間、貨幣和範圍。

  • 指引用量 – 說明要用於特定分析的欄位。

  • 警告邊緣案例 – 記下資料品質問題、測試記錄或特殊案例。

  • 具體 – 使用具體範例和精確的語言。

語意擴充的兩種方法

手動 UI 型註釋

資料集作者透過 Quick Sight 介面直接新增資料集和資料欄描述和自訂指示。Quick Sight 會在 UI 中顯著顯示描述,協助所有使用者了解資料集內容、資料欄定義和適當的使用案例。

從外部目錄上傳檔案

資料集作者可以從外部目錄匯出語意中繼資料,並透過 API 或 UI 為每個資料集附加 YAML、JSON 或 TXT 格式的檔案。雖然 AI 模型使用此資訊而非顯示在 UI 中,但它會大規模啟用目錄級中繼資料。

耗用層:資料集問答

資料集問答是使用資料集擴充中繼資料的耗用層。它可讓使用者直接針對可存取的資料集提出開放式自然語言問題,而不需要預先建置的儀表板或手動設定的主題。

AI 代理器會以下列方式使用豐富的內容:

  • 資產探索 – 代理程式使用資料集描述和語意中繼資料來識別使用者問題的正確資料集。

  • Text-to-SQL產生 – 自訂指示、資料欄描述和上傳的中繼資料會引導 AI 產生更準確的 SQL 查詢。

  • 受管回應 – 所有回應都遵守資料列層級安全性 (RLS) 和資料欄層級安全性 (CLS) 規則。

如果沒有擴充功能,AI 代理器只有資料欄名稱和資料類型可供使用,這通常不明確。透過擴充功能,客服人員會收到所需的完整業務內容,以便:

  • 混淆類似的欄位和概念

  • 套用正確的計算和篩選條件

  • 了解業務特定的閾值和分類

  • 排除測試資料並適當處理邊緣案例

將語意內容新增至資料集之後,使用者可以在 Q&A 中參考資料集,並透過聊天進行查詢。AI 代理器會使用新增的中繼資料來提供更準確的回應。

摘要

Dataset Enrichment 會將語意中繼資料新增至資料集,以進行 AI 支援的分析。透過投入幾分鐘的時間來新增描述、自訂指示和中繼資料檔案,資料集作者可以提高 AI 驅動的問答的準確性,同時讓組織中的每個消費者都能更易於理解和存取資料集。