翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
データセットエンリッチメント
データセットエンリッチメントは、データセットの作成者が豊富なセマンティックメタデータをデータセットに追加できるようにする Amazon Quick Sight の機能です。説明、カスタム手順、構造化メタデータを提供することで、人間のコンシューマーと AI を活用したエージェントの両方がデータセットが表す内容とその使用方法を理解できます。
データセットエンリッチメントの概要
データセットエンリッチメントを使用すると、作成者と作成者のプロは、データセットレベルと列レベルの両方でセマンティックコンテキストを使用してデータセットに注釈を付けることができます。このメタデータは、未加工データをビジネスコンテキストに接続します。これは 2 人の視聴者を対象としています。
-
データセットコンシューマー (他の作成者、Reader Pros) – 各データセットに含まれる内容、目的、適切なユースケースに関するビジネスコンテキストを改善します。
-
AI エージェント – データセット Q&A を通じて質問に回答するときに、より正確なクエリと解釈を生成するために、より豊富なコンテキスト情報を受け取ります。
データセットエンリッチメントコンポーネント
データセットレベルのエンリッチメント
重要
データセットの説明またはカスタム手順フィールドに機密情報を追加しないでください。この情報は、すべてのデータセットビューワーに表示されます。
- データセットの説明
-
データセットが表す内容、範囲、用途に関するビジネスレベルの概要。この説明は、UI 内のすべてのデータセットコンシューマーに表示され、データセットの目的をすばやく理解するのに役立ちます。最大長: 5,000 文字。
- カスタム手順
-
AI エージェントによって特別に消費される自由形式のテキスト指示。これらの手順は、データセットの解釈、クエリ、および理由に関する AI のガイドです。最大長: 5,000 文字。
- ファイルのアップロード
-
サードパーティーのツール (Databricks、dbt、Alation など) からエクスポートされたカタロググレードのセマンティックメタデータを含む YAML、JSON、または TXT 形式で 1 つのファイルをアップロードできます。これにより、数百の列定義、ビジネスルール、メトリクス計算を 1 回のアップロードで取り込むことができ、column-by-column手動入力が不要になります。最大長: 50,000 文字。
列レベルのエンリッチメント
- フォルダ
-
列を論理グループに整理して、ナビゲーションと理解を容易にします。
- 列の説明
-
各列が表す内容、有効な値、ビジネス上の意味を人間が読める説明。最大長: 500 文字。
- 追加のメモ
-
データ品質に関する考慮事項、関連テーブル、一般的な分析パターンなど、各列の補足コンテキスト。最大長: 2,000 文字。
データセットエンリッチメントの利点
-
AI を活用したデータセットのより正確な Q&A – Richer セマンティックコンテキストは、AI エージェントがより正確な SQL クエリと解釈を生成するため、回答が大幅に向上します。
-
コンシューマーの理解の向上 – 説明とメタデータは、組織全体のすべてのユーザーが、データセットに含まれるデータセットとその正しい使用方法を理解するのに役立ちます。
-
外部カタログからメタデータをスケールする – ファイルアップロードを使用すると、作成者は定義列を列ごとに手動で入力するのではなく、サードパーティーのカタログツールからリッチメタデータを 1 回のオペレーションで取り込むことができます。
アクセス許可と要件
エンタープライズライセンスを持つ作成者と作成者のプロは、所有または管理するすべてのデータセットを強化できます。
データセットエンリッチメントへのアクセス
データセットエンリッチメントにアクセスするには、次の手順を実行します。
-
データセットをデータ準備エクスペリエンスに保存します。
-
[Output] タブを選択します。
-
データセットの説明とカスタム手順を入力するか、セマンティックメタデータファイルをアップロードします。
効果的なカスタム指示書の作成
カスタム命令は、データセットエンリッチメントの最も影響の大きいコンポーネントです。データセットを解釈してクエリする方法に関して AI エージェントを直接ガイドします。以下は、効果的および効果的でないカスタム指示の例です。
適切なカスタム手順
例 1 – 収益データセット
This dataset contains net revenue after returns and discounts, calculated on an accrual basis. Revenue is recognized at the point of sale for retail transactions and upon delivery confirmation for B2B orders. All figures are in USD. The 'revenue' column specifically excludes taxes, shipping fees, and promotional credits. For year-over-year comparisons, use the 'fiscal_year' field rather than 'calendar_year' as our fiscal year runs April–March.
有効である理由:
-
あいまいな用語を明確にする (純収益と総収益)
-
計算方法を定義します。
-
通貨と除外を指定する
-
特定のフィールドを正しく使用する方法についてのガイダンスを提供します。
例 2 – お客様のデータセット
Customer status definitions: 'Active' = purchased within last 12 months; 'Dormant' = 12–24 months since last purchase; 'Churned' = 24+ months inactive. The 'customer_segment' field uses RFM analysis (Recency, Frequency, Monetary). 'Lifetime_value' is calculated as total historical spend, not predictive LTV. When analyzing customer counts, always filter out 'is_test_account = true' to exclude internal test data.
有効である理由:
-
ビジネスロジックとしきい値を定義します。
-
頭字語と方法論について説明します。
-
データ品質に関する考慮事項に関する警告
-
正確な分析のための適切なフィルタリングのガイド
無効なカスタム手順
例 – お客様のデータセット
Contains customer information including names, addresses, purchase history, and other details. Use this for customer analysis.
効果がない理由:
-
列名からすでに明らかになっているものについて説明します。
-
ビジネスコンテキストや定義を提供しない
-
データの品質、計算、または適切な使用に関するガイダンスを提供しない
-
AI が同様の概念を区別するのには役に立たない
適切なカスタム指示書を作成するための主要な原則
-
あいまいさを明確にする – 複数の解釈を持つことができる用語を定義します。
-
ビジネスロジックについて説明する – 計算、しきい値、分類を文書化します。
-
コンテキストを提供する – 単位、期間、通貨、スコープを含めます。
-
ガイドの使用 – 特定の分析に使用するフィールドについて説明します。
-
エッジケースに関する警告 – データ品質の問題、テストレコード、または特殊なケースに注意してください。
-
具体的に – 具体的な例と正確な言語を使用します。
セマンティックエンリッチメントへの 2 つのアプローチ
手動 UI ベースの注釈
データセットの作成者は、Quick Sight インターフェイスを介してデータセットと列の説明とカスタム手順を直接追加します。Quick Sight は、UI で説明を目立つように表示し、すべてのユーザーがデータセットの内容、列の定義、適切なユースケースを理解できるようにします。
外部カタログからのファイルのアップロード
データセットの作成者は、外部カタログからセマンティックメタデータをエクスポートし、API または UI を介して YAML、JSON、または TXT 形式でデータセットごとにファイルをアタッチできます。この情報は UI ではなく AI モデルで使用されますが、カタロググレードのメタデータを大規模に有効にします。
消費レイヤー: データセット Q&A
データセット Q&A は、データセットエンリッチメントメタデータを使用する消費レイヤーです。これにより、ユーザーは、事前に構築されたダッシュボードや手動で設定されたトピックを必要とせずに、アクセスできるデータセットに対してオープンエンドの自然言語の質問を直接行うことができます。
AI エージェントは、次の方法でエンリッチコンテキストを使用します。
-
アセット検出 – エージェントはデータセットの説明とセマンティックメタデータを使用して、ユーザーの質問に適したデータセットを識別します。
-
Text-to-SQL 生成 – カスタム手順、列の説明、アップロードされたメタデータは、AI がより正確な SQL クエリを生成するのに役立ちます。
-
管理対象レスポンス – すべてのレスポンスは、行レベルのセキュリティ (RLS) および列レベルのセキュリティ (CLS) ルールを尊重します。
エンリッチメントがない場合、AI エージェントには、使用する列名とデータ型のみがあり、多くの場合あいまいです。エンリッチメントにより、エージェントは以下に必要な完全なビジネスコンテキストを受け取ります。
-
同様のフィールドと概念の曖昧さを解消する
-
正しい計算とフィルターを適用する
-
ビジネス固有のしきい値と分類を理解する
-
テストデータを除外し、エッジケースを適切に処理する
セマンティックコンテキストをデータセットに追加すると、ユーザーは Q&A でデータセットを参照し、チャットでクエリを実行できます。AI エージェントは、追加されたメタデータを使用して、より正確なレスポンスを提供します。
概要
Dataset Enrichment は、AI を活用した分析のためにセマンティックメタデータをデータセットに追加します。説明、カスタム手順、メタデータファイルの追加に数分投資することで、データセットの作成者は AI を活用した Q&A の精度を向上させながら、データセットをより理解しやすくし、組織全体のすべてのコンシューマーにアクセスできるようになります。