Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Pengayaan Dataset
Dataset Enrichment adalah kemampuan di Amazon Quick Sight yang memungkinkan pembuat kumpulan data untuk menambahkan metadata semantik yang kaya ke kumpulan data mereka. Dengan memberikan deskripsi, instruksi khusus, dan metadata terstruktur, Anda memastikan bahwa konsumen dan AI-powered agen manusia memahami apa yang diwakili oleh kumpulan data dan bagaimana menggunakannya.
Ikhtisar Pengayaan Dataset
Dataset Enrichment memungkinkan penulis dan penulis profesional untuk membubuhi keterangan kumpulan data dengan konteks semantik di tingkat dataset dan tingkat kolom. Metadata ini menghubungkan data mentah dengan konteks bisnis. Ini melayani dua audiens:
-
Konsumen Dataset (Penulis lain, Pro Pembaca) - Dapatkan konteks bisnis yang lebih baik tentang isi setiap kumpulan data, tujuannya, dan kasus penggunaan yang sesuai.
-
Agen AI — Menerima informasi kontekstual yang lebih kaya untuk menghasilkan kueri dan interpretasi yang lebih akurat saat menjawab pertanyaan melalui Tanya Jawab Dataset.
Komponen Dataset Enrichment
Dataset-level pengayaan
penting
Jangan menambahkan informasi sensitif ke kolom Deskripsi Set Data atau Petunjuk Kustom. Informasi ini dapat dilihat oleh semua pemirsa kumpulan data.
- Deskripsi Dataset
-
Ringkasan tingkat bisnis tentang apa yang diwakili oleh kumpulan data, ruang lingkupnya, dan tujuan penggunaannya. Deskripsi ini dapat dilihat oleh semua konsumen kumpulan data di UI, membantu mereka memahami tujuan kumpulan data dengan cepat. Panjang maksimum: 5.000 karakter.
- Instruksi Kustom
-
Free-form instruksi teks yang secara khusus dikonsumsi oleh agen AI. Instruksi ini memandu AI tentang cara menafsirkan, menanyakan, dan alasan tentang kumpulan data. Panjang maksimum: 5.000 karakter.
- Unggah File
-
Anda dapat mengunggah satu file dalam format YAMG, JSON, atau TXT yang berisi metadata semantik kelas katalog yang diekspor dari alat pihak ketiga (misalnya, Databricks, dbt, atau Alation). Hal ini memungkinkan ratusan definisi kolom, aturan bisnis, dan perhitungan metrik untuk dicerna dalam satu unggahan — menghilangkan entri kolom demi kolom manual. Panjang maksimum: 50.000 karakter.
Column-level pengayaan
- Folder
-
Atur kolom ke dalam pengelompokan logis untuk navigasi dan pemahaman yang lebih mudah.
- Deskripsi Kolom
-
Deskripsi yang dapat dibaca manusia tentang apa yang diwakili oleh setiap kolom, nilai-nilai validnya, dan makna bisnis. Panjang maksimum: 500 karakter.
- Catatan Tambahan
-
Konteks tambahan untuk setiap kolom, seperti pertimbangan kualitas data, tabel terkait, atau pola analisis umum. Panjang maksimum: 2.000 karakter.
Manfaat Pengayaan Dataset
-
Tanya Jawab AI-powered Set Data yang lebih akurat — Konteks semantik yang lebih kaya membantu agen AI menghasilkan kueri dan interpretasi SQL yang lebih tepat, yang mengarah ke jawaban yang jauh lebih baik.
-
Pemahaman yang lebih baik bagi konsumen — Deskripsi dan metadata membantu semua pengguna di seluruh organisasi memahami kumpulan data apa yang terkandung dan cara menggunakannya dengan benar.
-
Skala metadata dari katalog eksternal — Pengunggahan File memungkinkan penulis untuk membawa metadata kaya dari alat katalog pihak ketiga dalam satu operasi, daripada memasukkan definisi kolom demi kolom secara manual.
Izin dan persyaratan
Penulis dan penulis profesional dengan lisensi Enterprise dapat memperkaya kumpulan data apa pun yang mereka miliki atau kelola.
Mengakses Pengayaan Dataset
Untuk mengakses Dataset Enrichment, selesaikan langkah-langkah berikut.
-
Simpan dataset Anda dalam pengalaman persiapan data.
-
Pilih tab Output.
-
Masukkan Deskripsi Set Data dan Petunjuk Kustom, atau unggah file metadata semantik.
Menulis instruksi kustom yang efektif
Instruksi Kustom adalah komponen yang paling berdampak dari Pengayaan Dataset. Mereka secara langsung memandu agen AI tentang cara menafsirkan dan menanyakan kumpulan data. Berikut ini adalah contoh instruksi kustom yang efektif dan tidak efektif.
Instruksi kustom yang baik
Contoh 1 - Dataset Pendapatan
This dataset contains net revenue after returns and discounts, calculated on an accrual basis. Revenue is recognized at the point of sale for retail transactions and upon delivery confirmation for B2B orders. All figures are in USD. The 'revenue' column specifically excludes taxes, shipping fees, and promotional credits. For year-over-year comparisons, use the 'fiscal_year' field rather than 'calendar_year' as our fiscal year runs April–March.
Mengapa ini efektif:
-
Mengklarifikasi istilah yang ambigu (pendapatan bersih vs kotor)
-
Mendefinisikan metodologi perhitungan
-
Menentukan mata uang dan pengecualian
-
Memberikan panduan tentang cara menggunakan bidang tertentu dengan benar
Contoh 2 — Dataset Pelanggan
Customer status definitions: 'Active' = purchased within last 12 months; 'Dormant' = 12–24 months since last purchase; 'Churned' = 24+ months inactive. The 'customer_segment' field uses RFM analysis (Recency, Frequency, Monetary). 'Lifetime_value' is calculated as total historical spend, not predictive LTV. When analyzing customer counts, always filter out 'is_test_account = true' to exclude internal test data.
Mengapa ini efektif:
-
Mendefinisikan logika bisnis dan ambang batas
-
Menjelaskan akronim dan metodologi
-
Memperingatkan tentang pertimbangan kualitas data
-
Panduan penyaringan yang tepat untuk analisis yang akurat
Instruksi kustom yang tidak efektif
Contoh - Dataset Pelanggan
Contains customer information including names, addresses, purchase history, and other details. Use this for customer analysis.
Mengapa tidak efektif:
-
Menjelaskan apa yang sudah jelas dari nama kolom
-
Tidak memberikan konteks atau definisi bisnis
-
Tidak menawarkan panduan tentang kualitas data, perhitungan, atau penggunaan yang tepat
-
Tidak membantu AI membedakan antara konsep serupa
Prinsip utama untuk menulis instruksi kustom yang baik
-
Klarifikasi ambiguitas — Tentukan istilah yang dapat memiliki banyak interpretasi.
-
Jelaskan logika bisnis — Perhitungan dokumen, ambang batas, dan kategorisasi.
-
Menyediakan konteks — Sertakan unit, periode waktu, mata uang, dan ruang lingkup.
-
Penggunaan panduan — Jelaskan bidang mana yang akan digunakan untuk analisis spesifik.
-
Peringatkan tentang kasus tepi - Perhatikan masalah kualitas data, catatan pengujian, atau kasus khusus.
-
Jadilah spesifik — Gunakan contoh konkret dan bahasa yang tepat.
Dua pendekatan untuk pengayaan semantik
UI-based Anotasi manual
Penulis kumpulan data secara langsung menambahkan deskripsi kumpulan data dan kolom serta instruksi khusus melalui antarmuka Quick Sight. Quick Sight menampilkan deskripsi secara jelas di UI, membantu semua pengguna memahami konten kumpulan data, definisi kolom, dan kasus penggunaan yang sesuai.
Unggah file dari katalog eksternal
Penulis kumpulan data dapat mengekspor metadata semantik dari katalog eksternal dan melampirkan file per kumpulan data dalam format YAMB, JSON, atau TXT melalui API atau UI. Meskipun informasi ini digunakan oleh model AI daripada ditampilkan di UI, ini memungkinkan metadata tingkat katalog dalam skala besar.
Lapisan konsumsi: Tanya Jawab Dataset
Tanya Jawab Dataset adalah lapisan konsumsi yang menggunakan metadata Pengayaan Dataset. Ini memungkinkan pengguna untuk mengajukan pertanyaan bahasa alami terbuka secara langsung terhadap kumpulan data yang dapat mereka akses - tanpa memerlukan dasbor pra-bangun atau topik yang dikonfigurasi secara manual.
Agen AI menggunakan konteks yang diperkaya dengan cara berikut:
-
Penemuan aset — Agen menggunakan deskripsi kumpulan data dan metadata semantik untuk mengidentifikasi kumpulan data yang tepat untuk pertanyaan pengguna.
-
Text-to-SQL pembuatan — Instruksi khusus, deskripsi kolom, dan metadata yang diunggah memandu AI dalam menghasilkan kueri SQL yang lebih akurat.
-
Tanggapan yang diatur — Semua tanggapan menghormati aturan Row-Level Keamanan (RLS) dan Column-Level Keamanan (CLS).
Tanpa pengayaan, agen AI hanya memiliki nama kolom dan tipe data untuk digunakan - yang seringkali ambigu. Dengan pengayaan, agen menerima konteks bisnis lengkap yang diperlukan untuk:
-
Singkirkan bidang dan konsep serupa
-
Terapkan perhitungan dan filter yang benar
-
Memahami ambang batas dan kategorisasi khusus bisnis
-
Kecualikan data uji dan tangani kasus tepi dengan tepat
Setelah Anda menambahkan konteks semantik ke kumpulan data, pengguna dapat mereferensikan kumpulan data dalam Tanya Jawab dan menanyakannya melalui obrolan. Agen AI mengkonsumsi metadata tambahan untuk memberikan respons yang lebih akurat.
Ringkasan
Dataset Enrichment menambahkan metadata semantik ke kumpulan data untuk analisis. AI-powered Dengan menginvestasikan beberapa menit dalam menambahkan deskripsi, instruksi khusus, dan file metadata, penulis kumpulan data dapat meningkatkan akurasi Tanya AI-powered Jawab sambil membuat kumpulan data mereka lebih mudah dipahami dan dapat diakses oleh setiap konsumen di seluruh organisasi.