Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Data tabular
<a name="clarify-processing-job-data-format-tabular"></a>

Data tabular mengacu pada data yang dapat dimuat ke dalam bingkai data dua dimensi. Dalam bingkai, setiap baris mewakili catatan, dan setiap catatan memiliki satu atau lebih kolom. Nilai dalam setiap sel bingkai data dapat berupa tipe data numerik, kategoris, atau teks.

## Prasyarat kumpulan data tabel
<a name="clarify-processing-job-data-format-tabular-prereq"></a>

Sebelum analisis, dataset Anda seharusnya memiliki langkah-langkah pra-pemrosesan yang diperlukan yang sudah diterapkan. Ini termasuk pembersihan data atau rekayasa fitur.

Anda dapat menyediakan satu atau beberapa kumpulan data. Jika Anda menyediakan beberapa kumpulan data, gunakan yang berikut ini untuk mengidentifikasinya ke pekerjaan pemrosesan SageMaker Clarify.
+ Gunakan konfigurasi [ProcessingInput](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProcessingInput.html)bernama `dataset` atau analisis `dataset_uri` untuk menentukan kumpulan data utama. Untuk informasi selengkapnya`dataset_uri`, lihat daftar parameter di[File Konfigurasi Analisis](clarify-processing-job-configure-analysis.md).
+ Gunakan `baseline` parameter yang disediakan dalam file konfigurasi analisis. Dataset dasar diperlukan untuk analisis SHAP. Untuk informasi selengkapnya tentang file konfigurasi analisis, termasuk contoh, lihat[File Konfigurasi Analisis](clarify-processing-job-configure-analysis.md).

Tabel berikut mencantumkan format data yang didukung, ekstensi file, dan tipe MIME.


| Format data | Ekstensi file | Tipe MIME | 
| --- | --- | --- | 
| CSV | csv | `text/csv` | 
| Garis JSON | jsonl | `application/jsonlines` | 
| JSON | json | `application/json` | 
| Parquet | parquet | “application/x-parket” | 

Bagian berikut menunjukkan contoh kumpulan data tabular dalam format CSV, JSON Lines, dan Apache Parquet.

### Prasyarat kumpulan data tabel dalam format CSV
<a name="clarify-processing-job-data-format-tabular-prereq-csv"></a>

Pekerjaan pemrosesan SageMaker Clarify dirancang untuk memuat file data CSV dalam dialek [csv.excel](https://docs.python.org/3/library/csv.html#csv.excel). Namun, ini cukup fleksibel untuk mendukung terminator baris lainnya, termasuk `\n` dan`\r`.

Untuk kompatibilitas, semua file data CSV yang disediakan untuk pekerjaan pemrosesan SageMaker Clarify harus dikodekan. UTF-8

Jika dataset Anda tidak berisi baris header, lakukan hal berikut:
+ Atur label konfigurasi analisis ke indeks`0`. Ini berarti bahwa kolom pertama adalah label kebenaran dasar.
+ Jika parameter `headers` diatur, atur `label` ke header kolom label untuk menunjukkan lokasi kolom label. Semua kolom lainnya ditetapkan sebagai fitur.

  Berikut ini adalah contoh dari dataset yang tidak berisi baris header.

  ```
  1,5,2.8,2.538,This is a good product
  0,1,0.79,0.475,Bad shopping experience
  ...
  ```

Jika data Anda berisi baris header, atur parameter `label` ke indeks`0`. Untuk menunjukkan lokasi kolom label, gunakan header label kebenaran dasar`Label`. Semua kolom lainnya ditetapkan sebagai fitur.

Berikut ini adalah contoh dari dataset yang berisi baris header.

```
Label,Rating,A12,A13,Comments
1,5,2.8,2.538,This is a good product
0,1,0.79,0.475,Bad shopping experience
...
```

### Prasyarat kumpulan data tabel dalam format JSON
<a name="clarify-processing-job-data-format-tabular-prereq-json"></a>

JSON adalah format fleksibel untuk mewakili data terstruktur yang berisi tingkat kompleksitas apa pun. Dukungan SageMaker Clarify untuk JSON tidak terbatas pada format tertentu dan dengan demikian memungkinkan format data yang lebih fleksibel dibandingkan dengan kumpulan data dalam format CSV atau JSON Lines. Panduan ini menunjukkan cara mengatur konfigurasi analisis untuk data tabular dalam format JSON. 

**catatan**  
Untuk memastikan kompatibilitas, semua file data JSON yang disediakan untuk pekerjaan pemrosesan SageMaker Clarify harus dikodekan. UTF-8

Berikut ini adalah contoh data input dengan catatan yang berisi kunci tingkat atas, daftar fitur, dan label.

```
[
    {"features":[1,5,2.8,2.538,"This is a good product"],"label":1},
    {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0},
    ...
]
```

Contoh analisis konfigurasi untuk contoh dataset input sebelumnya harus menetapkan parameter berikut:
+ `label`Parameter harus menggunakan ekspresi [JMESPath](https://jmespath.org/) `[*].label` untuk mengekstrak label kebenaran dasar untuk setiap catatan dalam kumpulan data. Ekspresi JMESPath harus menghasilkan daftar label di mana label i th sesuai dengan catatan ke-i.
+ `features`Parameter harus menggunakan ekspresi JMESPath `[*].features` untuk mengekstrak array fitur untuk setiap record dalam dataset. Ekspresi JMESPath harus menghasilkan array atau matriks 2D di mana baris ke-i berisi nilai fitur yang sesuai dengan catatan ke-i.

  Berikut ini adalah contoh data input dengan catatan yang berisi kunci tingkat atas dan kunci bersarang yang berisi daftar fitur dan label untuk setiap rekaman.

```
{
    "data": [
        {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}},
        {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}}
    ]
}
```

Contoh analisis konfigurasi untuk contoh dataset input sebelumnya harus menetapkan parameter berikut:
+ `label`Parameter menggunakan ekspresi [JMESPath](https://jmespath.org/) `data[*].label` untuk mengekstrak label kebenaran dasar untuk setiap catatan dalam kumpulan data. Ekspresi JMESPath harus menghasilkan daftar label di mana label ke-i adalah untuk catatan ke-i.
+ `features`Parameter menggunakan ekspresi JMESPath `data[*].features` untuk mengekstrak array fitur, untuk setiap record dalam dataset. Ekspresi JMESPath harus menghasilkan array atau matriks 2D di mana baris ke-i berisi nilai fitur untuk catatan ke-i.

### Prasyarat kumpulan data tabel dalam format JSON Lines
<a name="clarify-processing-job-data-format-tabular-prereq-jsonlines"></a>

JSON Lines adalah format teks untuk mewakili data terstruktur di mana setiap baris adalah objek JSON yang valid. Saat ini pekerjaan pemrosesan SageMaker Clarify hanya mendukung SageMaker AI Dense Format JSON Lines. Agar sesuai dengan format yang diperlukan, semua fitur catatan harus terdaftar dalam satu array JSON. Untuk informasi lebih lanjut tentang JSON Lines, lihat[Format permintaan JSONLINES](cdf-inference.md#cm-jsonlines).

**catatan**  
Semua file data JSON Lines yang disediakan untuk pekerjaan pemrosesan SageMaker Clarify harus dikodekan UTF-8 untuk memastikan kompatibilitas.

Berikut ini adalah contoh cara mengatur konfigurasi analisis untuk catatan yang berisi **kunci tingkat atas** dan **daftar** elemen. 

```
{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}
{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}
...
```

Analisis konfigurasi untuk contoh kumpulan data sebelumnya harus menetapkan parameter sebagai berikut:
+ Untuk menunjukkan lokasi label kebenaran dasar, parameter `label` harus disetel ke ekspresi JMESPath. `label`
+ Untuk menunjukkan lokasi array fitur, parameter `features` harus diatur ke ekspresi JMESPath. `features`

Berikut ini adalah contoh cara mengatur konfigurasi analisis untuk catatan yang berisi **kunci tingkat atas dan kunci** **bersarang** yang berisi **daftar elemen**. 

```
{"data":{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}}
{"data":{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}}
...
```

Analisis konfigurasi untuk contoh kumpulan data sebelumnya harus menetapkan parameter sebagai berikut:
+ Parameter `label` harus disetel ke ekspresi JMESPath `data.label` untuk menunjukkan lokasi label kebenaran dasar.
+ Parameter `features` harus diatur ke ekspresi JMESPath `data.features` untuk menunjukkan lokasi array fitur.

### Prasyarat kumpulan data tabel dalam format Parket
<a name="clarify-processing-job-data-format-tabular-prereq-parquet"></a>

[Parket](https://parquet.apache.org/) adalah format data biner berorientasi kolom. Saat ini, SageMaker pekerjaan pemrosesan Clarify mendukung pemuatan file data Parket hanya ketika jumlah instance pemrosesan. `1`

Karena pekerjaan pemrosesan SageMaker Klarifikasi tidak mendukung permintaan titik akhir atau respons titik akhir dalam format Parket, Anda harus menentukan format data permintaan titik akhir dengan menyetel parameter konfigurasi analisis `content_type` ke format yang didukung. Untuk informasi selengkapnya, lihat `content_type` di [File Konfigurasi Analisis](clarify-processing-job-configure-analysis.md).

Data Parket harus memiliki nama kolom yang diformat sebagai string. Gunakan `label` parameter konfigurasi analisis untuk mengatur nama kolom label untuk menunjukkan lokasi label kebenaran dasar. Semua kolom lainnya ditetapkan sebagai fitur.