

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Jenis file dataset dan format data input
<a name="autopilot-llms-finetuning-data-format"></a>

Penyetelan berbasis instruksi menggunakan kumpulan data berlabel untuk meningkatkan kinerja tugas pemrosesan bahasa alami (NLP) yang telah dilatih sebelumnya LLMs . Contoh berlabel diformat sebagai pasangan prompt respons dan diungkapkan sebagai instruksi.



Untuk mempelajari jenis file kumpulan data yang didukung, lihat[Jenis file dataset yang didukung](#autopilot-llms-finetuning-dataset-format).

Untuk mempelajari tentang format data input, lihat[Format data input untuk fine-tuning berbasis instruksi](#autopilot-llms-finetuning-input-format).

## Jenis file dataset yang didukung
<a name="autopilot-llms-finetuning-dataset-format"></a>

Autopilot mendukung kumpulan data fine-tuning berbasis instruksi yang diformat sebagai file CSV (default) atau sebagai file Parket.
+ **CSV** (nilai dipisahkan koma) adalah format file berbasis baris yang menyimpan data dalam teks biasa yang dapat dibaca manusia, yang merupakan pilihan populer untuk pertukaran data karena didukung oleh berbagai aplikasi.
+ **Parket** adalah format file biner berbasis kolom di mana data disimpan dan diproses lebih efisien daripada dalam format file yang dapat dibaca manusia seperti CSV. Ini menjadikannya pilihan yang lebih baik untuk masalah data besar.

**catatan**  
Dataset dapat terdiri dari beberapa file, yang masing-masing harus mematuhi template tertentu. Untuk informasi tentang cara memformat data input Anda, lihat[Format data input untuk fine-tuning berbasis instruksi](#autopilot-llms-finetuning-input-format).

## Format data input untuk fine-tuning berbasis instruksi
<a name="autopilot-llms-finetuning-input-format"></a>

Setiap file dalam kumpulan data harus mematuhi format berikut:
+ Dataset harus berisi tepat dua kolom yang dipisahkan koma dan diberi nama, dan. `input` `output` Autopilot tidak mengizinkan kolom tambahan. 
+ `input`Kolom berisi petunjuk, dan yang sesuai `output` berisi jawaban yang diharapkan. Keduanya `input` dan `output` dalam format string.

Contoh berikut menggambarkan format data input untuk fine-tuning berbasis instruksi di Autopilot.

```
input,output
"<prompt text>","<expected generated text>"
```

**catatan**  
Kami merekomendasikan penggunaan kumpulan data dengan minimal 1000 baris untuk memastikan pembelajaran dan kinerja model yang optimal.

Selain itu, Autopilot menetapkan batas maksimum jumlah baris dalam kumpulan data dan panjang konteks berdasarkan jenis model yang digunakan.
+ Batas jumlah baris dalam kumpulan data berlaku untuk jumlah kumulatif baris di semua file dalam kumpulan data, termasuk beberapa file. Jika ada dua [jenis saluran](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLChannel.html) yang ditentukan (satu untuk pelatihan dan satu untuk validasi), batas tersebut berlaku untuk jumlah total baris di semua kumpulan data dalam kedua saluran. Ketika jumlah baris melebihi ambang batas, pekerjaan gagal dengan kesalahan validasi.
+ Ketika panjang input atau output baris dalam kumpulan data melebihi batas yang ditetapkan pada konteks model bahasa, maka secara otomatis terpotong. Jika lebih dari 60% baris dalam kumpulan data terpotong, baik dalam input atau outputnya, Autopilot gagal dalam pekerjaan dengan kesalahan validasi.

Tabel berikut menyajikan batas-batas untuk setiap model.


| JumpStart ID Model | `BaseModelName`dalam permintaan API | Batas Baris | Batas Panjang Konteks | 
| --- | --- | --- | --- | 
| huggingface-textgeneration-dolly-v2-3b-bf16 | Dolly3B | 10.000 baris | 1024 token | 
| huggingface-textgeneration-dolly-v2-7b-bf16 | Dolly7B | 10.000 baris | 1024 token | 
| huggingface-textgeneration-dolly-v2-12b-bf16 | Dolly12B | 10.000 baris | 1024 token | 
| huggingface-llm-falcon-7b-bf16 | Falcon7B | 1.000 baris | 1024 token | 
| huggingface-llm-falcon-7b-instruct-bf16 | Falcon7BInstruct | 1.000 baris | 1024 token | 
| huggingface-llm-falcon-40b-bf16 | Falcon40B | 10.000 baris | 1024 token | 
| huggingface-llm-falcon-40b-instruct-bf16 | Falcon40BInstruct | 10.000 baris | 1024 token | 
| huggingface-text2text-flan-t5-large | FlanT5L | 10.000 baris | 1024 token | 
| huggingface-text2text-flan-t5-xl | FlanT5XL | 10.000 baris | 1024 token | 
| huggingface-text2text-flan-t5-xxll | FlanT5XXL | 10.000 baris | 1024 token | 
| meta-textgeneration-llama-2-7b | Llama2-7B | 10.000 baris | 2048 token | 
| meta-textgeneration-llama-2-7b-f | Llama2-7BChat | 10.000 baris | 2048 token | 
| meta-textgeneration-llama-2-13b | Llama2-13B | 7.000 baris | 2048 token | 
| meta-textgeneration-llama-2-13b-f | Llama2-13BChat | 7.000 baris | 2048 token | 
| huggingface-llm-mistral-7b | Mistral7B | 10.000 baris | 2048 token | 
| huggingface-llm-mistral-7b-instruct | Mistral7BInstruct | 10.000 baris | 2048 token | 
| huggingface-textgeneration1-mpt-7b-bf16 | MPT7B | 10.000 baris | 1024 token | 
| huggingface-textgeneration1-mpt-7b-instruct-bf16 | MPT7BInstruct | 10.000 baris | 1024 token | 