

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 数据集文件类型和输入数据格式
<a name="autopilot-llms-finetuning-data-format"></a>

基于指令的微调使用带标签的数据集来提高针对特定自然语言处理 (NLP) 任务 LLMs 进行预训练的性能。标注示例的格式为提示-回答对，措辞为指示。



要了解支持的数据集文件类型，请参阅[支持的数据集文件类型](#autopilot-llms-finetuning-dataset-format)。

要了解输入数据格式，请参阅[基于指令的微调的输入数据格式](#autopilot-llms-finetuning-input-format)。

## 支持的数据集文件类型
<a name="autopilot-llms-finetuning-dataset-format"></a>

Autopilot 支持基于指令的微调数据集，格式为 CSV 文件（默认）或 Parquet 文件。
+ **CSV**（逗号分隔值）是一种基于行的文件格式，以人类可读的明文形式存储数据。
+ **Parquet** 是一种基于列的二进制文件格式，与 CSV 等人类可读文件格式相比，这种格式存储和处理数据的效率更高。这使它成为解决大数据问题的更好选择。

**注意**  
数据集可能包含多个文件，每个文件都必须符合特定的模板。有关如何格式化输入数据的信息，请参阅[基于指令的微调的输入数据格式](#autopilot-llms-finetuning-input-format)。

## 基于指令的微调的输入数据格式
<a name="autopilot-llms-finetuning-input-format"></a>

数据集中的每个文件都必须符合以下格式：
+ 数据集必须正好包含以逗号分隔的两个命名列，分别名为 `input` 和 `output`。Autopilot 不允许增加任何栏。
+ `input` 列包含提示，其对应的 `output` 包含预期答案。`input` 和 `output` 均为字符串格式。

以下示例说明了 Autopilot 中基于指令的微调的输入数据格式。

```
input,output
"<prompt text>","<expected generated text>"
```

**注意**  
我们建议使用至少包含 1000 行的数据集，以确保模型的最佳学习效果和性能。

此外，Autopilot 会根据所使用的模型类型，对数据集中的行数和上下文长度设置最大值限制。
+ 数据集中的行数限制适用于数据集中所有文件（包括多个文件）的累计行数。如果定义了两个[通道类型](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLChannel.html)（一个用于训练，一个用于验证），则限制适用于两个通道中所有数据集的行总数。当行数超过阈值时，作业会因验证错误而失败。
+ 当数据集中某行的输入或输出长度超过在语言模型上下文中设置的限制时，则会自动截断其内容。如果数据集中超过 60% 的行被截断，无论是在输入还是输出中，Autopilot 都会因验证错误而使作业失败。

下表列出了每种模型的限制。


| JumpStart 型号 | API 请求中的 `BaseModelName` | 行限制 | 上下文长度限制 | 
| --- | --- | --- | --- | 
| huggingface-textgeneration-dolly-v2-3b-bf16 | Dolly3B | 1 万行 | 1024 个令牌 | 
| huggingface-textgeneration-dolly-v2-7b-bf16 | Dolly7B | 1 万行 | 1024 个令牌 | 
| huggingface-textgeneration-dolly-v2-12b-bf16 | Dolly12B | 1 万行 | 1024 个令牌 | 
| huggingface-llm-falcon-7b-bf16 | Falcon7B | 1000 行 | 1024 个令牌 | 
| huggingface-llm-falcon-7b-instruct-bf16 | Falcon7BInstruct | 1000 行 | 1024 个令牌 | 
| huggingface-llm-falcon-40b-bf16 | Falcon40B | 1 万行 | 1024 个令牌 | 
| huggingface-llm-falcon-40b-instruct-bf16 | Falcon40BInstruct | 1 万行 | 1024 个令牌 | 
| huggingface-text2text-flan-t5-large | FlanT5L | 1 万行 | 1024 个令牌 | 
| huggingface-text2text-flan-t5-xl | FlanT5XL | 1 万行 | 1024 个令牌 | 
| huggingface-text2text-flan-t5-xxll | FlanT5XXL | 1 万行 | 1024 个令牌 | 
| meta-textgeneration-llama-2-7b | Llama2-7B | 1 万行 | 2048 个令牌 | 
| meta-textgeneration-llama-2-7b-f | Llama2-7BChat | 1 万行 | 2048 个令牌 | 
| meta-textgeneration-llama-2-13b | Llama2-13B | 7000 行 | 2048 个令牌 | 
| meta-textgeneration-llama-2-13b-f | Llama2-13BChat | 7000 行 | 2048 个令牌 | 
| huggingface-llm-mistral-7b | Mistral7B | 1 万行 | 2048 个令牌 | 
| huggingface-llm-mistral-7b-instruct | Mistral7BInstruct | 1 万行 | 2048 个令牌 | 
| huggingface-textgeneration1-mpt-7b-bf16 | MPT7B | 1 万行 | 1024 个令牌 | 
| huggingface-textgeneration1-mpt-7b-instruct-bf16 | MPT7BInstruct | 1 万行 | 1024 个令牌 | 