

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Prepare os dados para ajustar seus modelos
<a name="model-customization-prepare"></a>

Para preparar os conjuntos de dados de treinamento e de validação para o modelo personalizado, crie arquivos `.jsonl`, em que cada linha é um objeto JSON correspondente a um registro. Antes de iniciar um trabalho de personalização de modelo, no mínimo é necessário preparar um conjunto de dados de treinamento. Os arquivos criados devem estar em conformidade com o formato do método de personalização e o modelo escolhido. Os registros internos devem estar de acordo com os requisitos de tamanho, dependendo do modelo. 

Para ter informações sobre requisitos de modelo, consulte [Requisitos do modelo para conjuntos de dados de treinamento e validação](#model-training-validation-requirements). Para ver as cotas padrão que se aplicam aos conjuntos de dados de treinamento e de validação usados para personalizar diferentes modelos, consulte as cotas de **Sum of training and validation records** em [Amazon Bedrock endpoints and quotas](https://docs.aws.amazon.com/general/latest/gr/bedrock.html) no Referência geral da AWS. 

Se um conjunto de dados de validação for compatível e o formato do seu conjunto de dados de treinamento e validação dependerem dos fatores a seguir. 
+ O tipo de tarefa de personalização de ajuste fino.
+ As modalidades de entrada e saída dos dados.

[Para obter informações sobre modelos de ajuste fino, consulte Amazon Nova Fine-tuning Amazon Nova modelos.](https://docs.aws.amazon.com/nova/latest/userguide/customize-fine-tune.html)

## Modalidades suportadas para ajuste fino
<a name="model-customization-data-support"></a>

As seções a seguir descrevem os diferentes recursos de ajuste fino suportados por cada modelo, organizados por suas modalidades de entrada e saída. [Para obter informações sobre modelos de ajuste fino, consulte Amazon Nova Fine-tuning Amazon Nova modelos.](https://docs.aws.amazon.com/nova/latest/userguide/customize-fine-tune.html)

**Text-to-Text modelos**

Text-to-Text os modelos podem ser ajustados para várias tarefas baseadas em texto, incluindo aplicativos conversacionais e não conversacionais. Para obter informações sobre como preparar dados para Text-to-Text modelos de ajuste fino, consulte. [Preparar dados para ajustar modelos de conversão de texto em texto](#preparing-text-data) 

Os seguintes modelos não conversacionais são otimizados para determinadas tarefas, como resumo, tradução e resposta a perguntas:
+ Amazon Titan Text G1 - Express
+ Amazon Titan Text G1 - Lite
+ Amazon Titan Text Premier
+ Cohere Command
+ Cohere Command Light
+ Meta Llama 3.1 8B Instruct
+ Meta Llama 3.1 70B Instruct

Os modelos conversacionais a seguir foram projetados para interações de um único turno e de vários turnos. Caso um modelo use a API Converse, seu conjunto de dados de ajuste fino deve seguir o formato de mensagem da API Converse e incluir mensagens do sistema, do usuário e do assistente. Para obter exemplos, consulte [Preparar dados para ajustar modelos de conversão de texto em texto](#preparing-text-data). Para ter mais informações sobre as operações da API Converse, consulte [Inferência usando a API Converse](conversation-inference.md).
+ Claude 3 Haiku da Anthropic
+ Llama 3.2 1B Instruct da Meta (formato API Converse)
+ Llama 3.2 3B Instruct da Meta (formato API Converse)
+ Llama 3.2 11B Instruct Vision da Meta (formato API Converse)
+ Llama 3.2 90B Instruct Vision da Meta (formato API Converse)
+ Llama 3.3 70B Vision Instruct da Meta (formato API Converse)

**Text-Image-to-Text & Text-to-Image modelo** s

Os modelos a seguir permitem o uso de ajuste fino para geração de imagens e processamento de imagens de texto. Esses modelos processam ou geram imagens com base na entrada de texto ou geram texto com base nas entradas de texto e de imagem. Para obter informações sobre como preparar dados para ajuste fino Text-Image-to-Text e Text-to-Image modelos de modelos, consulte. [Preparar os dados para ajustar modelos de processamento de imagem e texto](#preparing-image-text-data)
+ Amazon Titan Image Generator G1 V1
+ Llama 3.2 11B Instruct Vision da Meta
+ Llama 3.2 90B Instruct Vision da Meta
+ Llama 3.3 70B Vision Instruct da Meta

**Image-to-Embeddings**

Os modelos a seguir permitem o uso de ajuste fino para tarefas como classificação e recuperação. Esses modelos geram representações numéricas (incorporações) das entradas de imagem. Para obter informações sobre como preparar dados para Image-to-Embeddings modelos de ajuste fino, consulte. [Preparar dados para ajustar modelos de geração e incorporação de imagens](#preparing-image-generation-data)
+ Amazon Titan Multimodal Embeddings G1
+ Amazon Titan Image Generator G1 V1

## Requisitos do modelo para conjuntos de dados de treinamento e validação
<a name="model-training-validation-requirements"></a>

As seções a seguir listam os requisitos dos conjuntos de dados de treinamento e validação de um modelo. [Para obter informações sobre restrições de conjunto de dados para Amazon Nova modelos, consulte modelos. Fine-tuning Amazon Nova](https://docs.aws.amazon.com/nova/latest/userguide/customize-fine-tune.html)

### Amazon Titan Text Premier
<a name="quotas-cm-titan-premier"></a>


****  

| Description | Máximo (Fine-tuning) | 
| --- | --- | 
| Soma dos tokens de entrada e saída quando o tamanho do lote é 1 | 4.096 | 
| Soma dos tokens de entrada e saída quando o tamanho do lote é 2, 3 ou 4 | N/A | 
| Cota de caracteres por amostra no conjunto de dados | Cota de tokens x 6 (estimada) | 
| Tamanho do arquivo do conjunto de dados de treinamento | 1 GB | 
| Tamanho do arquivo do conjunto de dados de validação | 100 MB | 

### Amazon Titan Text G1 – Express
<a name="quotas-cm-titan-text"></a>


****  

| Description | Máximo (Fine-tuning) | 
| --- | --- | 
| Soma dos tokens de entrada e saída quando o tamanho do lote é 1 | 4.096 | 
| Soma dos tokens de entrada e saída quando o tamanho do lote é 2, 3 ou 4 | 2.048 | 
| Cota de caracteres por amostra no conjunto de dados | Cota de tokens x 6 (estimada) | 
| Tamanho do arquivo do conjunto de dados de treinamento | 1 GB | 
| Tamanho do arquivo do conjunto de dados de validação | 100 MB | 

### Amazon Titan Text G1 – Lite
<a name="quotas-cm-titan-text-lite"></a>


****  

| Description | Máximo (Fine-tuning) | 
| --- | --- | 
| Soma dos tokens de entrada e saída quando o tamanho do lote é 1 ou 2 | 4.096 | 
| Soma dos tokens de entrada e saída quando o tamanho do lote é 3, 4, 5 ou 6 | 2.048 | 
| Cota de caracteres por amostra no conjunto de dados | Cota de tokens x 6 (estimada) | 
| Tamanho do arquivo do conjunto de dados de treinamento | 1 GB | 
| Tamanho do arquivo do conjunto de dados de validação | 100 MB | 

### Amazon G1 do Gerador de Imagens do Titan v1
<a name="quotas-cm-titan-image"></a>


****  

| Description | Mínimo (Fine-tuning) | Máximo (Fine-tuning) | 
| --- | --- | --- | 
| Tamanho do prompt de texto na amostra de treinamento, em caracteres | 3 | 1,024 | 
| Registros em um conjunto de dados de treinamento | 5 | 10.000 | 
| Tamanho da imagem de entrada | 0 | 50 MB | 
| Altura da imagem de entrada em pixels | 512 | 4.096 | 
| Largura da imagem de entrada em pixels | 512 | 4.096 | 
| Total de pixels da imagem de entrada | 0 | 12.582.912 | 
| Proporção da imagem de entrada | 1:4 | 4:1 | 

### Amazon Incorporador Multimodal do Titan G1
<a name="quotas-cm-titan-mm-embed"></a>


****  

| Description | Mínimo (Fine-tuning) | Máximo (Fine-tuning) | 
| --- | --- | --- | 
| Tamanho do prompt de texto na amostra de treinamento, em caracteres | 0 | 2.560 | 
| Registros em um conjunto de dados de treinamento | 1.000 | 500.000 | 
| Tamanho da imagem de entrada | 0 | 5 MB | 
| Altura da imagem de entrada em pixels | 128 | 4096 | 
| Largura da imagem de entrada em pixels | 128 | 4096 | 
| Total de pixels da imagem de entrada | 0 | 12.528.912 | 
| Proporção da imagem de entrada | 1:4 | 4:1 | 

### Meta Llama 3.1
<a name="quotas-cm-meta-llama-3-1"></a>


****  

| Description | Mínimo (Fine-tuning) | Máximo (Fine-tuning) | 
| --- | --- | --- | 
| Tokens de entrada | 0 | 16.000 | 
| Tokens de saída | 0 | 16.000 | 
| Cota de caracteres por amostra no conjunto de dados | 0 | Cota de tokens x 6 (estimada) | 
| Soma dos tokens de entrada e saída | 0 | 16.000 | 
| Soma dos registros de treinamento e validação | 100 | 10 mil (ajustável usando cotas de serviço) | 

### Meta Lhama 3.2
<a name="quotas-cm-meta-llama-3-2"></a>

Os formatos de imagem compatíveis para o Meta Llama-3.2 11B Vision Instruct e o Meta Llama-3.2 90B Vision Instruct incluem: `gif`, `jpeg`, `png` e `webp`. Para estimar a conversão de imagem em token durante o ajuste fino desses modelos, você pode usar esta fórmula como estimativa: `Tokens = min(2, max(Height // 560, 1)) * min(2, max(Width // 560, 1)) * 1601`. As imagens são convertidas em 1.601 a 6.404 tokens com base no respectivo tamanho.


****  

| Description | Mínimo (Fine-tuning) | Máximo (Fine-tuning) | 
| --- | --- | --- | 
| Soma dos tokens de entrada e saída | 0 | 16 mil (10 mil para Meta Llama 3.2 90B) | 
| Soma dos registros de treinamento e validação | 100 | 10 mil (ajustável usando cotas de serviço) | 
| Tamanho da imagem de entrada (para modelos Meta Llama 11B and 90B instruct) | 0 | 10 MB | 
| Altura da imagem de entrada em pixels para os modelos Meta Llama 11B and 90B instruct | 10 | 8192 | 
| Largura da imagem de entrada em pixels para os modelos Meta Llama 11B and 90B90B instruct | 10 | 8192 | 

### Meta Lhama 3.3
<a name="quotas-cm-meta-llama-3-3"></a>


****  

| Description | Mínimo (Fine-tuning) | Máximo (Fine-tuning) | 
| --- | --- | --- | 
| Soma dos tokens de entrada e saída | 0 | 16000 | 
| Soma dos registros de treinamento e validação | 100 | 10 mil (ajustável usando cotas de serviço) | 

### CohereCommand
<a name="quotas-cm-cohere-command"></a>


****  

| Description | Máximo (Fine-tuning) | 
| --- | --- | 
| Tokens de entrada | 4.096 | 
| Tokens de saída | 2.048 | 
| Cota de caracteres por amostra no conjunto de dados | Cota de tokens x 6 (estimada) | 
| Registros em um conjunto de dados de treinamento | 10.000 | 
| Registros em um conjunto de dados de validação | 1.000 | 

### Anthropic Claude 3 Haiku
<a name="anthropic-claude-3-haiku"></a>


****  

| Description | Máximo (Fine-tuning) | 
| --- | --- | 
| Número máximo de registros | 32 | 
| Máximo de registros de treinamento | 10.000 | 
| Registros máximos de validação | 1.000 | 
| Total máximo de registros | 10 mil (ajustável usando cotas de serviço) | 
| Máximo de tokens | 32.000 | 
| Tamanho máximo do conjunto de dados de treinamento | 10 GB | 
| Tamanho máximo do conjunto de dados de validação | 1 GB | 

## Preparar dados para ajustar modelos de conversão de texto em texto
<a name="preparing-text-data"></a>

**nota**  
[Para obter informações sobre modelos de ajuste fino, consulte Amazon Nova Fine-tuning Amazon Nova modelos.](https://docs.aws.amazon.com/nova/latest/userguide/customize-fine-tune.html)

Para ajustar modelos de conversão de texto em texto, cada objeto JSON é uma amostra que contém campos estruturados projetados para orientar o modelo a gerar a saída textual desejada com base em um prompt textual fornecido. O formato dos dados varia de acordo com o caso de uso, amplamente categorizado em casos de uso não conversacionais e conversacionais.

------
#### [ Non-conversational tasks ]

Non-conversational as tarefas envolvem a geração de uma única saída para uma determinada entrada. Cada amostra do conjunto de dados inclui um campo `prompt` contendo o texto de entrada e um campo `completion` com a saída esperada. Esse formato permite uma variedade de tarefas, como resposta a perguntas, resumo, tradução, preenchimento de texto e extração de informações.

Formato de exemplo

```
{"prompt": "What is the capital of France?", "completion": "The capital of France is Paris."}
{"prompt": "Summarize the article about climate change.", "completion": "Climate change refers to the long-term alteration of temperature and typical weather patterns in a place."}
```

Use aproximadamente seis caracteres por token para estimar o número de tokens para o planejamento do tamanho do conjunto de dados.

------
#### [ Converse API format (Single turn and Multi turn) ]

Para usar a API Converse, você chama as operações `ConverseStream` ou `Converse` para enviar mensagens a um modelo. Para chamar `Converse`, é necessário ter a permissão para a operação `bedrock:InvokeModel`. Para chamar `ConverseStream`, é necessário ter a permissão para a operação `bedrock:InvokeModelWithResponseStream`. Para obter mais informações, consulte [Usar o Converse solicitações deUsando a API Converse (movida)](conversation-inference-call.md). Para ter mais informações sobre as operações da API Converse, consulte [Inferência usando a API Converse](conversation-inference.md).

Formato de exemplo

```
{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [
        {
            "text": "You are a digital assistant with a friendly personality"
        }
    ],
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "text": "What is the capital of Mars?"
                }
            ]
        },
        {
            "role": "assistant",
            "content": [
                {
                    "text": "Mars does not have a capital. Perhaps it will one day."
                }
            ]
        }
    ]
}
```

------
#### [ Anthropic Claude 3 Haiku: Single-turn conversations ]

Single-turn tarefas conversacionais envolvem trocas isoladas, nas quais o modelo gera uma resposta com base apenas na entrada atual do usuário, sem considerar o contexto anterior. Cada amostra do conjunto de dados usa uma matriz de mensagens, com perfis alternados de `user` e `assistant`.

Formato

```
{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}
```

Exemplo

```
{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
```

------
#### [ Anthropic Claude 3 Haiku: Multi-turn conversations ]

Multi-turn as tarefas conversacionais envolvem diálogos estendidos em que o modelo deve gerar respostas enquanto preserva o contexto das trocas anteriores. Esse formato captura a natureza dinâmica das tarefas interativas, como suporte ao cliente ou discussões complexas.

Formato

```
{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}
```

Exemplo

```
{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}  
```

------

## Preparar os dados para ajustar modelos de processamento de imagem e texto
<a name="preparing-image-text-data"></a>

**nota**  
[Para obter informações sobre modelos de ajuste fino, consulte Amazon Nova Fine-tuning Amazon Nova modelos.](https://docs.aws.amazon.com/nova/latest/userguide/customize-fine-tune.html)

Para ajustar modelos de imagem de texto em texto, cada objeto JSON é uma amostra que contém uma conversa estruturada como uma matriz de `messages`, que consistem em objetos JSON alternados que representam as entradas do usuário e as respostas do assistente. As entradas do usuário podem incluir texto e imagem, enquanto as respostas do assistente são sempre textuais. Essa estrutura permite fluxos de conversação de um e vários turnos e que o modelo gerencie diversas tarefas de forma eficaz. Os formatos de imagem compatíveis para o Meta Llama-3.2 11B Vision Instruct e o Meta Llama-3.2 90B Vision Instruct incluem: `gif`, `jpeg`, `png` e `webp`.

Para permitir que o Amazon Bedrock acesse os arquivos de imagem, adicione uma política do IAM semelhante à de [Permissões para acessar arquivos de treinamento e de validação e gravar os arquivos de saída no S3](model-customization-iam-role.md#model-customization-iam-role-s3) ao perfil de serviço do Amazon Bedrock de personalização de modelo do Amazon Bedrock que você configurou ou que foi configurado automaticamente para você no console. Os caminhos do Amazon S3 que você fornece no conjunto de dados de treinamento devem estar nas pastas que você especifica na política.

**Single-turn conversas**

Cada objeto JSON para conversas de um único turno consiste em uma mensagem de usuário e uma mensagem de assistente. A mensagem do usuário inclui um campo de perfil definido como *usuário* e um campo de *conteúdo* que contém uma matriz com um campo `type` (*texto* ou *imagem*) que descreve a modalidade de entrada. Para entradas de texto, o campo `content` inclui um campo `text` com a pergunta ou prompt do usuário. Para entradas de imagem, o campo `content` especifica a imagem `format` (por exemplo, *jpeg*, *png*) e a `source` com um `uri` apontando para o local da imagem no Amazon S3. O `uri` representa o caminho exclusivo para a imagem armazenada em um bucket do Amazon S3, normalmente no formato `s3://<bucket-name>/<path-to-file>`. A mensagem do assistente inclui um campo `role` definido como *assistente* e um campo `content` que contém uma matriz com um campo `type` definido como *texto* e um campo `text` que contém a resposta gerada do assistente.

Formato de exemplo

```
{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [{
        "text": "You are a smart assistant that answers questions respectfully"
    }],
    "messages": [{
            "role": "user",
            "content": [{
                    "text": "What does the text in this image say?"
                },
                {
                    "image": {
                        "format": "png",
                        "source": {
                            "s3Location": {
                                "uri": "s3://your-bucket/your-path/your-image.png",
                                "bucketOwner": "your-aws-account-id"
                            }
                        }
                    }
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The text in the attached image says 'LOL'."
            }]
        }
    ]
}
```

**Multi-turn conversas**

Cada objeto JSON para conversas em vários turnos contém uma sequência de mensagens com perfis alternados, em que as mensagens do usuário e as mensagens do assistente são estruturadas de forma consistente para permitir trocas coerentes. As mensagens do usuário incluem um campo `role` definido como *usuário* e um campo `content` que descreve a modalidade de entrada. Para entradas de texto, o campo `content` inclui um campo `text` com a pergunta ou acompanhamento do usuário, enquanto para entradas de imagem, ele especifica o `format` e a respectiva `source` da imagem com o `uri` apontando para o local da imagem no Amazon S3. O `uri` serve como um identificador exclusivo no formato s3://<bucket-name>/<path-to-file> e permite que o modelo acesse a imagem do bucket designado do Amazon S3. A mensagem do assistente inclui um campo `role` definido como *assistente* e um campo `content` que contém uma matriz com um campo `type` definido como *texto* e um campo `text` que contém a resposta gerada do assistente. As conversas podem abranger várias trocas, permitindo que o assistente mantenha o contexto e forneça respostas coerentes o tempo todo.

Formato de exemplo

```
{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [{
        "text": "You are a smart assistant that answers questions respectfully"
    }],
    "messages": [{
            "role": "user",
            "content": [{
                    "text": "What does the text in this image say?"
                },
                {
                    "image": {
                        "format": "png",
                        "source": {
                            "s3Location": {
                                "uri": "s3://your-bucket/your-path/your-image.png",
                                "bucketOwner": "your-aws-account-id"
                            }
                        }
                    }
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The text in the attached image says 'LOL'."
            }]
        },
        {
            "role": "user",
            "content": [{
                    "text": "What does the text in this image say?"
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The text in the attached image says 'LOL'."
            }]
        }
        
    ]
}
```

## Preparar dados para ajustar modelos de geração e incorporação de imagens
<a name="preparing-image-generation-data"></a>

**nota**  
Os modelos do Amazon Nova têm diferentes requisitos de ajuste fino. [Para ajustar esses modelos, siga as instruções nos modelos. Fine-tuning Amazon Nova](https://docs.aws.amazon.com/nova/latest/userguide/customize-fine-tune.html)

Para modelos de texto para imagem ou imagem para incorporação, prepare um conjunto de dados de treinamento. Os conjuntos de dados de validação não são compatíveis. Cada objeto do JSON é uma amostra que contém uma `image-ref`, o URI do Amazon S3 de uma imagem e um `caption` que pode ser um prompt da imagem.

As imagens devem estar no formato JPEG ou PNG e atender aos seguintes requisitos:
+ **Dimensões** — Cada lado deve ter entre 512 e 4.096 pixels.
+ **Proporção** — Entre 1:4 e 4:1.
+ **Total de pixels** — Não deve exceder 12.582.912 (aproximadamente 3.547 x 3.547).
+ **Tamanho do arquivo** — não deve exceder 50 MB por imagem.
+ **Tamanho da legenda** — entre 3 e 1.024 caracteres.

Para ver a lista completa de restrições, consulte. [Amazon G1 do Gerador de Imagens do Titan v1](#quotas-cm-titan-image)

```
{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}
```

Veja a seguir um exemplo de item.

```
{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}
```

Para permitir que o Amazon Bedrock acesse os arquivos de imagem, adicione uma política do IAM semelhante à de [Permissões para acessar arquivos de treinamento e de validação e gravar os arquivos de saída no S3](model-customization-iam-role.md#model-customization-iam-role-s3) ao perfil de serviço do Amazon Bedrock de personalização de modelo do Amazon Bedrock que você configurou ou que foi configurado automaticamente para você no console. Os caminhos do Amazon S3 que você fornece no conjunto de dados de treinamento devem estar nas pastas que você especifica na política.