Opções de modelo de incorporação Conectores de fonte de dados compatíveis

Crie uma base de conhecimento gerenciada

Quando você cria uma base de conhecimento gerenciada, o Amazon Bedrock AgentCore gerencia a infraestrutura de armazenamento, indexação e recuperação para você. Por padrão, um modelo de incorporação gerenciado por serviços é usado e nenhuma seleção ou configuração de modelo é necessária. Em vez disso, você pode fornecer seu próprio modelo de incorporação Bedrock. Você também pode fornecer opcionalmente uma chave KMS para criptografia do armazenamento vetorial gerenciado.

Depois de criar a base de conhecimento, conecte-a a uma fonte de dados e inicie a ingestão. Para obter detalhes sobre como conectar uma fonte de dados, consulte Conectar uma fonte de dados. Para sincronizar uma fonte de dados, use a StartIngestionJob API. Para obter detalhes, consulte Sincronizar os dados com a base de conhecimento do Amazon Bedrock.

Para saber como criar uma base de conhecimento gerenciada, escolha a guia do seu método preferido:

Console

Para criar uma base de conhecimento gerenciada

Faça login no Console de gerenciamento da AWS e navegue até Amazon Bedrock AgentCore > Built-in ferramentas > Base de conhecimento.
Escolha Criar base de conhecimento gerenciada.
(Opcional) Expanda a seção Configurações adicionais da Base de Conhecimento para configurar o seguinte:
- Adicione uma descrição.
- Escolha um tipo de modelo de incorporação:
  - Gerenciado (padrão): um modelo de incorporação gerenciado por serviços é usado. Nenhuma seleção ou configuração de modelo é necessária.
  - Personalizado: selecione um modelo de incorporação Bedrock. Escolha o modelo para abrir o seletor de modelos, que mostra os fornecedores e modelos disponíveis (Amazon, Cohere).
- Configure as permissões do IAM: escolha Criar e usar uma nova função de serviço (recomendado) ou selecione uma função existente.
- Configure a AWS KMS criptografia para o armazenamento vetorial AWS gerenciado (chave gerenciada por padrão ou selecione uma chave KMS personalizada).
Em Fonte de dados, forneça um nome de fonte de dados.
Selecione seu tipo de fonte de dados no menu suspenso: Amazon S3, Confluence, Custom, Google Drive OneDrive ou Web Crawler. SharePoint
Defina as configurações de conexão da fonte de dados para o tipo de fonte de dados selecionado.
(Opcional) Expanda Análise e fragmentação de conteúdo para configurar o seguinte:
- A estratégia de análise é definida como Analisador gerenciado por padrão.
- Selecione uma estratégia de fragmentação de texto no menu suspenso:
  - Fragmentação padrão (recomendada): divide o texto em partes de tamanho fixo.
  - Fixed-size fragmentação: divide o texto no tamanho aproximado do token definido.
  - Sem fragmentação: para documentos pré-processados ou pré-divididos.
(Opcional) Expanda Configurações avançadas para configurar a indexação avançada. Em Indexação de conteúdo, o padrão indexa conteúdo baseado em texto de documentos comuns. Ative a indexação avançada para modalidades adicionais:
- Conteúdo visual em documentos: processa imagens incorporadas em arquivos.pdf, .docx, .ppt, .pptx.
- Arquivos de áudio: processa arquivos.mp3, .wav, .m4a, .flac, .ogg.
- Arquivos de vídeo: processa arquivos.mp4, .mov, .m4v.
Opcionalmente, defina um tamanho máximo de arquivo (MB) e configure a proteção contra exclusão de documentos.
(Opcional) Configure a entrega de registros para enviar registros de ingestão da base de conhecimento para um destino, como CloudWatch Logs, Amazon S3 ou Firehose.
Escolha Criar base de conhecimento.
Aguarde a criação da base de conhecimento e da fonte de dados (2 a 5 minutos). Se você criar uma base de conhecimento gerenciada com uma chave gerenciada pelo cliente, a criação poderá levar mais tempo.

API

Veja a seguir um exemplo de como criar uma base de conhecimento gerenciada e configurar sua fonte de dados usando a API com o SDK AWS CLI ou um SDK compatível, como Python. Depois de ligar CreateKnowledgeBase, você liga CreateDataSourcepara criar sua fonte de dados com suas informações de conexãodataSourceConfiguration.

Para saber mais sobre personalizações que você pode aplicar à ingestão incluindo o campo opcional vectorIngestionConfiguration, consulte Personalizar a ingestão para uma fonte de dados.

AWS Command Line Interface

Etapa 1: criar a base de conhecimento

Com um modelo de incorporação gerenciado (padrão):


aws bedrock-agent create-knowledge-base \
 --name "my-managed-kb" \
 --role-arn "arn:aws:iam::123456789012:role/BedrockKBRole" \
 --description "My managed knowledge base" \
 --knowledge-base-configuration file://kb-config.json

kb-config.json
{
    "type": "MANAGED",
    "managedKnowledgeBaseConfiguration": {
        "embeddingModelType": "MANAGED"
    }
}

Com um modelo de incorporação personalizado (modelo Bedrock fornecido pelo cliente):


aws bedrock-agent create-knowledge-base \
 --name "my-custom-embed-kb" \
 --role-arn "arn:aws:iam::123456789012:role/BedrockKBRole" \
 --description "My managed knowledge base with custom embedding" \
 --knowledge-base-configuration file://kb-config.json

kb-config.json
{
    "type": "MANAGED",
    "managedKnowledgeBaseConfiguration": {
        "embeddingModelType": "CUSTOM",
        "embeddingModelArn": "arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-embed-text-v2:0",
        "embeddingModelConfiguration": {
            "bedrockEmbeddingModelConfiguration": {
                "dimensions": 1024
            }
        }
    }
}

nota

Quando embeddingModelType é omitido, o padrão é. MANAGED Ao usarMANAGED, você não deve especificar embeddingModelArn ouembeddingModelConfiguration. Ao usarCUSTOM, os dois campos são obrigatórios.

Etapa 2: criar uma fonte de dados


aws bedrock-agent create-data-source \
 --name "S3-connector" \
 --description "S3 data source connector for Amazon Bedrock to use content in S3" \
 --knowledge-base-id "your-knowledge-base-id" \
 --data-source-configuration file://bedrock-s3-managed-connector-configuration.json \
 --data-deletion-policy "DELETE" \
 --vector-ingestion-configuration '{"parsingConfiguration":{"parsingStrategy":"SMART_PARSING"}}'

bedrock-s3-managed-connector-configuration.json
{
    "type": "MANAGED_KNOWLEDGE_BASE_CONNECTOR",
    "managedKnowledgeBaseConnectorConfiguration": {
        "mediaExtractionConfiguration": {
            "imageExtractionConfiguration": {
                "imageExtractionStatus": "ENABLED"
            }
        },
        "connectorParameters": {
            "type": "S3",
            "version": "1",
            "connectionConfiguration": {
                "bucketName": "your-test-s3-bucket",
                "bucketOwnerAccountId": "123456789012"
            },
            "deletionProtectionConfiguration": {
                "enableDeletionProtection": false
            }
        }
    }
}

Opções de modelo de incorporação

As bases de conhecimento gerenciadas oferecem suporte a dois tipos de modelos de incorporação:

Incorporação gerenciada (padrão) — Um modelo de incorporação gerenciado por serviços é usado automaticamente. Você não precisa selecionar um modelo, configurar dimensões ou gerenciar os limites de serviço da Bedrock para incorporação. O serviço lida com seleção de modelos, hospedagem e escalabilidade de forma transparente.
Incorporação personalizada — Você fornece seu próprio ARN do modelo de incorporação Bedrock. Ao usar um modelo de incorporação personalizado, você deve especificar as dimensões do modelo (1024) e o tipo de dados de incorporação float32. Os seguintes modelos de incorporação Bedrock são compatíveis:
- Incorporador de Texto do Amazon Titan v2
- Cohere Embed English v3
- Cohere Embed Multilingual v3
- Cohere Embed v4
- Incorporações multimodais do Amazon Nova

nota

Você não pode alterar o tipo de modelo de incorporação depois de criar a base de conhecimento. Para alternar entre incorporação gerenciada e personalizada, você deve criar uma nova base de conhecimento.

Importante

Se você criar uma base de conhecimento com um modelo de incorporação personalizado, o reranker gerenciado não estará disponível para essa base de conhecimento. Para usar o reranker gerenciado, crie sua base de conhecimento com o modelo padrão de incorporação gerenciada.

Conectores de fonte de dados compatíveis

As bases de conhecimento gerenciadas oferecem suporte aos seguintes conectores de fonte de dados:

Amazon S3
Confluence
Microsoft SharePoint
Google Drive
Microsoft OneDrive
Web Crawler
Conector personalizado

Para obter informações sobre como configurar conectores de fonte de dados, consulte Conectar uma fonte de dados.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Perfil de serviço da base de conhecimento

Conectar uma fonte de dados