

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Arquiteturas de geração aumentada de recuperação personalizada em AWS
<a name="rag-custom"></a>

A seção anterior descreve como usar um RAG (Geração Aumentada AWS service (Serviço da AWS) de Recuperação) totalmente gerenciado. No entanto, alguns casos de uso exigem mais controle sobre os componentes do sistema, como o recuperador ou o LLM (também chamado de *gerador*). Por exemplo, talvez você precise da flexibilidade de escolher seu próprio banco de dados vetorial ou acessar uma fonte de dados sem suporte. Para esses casos de uso, você pode criar uma arquitetura RAG personalizada.

Esta seção contém os seguintes tópicos:
+ [Recuperadores para fluxos de trabalho do RAG](rag-custom-retrievers.md)
+ [Geradores para fluxos de trabalho do RAG](rag-custom-generators.md)

Para obter mais informações sobre como escolher entre as opções de recuperador e gerador nesta seção, consulte [Escolhendo uma opção de geração aumentada de recuperação em AWS](choosing-option.md) este guia.

# Recuperadores para fluxos de trabalho do RAG
<a name="rag-custom-retrievers"></a>

Esta seção explica como criar um retriever. Você pode usar uma solução de pesquisa semântica totalmente gerenciada, como o Amazon Kendra, ou criar uma pesquisa semântica personalizada usando um banco de dados vetoriais. AWS 

Antes de analisar as opções do recuperador, certifique-se de compreender as três etapas do processo de pesquisa vetorial:

1. Você separa os documentos que precisam ser indexados em partes menores. Isso é chamado de *fragmentação*.

1. Você usa um processo chamado [incorporação](https://community.aws/concepts/vector-embeddings-and-rag-demystified#embeddings) para converter cada fragmento em um vetor matemático. Em seguida, você indexa cada vetor em um banco de dados vetoriais. A abordagem usada para indexar os documentos influencia a velocidade e a precisão da pesquisa. A abordagem de indexação depende do banco de dados vetoriais e das opções de configuração que ele fornece.

1. Você converte a consulta do usuário em um vetor usando o mesmo processo. O recuperador pesquisa no banco de dados vetoriais por vetores semelhantes ao vetor de consulta do usuário. [A similaridade](https://community.aws/concepts/vector-embeddings-and-rag-demystified#distance-metrics-between-embeddings) é calculada usando métricas como distância euclidiana, distância do cosseno ou produto escalar.

Este guia descreve como usar os serviços a seguir Serviços da AWS ou de terceiros para criar uma camada de recuperação personalizada em AWS:
+ [Amazon Kendra](#rag-custom-kendra)
+ [OpenSearch Serviço Amazon](#rag-custom-opensearch)
+ [Amazon Aurora PostgreSQL e pgvector](#rag-custom-aurora)
+ [Amazon Neptune Analytics](#rag-custom-neptune)
+ [Amazon MemoryDB](#rag-custom-memorydb)
+ [Amazon DocumentDB](#rag-custom-docdb)
+ [Pinecone](#rag-custom-pinecone)
+ [MongoDB Atlas](#rag-custom-mongodb-atlas)
+ [Weaviate](#rag-custom-weaviate)

## Amazon Kendra
<a name="rag-custom-kendra"></a>

[O Amazon Kendra](https://docs.aws.amazon.com/kendra/latest/dg/what-is-kendra.html) é um serviço de pesquisa inteligente e totalmente gerenciado que usa processamento de linguagem natural e algoritmos avançados de aprendizado de máquina para retornar respostas específicas às perguntas de pesquisa de seus dados. O Amazon Kendra ajuda você a ingerir documentos diretamente de várias fontes e consultá-los depois de serem sincronizados com sucesso. O processo de sincronização cria a infraestrutura necessária para criar uma pesquisa vetorial no documento ingerido. Portanto, o Amazon Kendra não exige as três etapas tradicionais do processo de busca vetorial. Após a sincronização inicial, você pode usar um cronograma definido para lidar com a ingestão contínua. 

A seguir estão as vantagens de usar o Amazon Kendra para RAG:
+ Você não precisa manter um banco de dados vetoriais porque o Amazon Kendra gerencia todo o processo de pesquisa vetorial.
+ O Amazon Kendra contém conectores pré-criados para fontes de dados populares, como bancos de dados, rastreadores de sites, buckets, instâncias e instâncias do Amazon S3. Microsoft SharePoint Atlassian Confluence Conectores desenvolvidos por AWS parceiros estão disponíveis, como conectores para e. Box GitLab
+ O Amazon Kendra fornece filtragem de lista de controle de acesso (ACL) que retorna somente documentos aos quais o usuário final tem acesso.
+ O Amazon Kendra pode impulsionar as respostas com base em metadados, como data ou repositório de origem.

A imagem a seguir mostra um exemplo de arquitetura que usa o Amazon Kendra como a camada de recuperação do sistema RAG. Para obter mais informações, consulte [Crie rapidamente aplicativos de IA generativa de alta precisão em dados corporativos usando Amazon Kendra LangChain e grandes modelos de linguagem (postagem](https://aws.amazon.com/blogs/machine-learning/quickly-build-high-accuracy-generative-ai-applications-on-enterprise-data-using-amazon-kendra-langchain-and-large-language-models/) no blog).AWS 



![\[Usando o Amazon Kendra como camada de recuperação para um sistema RAG em. AWS\]](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/retrieval-augmented-generation-options/images/architecture-custom-kendra.png)


[Para o modelo básico, você pode usar o Amazon Bedrock ou um LLM implantado por meio do Amazon AI. SageMaker JumpStart](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-jumpstart.html) Você pode usar AWS Lambda with [https://python.langchain.com/docs/integrations/tools/awslambda/](https://python.langchain.com/docs/integrations/tools/awslambda/)para orquestrar o fluxo entre o usuário, a Amazon Kendra e o LLM. Para criar um sistema RAG que usa o Amazon LangChain Kendra LLMs e vários outros, consulte o repositório [Amazon LangChain Kendra](https://github.com/aws-samples/amazon-kendra-langchain-extensions) Extensions. GitHub 

## OpenSearch Serviço Amazon
<a name="rag-custom-opensearch"></a>

O [Amazon OpenSearch Service](https://docs.aws.amazon.com/opensearch-service/latest/developerguide/what-is.html) fornece algoritmos de ML integrados para pesquisas de [k vizinhos mais próximos (k-NN) a fim de realizar uma pesquisa](https://docs.opensearch.org/latest/vector-search/vector-search-techniques/index/) vetorial. OpenSearch O serviço também fornece um [mecanismo vetorial para o Amazon EMR](https://aws.amazon.com/opensearch-service/serverless-vector-engine/) Serverless. Você pode usar esse mecanismo vetorial para criar um sistema RAG que tenha recursos de pesquisa e armazenamento vetorial escaláveis e de alto desempenho. Para obter mais informações sobre como criar um sistema RAG usando o OpenSearch Serverless, consulte [Criar fluxos de trabalho RAG escaláveis e sem servidor com um mecanismo vetorial para os modelos Amazon Serverless e Amazon Bedrock Claude ( OpenSearch postagem no blog](https://aws.amazon.com/blogs/big-data/build-scalable-and-serverless-rag-workflows-with-a-vector-engine-for-amazon-opensearch-serverless-and-amazon-bedrock-claude-models/)).AWS 

A seguir estão as vantagens de usar o OpenSearch Service para pesquisa vetorial:
+ Ele fornece controle total sobre o banco de dados vetoriais, incluindo a criação de uma pesquisa vetorial escalável usando o OpenSearch Serverless.
+ Ele fornece controle sobre a estratégia de fragmentação.
+ Ele usa algoritmos de vizinho mais próximo aproximado (ANN) das bibliotecas [Non-Metric Space Library (NMSLIB)](https://github.com/nmslib/nmslib), [Faiss](https://github.com/facebookresearch/faiss) [e Apache Lucene](https://lucene.apache.org/) para potencializar uma pesquisa k-NN. Você pode alterar o algoritmo com base no caso de uso. Para obter mais informações sobre as opções para personalizar a pesquisa vetorial por meio do OpenSearch Service, consulte [Explicação sobre os recursos do banco de dados vetoriais do Amazon OpenSearch Service](https://aws.amazon.com/blogs/big-data/amazon-opensearch-services-vector-database-capabilities-explained/) (postagem AWS no blog).
+ OpenSearch O Serverless se integra às bases de conhecimento do Amazon Bedrock como um índice vetorial.

## Amazon Aurora PostgreSQL e pgvector
<a name="rag-custom-aurora"></a>

A [edição compatível com o Amazon Aurora PostgreSQL](https://docs.aws.amazon.com/AmazonRDS/latest/AuroraUserGuide/Aurora.AuroraPostgreSQL.html) é um mecanismo de banco de dados relacional totalmente gerenciado que ajuda você a configurar, operar e escalar implantações do PostgreSQL. [pgvector](https://github.com/pgvector/pgvector/) é uma extensão PostgreSQL de código aberto que fornece recursos de pesquisa por similaridade vetorial. Essa extensão está disponível tanto para o Aurora PostgreSQL compatível quanto para o Amazon Relational Database Service (Amazon RDS) para PostgreSQL. Para obter mais informações sobre como criar um sistema baseado em RAG que usa o Aurora PostgreSQL e o pgvector, consulte as seguintes postagens no blog: AWS 
+ [Criando pesquisas com inteligência artificial no PostgreSQL usando Amazon AI e pgvector SageMaker ](https://aws.amazon.com/blogs/database/building-ai-powered-search-in-postgresql-using-amazon-sagemaker-and-pgvector/)
+ [Utilize o pgvector e o Amazon Aurora PostgreSQL para processamento de linguagem natural, chatbots e análise de sentimentos](https://aws.amazon.com/blogs/database/leverage-pgvector-and-amazon-aurora-postgresql-for-natural-language-processing-chatbots-and-sentiment-analysis/)

Veja a seguir as vantagens de usar pgvector e Aurora PostgreSQL compatíveis:
+ Ele suporta a pesquisa exata e aproximada do vizinho mais próximo. Ele também suporta as seguintes métricas de similaridade: distância L2, produto interno e distância do cosseno.
+ Ele suporta [arquivo invertido com compressão plana (IVFFlat)](https://github.com/pgvector/pgvector#ivfflat) e indexação [hierárquica de mundos pequenos navegáveis (](https://github.com/pgvector/pgvector#hnsw)HNSW).
+ Você pode combinar a pesquisa vetorial com consultas sobre dados específicos do domínio que estão disponíveis na mesma instância do PostgreSQL.
+ O Aurora compatível com PostgreSQL é otimizado e fornece armazenamento em cache em camadas. I/O Para cargas de trabalho que excedem a memória de instância disponível, o pgvector pode aumentar as consultas por segundo para pesquisa vetorial em [até](https://docs.aws.amazon.com/AmazonRDS/latest/AuroraUserGuide/AuroraPostgreSQL.optimized.reads.html) 8 vezes.

## Amazon Neptune Analytics
<a name="rag-custom-neptune"></a>

[O Amazon Neptune](https://docs.aws.amazon.com/neptune-analytics/latest/userguide/what-is-neptune-analytics.html) Analytics é um mecanismo de banco de dados gráfico otimizado para memória para análise. Ele oferece suporte a uma biblioteca de algoritmos analíticos gráficos otimizados, consultas gráficas de baixa latência e recursos de pesquisa vetorial em travessias gráficas. Ele também possui pesquisa de similaridade vetorial integrada. Ele fornece um ponto final para criar um gráfico, carregar dados, invocar consultas e realizar pesquisas de similaridade vetorial. Para obter mais informações sobre como criar um sistema baseado em RAG que usa o Neptune Analytics, [consulte Usando gráficos de conhecimento para criar aplicativos GraphRag com o Amazon Bedrock e o Amazon](https://aws.amazon.com/blogs/database/using-knowledge-graphs-to-build-graphrag-applications-with-amazon-bedrock-and-amazon-neptune/) Neptune (postagem do blog).AWS 

A seguir estão as vantagens de usar o Neptune Analytics:
+ Você pode armazenar e pesquisar incorporações em consultas gráficas.
+ Se você integrar o Neptune Analytics LangChain com, essa arquitetura oferece suporte a consultas gráficas em linguagem natural.
+ Essa arquitetura armazena grandes conjuntos de dados gráficos na memória.

## Amazon MemoryDB
<a name="rag-custom-memorydb"></a>

[O Amazon MemoryDB](https://docs.aws.amazon.com/memorydb/latest/devguide/what-is-memorydb.html) é um serviço de banco de dados em memória durável que oferece desempenho ultrarrápido. Todos os seus dados são armazenados na memória, que suporta leitura em microssegundos, latência de gravação de um dígito em milissegundos e alta taxa de transferência. A [pesquisa vetorial do MemoryDB](https://docs.aws.amazon.com/memorydb/latest/devguide/vector-search-overview.html) amplia a funcionalidade do MemoryDB e pode ser usada em conjunto com a funcionalidade existente do MemoryDB. Para obter mais informações, consulte a [Resposta de perguntas com o repositório LLM e RAG ativado](https://github.com/aws-samples/rag-with-amazon-bedrock-and-memorydb/tree/main). GitHub

O diagrama a seguir mostra um exemplo de arquitetura que usa o MemoryDB como banco de dados vetorial.



![\[Um aplicativo generativo de IA que recupera o contexto de um banco de dados vetorial MemoryDB.\]](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/retrieval-augmented-generation-options/images/architecture-custom-memorydb.png)


A seguir estão as vantagens de usar o MemoryDB:
+ Ele suporta algoritmos de indexação Flat e HNSW. Para obter mais informações, consulte A [pesquisa vetorial do Amazon MemoryDB agora está disponível ao público em geral no AWS blog](https://aws.amazon.com/blogs/aws/vector-search-for-amazon-memorydb-is-now-generally-available/) de notícias.
+ Ele também pode atuar como uma memória de buffer para o modelo básico. Isso significa que as perguntas respondidas anteriormente são recuperadas do buffer em vez de passarem pelo processo de recuperação e geração novamente. O diagrama a seguir mostra esse processo.  
![\[Armazenar uma resposta em um banco de dados MemoryDB para que ela possa ser recuperada da memória do buffer.\]](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/retrieval-augmented-generation-options/images/memorydb-fm-buffer.png)
+ Como usa um banco de dados na memória, essa arquitetura fornece um tempo de consulta de milissegundos de um dígito para a pesquisa semântica.
+ Ele fornece até 33.000 consultas por segundo com 95— 99% de recall e 26.500 consultas por segundo com mais de 99% de recall. Para obter mais informações, consulte o vídeo [AWS re:Invent 2023 - Pesquisa vetorial de latência ultrabaixa para Amazon](https://www.youtube.com/watch?v=AaMh3rdu-p0) MemoryDB em. YouTube

## Amazon DocumentDB
<a name="rag-custom-docdb"></a>

O [Amazon DocumentDB (compatível com MongoDB)](https://docs.aws.amazon.com/documentdb/latest/developerguide/what-is.html) é um serviço de banco de dados rápido, confiável e inteiramente gerenciado. Ele facilita a configuração, a operação e a escalabilidade de bancos MongoDB de dados compatíveis na nuvem. A [pesquisa vetorial do Amazon DocumentDB](https://docs.aws.amazon.com/documentdb/latest/developerguide/vector-search.html) combina a flexibilidade e a rica capacidade de consulta de um banco de dados de documentos baseado em JSON com o poder da pesquisa vetorial. Para obter mais informações, consulte a [Resposta de perguntas com o repositório LLM e RAG ativado](https://github.com/aws-samples/rag-with-amazon-bedrock-and-documentdb/tree/main). GitHub

O diagrama a seguir mostra um exemplo de arquitetura que usa o Amazon DocumentDB como banco de dados vetoriais.



![\[Um aplicativo generativo de IA que recupera o contexto de um banco de dados vetorial Amazon DocumentDB.\]](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/retrieval-augmented-generation-options/images/architecture-custom-documentdb.png)


O diagrama mostra o seguinte fluxo de trabalho:

1. O usuário envia uma consulta para o aplicativo generativo de IA.

1. O aplicativo generativo de IA realiza uma pesquisa por similaridade no banco de dados vetorial Amazon DocumentDB e recupera os extratos relevantes do documento.

1. O aplicativo generativo de IA atualiza a consulta do usuário com o contexto recuperado e envia a solicitação ao modelo básico de destino.

1. O modelo básico usa o contexto para gerar uma resposta à pergunta do usuário e retorna a resposta.

1. O aplicativo generativo de IA retorna a resposta ao usuário.

A seguir estão as vantagens de usar o Amazon DocumentDB:
+ Ele suporta tanto o HNSW quanto os métodos de IVFFlat indexação.
+ Ele suporta até 2.000 dimensões nos dados vetoriais e suporta as métricas de distância do produto euclidiano, cosseno e ponto.
+ Ele fornece tempos de resposta em milissegundos.

## Pinecone
<a name="rag-custom-pinecone"></a>

[https://www.pinecone.io/](https://www.pinecone.io/)é um banco de dados vetorial totalmente gerenciado que ajuda você a adicionar a pesquisa vetorial aos aplicativos de produção. Ele está disponível por meio do [AWS Marketplace](https://aws.amazon.com/marketplace/pp/prodview-xhgyscinlz4jk). O faturamento é baseado no uso, e as cobranças são calculadas multiplicando o preço do pod pela contagem do pod. Para obter mais informações sobre como criar um sistema baseado em RAG que usaPinecone, consulte as seguintes postagens no AWS blog:
+ [Mitigue alucinações por meio de RAG usando banco de dados Pinecone vetoriais e Llama-2 da Amazon AI SageMaker JumpStart](https://aws.amazon.com/blogs/machine-learning/mitigate-hallucinations-through-retrieval-augmented-generation-using-pinecone-vector-database-llama-2-from-amazon-sagemaker-jumpstart/)
+ [Use o Amazon SageMaker AI Studio para criar uma solução de resposta a perguntas RAG com o Llama 2,LangChain, e Pinecone para uma rápida experimentação](https://aws.amazon.com/blogs/machine-learning/use-amazon-sagemaker-studio-to-build-a-rag-question-answering-solution-with-llama-2-langchain-and-pinecone-for-fast-experimentation/)

O diagrama a seguir mostra uma arquitetura de exemplo usada Pinecone como banco de dados vetoriais.



![\[Um aplicativo generativo de IA que recupera o contexto de um banco de dados Pinecone vetoriais.\]](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/retrieval-augmented-generation-options/images/architecture-custom-pinecone.png)


O diagrama mostra o seguinte fluxo de trabalho:

1. O usuário envia uma consulta para o aplicativo generativo de IA.

1. O aplicativo generativo de IA realiza uma pesquisa por similaridade no banco de dados Pinecone vetorial e recupera os extratos relevantes do documento.

1. O aplicativo generativo de IA atualiza a consulta do usuário com o contexto recuperado e envia a solicitação ao modelo básico de destino.

1. O modelo básico usa o contexto para gerar uma resposta à pergunta do usuário e retorna a resposta.

1. O aplicativo generativo de IA retorna a resposta ao usuário.

A seguir estão as vantagens de usarPinecone:
+ É um banco de dados vetorial totalmente gerenciado e elimina a sobrecarga de gerenciar sua própria infraestrutura.
+ Ele fornece os recursos adicionais de filtragem, atualizações dinâmicas de índices e aumento de palavras-chave (pesquisa híbrida).

## MongoDB Atlas
<a name="rag-custom-mongodb-atlas"></a>

[https://www.mongodb.com/lp/cloud/atlas/try4](https://www.mongodb.com/lp/cloud/atlas/try4)é um banco de dados em nuvem totalmente gerenciado que lida com toda a complexidade da implantação e do gerenciamento de suas implantações no. AWS Você pode usar a [Pesquisa vetorial MongoDB Atlas para](https://www.mongodb.com/products/platform/atlas-vector-search) armazenar incorporações vetoriais em seu MongoDB banco de dados. As bases de conhecimento do Amazon Bedrock oferecem suporte MongoDB Atlas para armazenamento vetorial. Para obter mais informações, consulte [Get Started with the Amazon Bedrock Knowledge Base Integration](https://www.mongodb.com/docs/atlas/atlas-vector-search/ai-integrations/amazon-bedrock/) na MongoDB documentação.

Para obter mais informações sobre como usar a pesquisa MongoDB Atlas vetorial para RAG, consulte [Retrieval-Augmented Generation with, LangChain Amazon SageMaker AI e MongoDB Atlas Semantic Search ( JumpStartpostagem](https://aws.amazon.com/blogs/machine-learning/retrieval-augmented-generation-with-langchain-amazon-sagemaker-jumpstart-and-mongodb-atlas-semantic-search/) no blog).AWS O diagrama a seguir mostra a arquitetura da solução detalhada nesta postagem do blog.



![\[Usando a pesquisa MongoDB Atlas vetorial para recuperar o contexto de um aplicativo de IA generativa baseado em RAG.\]](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/retrieval-augmented-generation-options/images/architecture-custom-mongodb-atlas.png)


A seguir estão as vantagens de usar a pesquisa MongoDB Atlas vetorial:
+ Você pode usar sua implementação existente do MongoDB Atlas para armazenar e pesquisar incorporações vetoriais.
+ Você pode usar a [API de MongoDB consulta](https://www.mongodb.com/docs/manual/query-api/) para consultar as incorporações vetoriais.
+ Você pode escalar de forma independente a pesquisa vetorial e o banco de dados.
+ As incorporações vetoriais são armazenadas perto dos dados de origem (documentos), o que melhora o desempenho da indexação.

## Weaviate
<a name="rag-custom-weaviate"></a>

[https://weaviate.io/](https://weaviate.io/)é um popular banco de dados vetorial de código aberto e baixa latência que oferece suporte a tipos de mídia multimodais, como texto e imagens. O banco de dados armazena objetos e vetores, o que combina pesquisa vetorial com filtragem estruturada. Para obter mais informações sobre como usar o Weaviate Amazon Bedrock para criar um fluxo de trabalho RAG, consulte [Crie soluções de IA generativa prontas para empresas com modelos básicos Cohere no Amazon Bedrock Weaviate e banco de dados vetoriais em](https://aws.amazon.com/blogs/machine-learning/build-enterprise-ready-generative-ai-solutions-with-cohere-foundation-models-in-amazon-bedrock-and-weaviate-vector-database-on-aws-marketplace/) (postagem do blog). AWS MarketplaceAWS 

A seguir estão as vantagens de usarWeaviate:
+ É de código aberto e apoiado por uma comunidade forte.
+ Ele foi criado para pesquisa híbrida (vetores e palavras-chave).
+ Você pode implantá-lo AWS como uma oferta gerenciada de software como serviço (SaaS) ou como um cluster Kubernetes.

# Geradores para fluxos de trabalho do RAG
<a name="rag-custom-generators"></a>

[Modelos de linguagem grandes (LLMs)](https://aws.amazon.com/what-is/large-language-model/) são modelos de [aprendizado profundo](https://aws.amazon.com/what-is/deep-learning/) muito grandes que são pré-treinados em grandes quantidades de dados. Eles são incrivelmente flexíveis. LLMs pode realizar tarefas variadas, como responder perguntas, resumir documentos, traduzir idiomas e completar frases. Eles têm o potencial de interromper a criação de conteúdo e a forma como as pessoas usam mecanismos de pesquisa e assistentes virtuais. Embora não seja perfeito, LLMs demonstre uma capacidade notável de fazer previsões com base em um prompt ou número de entradas relativamente pequeno.

LLMs são um componente essencial de uma solução RAG. Para arquiteturas RAG personalizadas, há duas Serviços da AWS que servem como opções principais:
+ [O Amazon Bedrock](https://docs.aws.amazon.com/bedrock/latest/userguide/what-is-bedrock.html) é um serviço totalmente gerenciado que disponibiliza as principais empresas LLMs de IA e a Amazon para seu uso por meio de uma API unificada.
+ [O Amazon SageMaker AI JumpStart](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-jumpstart.html) é um hub de ML que oferece modelos básicos, algoritmos integrados e soluções de ML pré-criadas. Com a SageMaker IA JumpStart, você pode acessar modelos pré-treinados, incluindo modelos básicos. Você também pode usar seus próprios dados para ajustar os modelos pré-treinados.

## Amazon Bedrock
<a name="rag-custom-generators-bedrock"></a>

O Amazon Bedrock oferece modelos líderes do setor daAnthropic,,,, Stability AI Meta CohereAI21 Labs, Mistral AI e da Amazon. Para obter uma lista completa, consulte [Modelos de fundação compatíveis no Amazon Bedrock](https://docs.aws.amazon.com/bedrock/latest/userguide/models-supported.html). O Amazon Bedrock também permite que você personalize modelos com seus próprios dados.

Você pode [avaliar o desempenho do modelo](https://docs.aws.amazon.com/bedrock/latest/userguide/evaluation.html) para determinar quais são os mais adequados para seu caso de uso do RAG. Você pode testar os modelos mais recentes e também para ver quais recursos oferecem os melhores resultados e pelo melhor preço. O modelo Anthropic Claude Sonnet é uma escolha comum para aplicações RAG porque se destaca em uma ampla variedade de tarefas e fornece um alto grau de confiabilidade e previsibilidade.

## SageMaker AI JumpStart
<a name="rag-custom-sm-jumpstart"></a>

SageMaker JumpStart A IA fornece modelos pré-treinados de código aberto para uma ampla variedade de tipos de problemas. Você pode treinar e ajustar esses modelos de forma incremental antes da implantação. Você pode acessar modelos pré-treinados, modelos de soluções e exemplos por meio da página JumpStart inicial de SageMaker IA no [Amazon SageMaker AI Studio](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-updated.html) ou usar o SDK [SageMaker AI Python](https://docs.aws.amazon.com/sagemaker/latest/dg/jumpstart-foundation-models-use-python-sdk.html).

SageMaker JumpStart A IA oferece modelos state-of-the-art básicos para casos de uso, como criação de conteúdo, geração de código, resposta a perguntas, redação, resumo, classificação, recuperação de informações e muito mais. Use modelos JumpStart básicos para criar suas próprias soluções generativas de IA e integrar soluções personalizadas com recursos adicionais de SageMaker IA. Para obter mais informações, consulte [Introdução à Amazon SageMaker AI JumpStart](https://aws.amazon.com/sagemaker/jumpstart/getting-started/).

SageMaker A IA JumpStart integra e mantém modelos básicos disponíveis publicamente para você acessar, personalizar e integrar em seus ciclos de vida de ML. Para obter mais informações, consulte [Modelos de fundação disponíveis publicamente](https://docs.aws.amazon.com/sagemaker/latest/dg/jumpstart-foundation-models-latest.html#jumpstart-foundation-models-latest-publicly-available). SageMaker A IA JumpStart também inclui modelos básicos proprietários de fornecedores terceirizados. Para obter mais informações, consulte [Modelos de fundação proprietários](https://docs.aws.amazon.com/sagemaker/latest/dg/jumpstart-foundation-models-latest.html#jumpstart-foundation-models-latest-proprietary).