Arquitetura da solução

A arquitetura a seguir implementa um cache semântico de leitura contínua para um agente no Amazon Bedrock. AgentCore Uma solicitação segue um dos dois caminhos:

Ocorrência no cache — Se ElastiCache encontrar uma consulta anterior acima do limite de similaridade configurado, AgentCore retornará a resposta em cache imediatamente. Esse caminho invoca somente o modelo de incorporação e não exige inferência de LLM. Esse caminho tem latência de ponta a ponta no nível de milissegundos e não incorre no custo de inferência do LLM.
Erro de cache — Se nenhuma consulta anterior semelhante for encontrada, AgentCore invoca o LLM para gerar uma nova resposta e a devolve ao usuário. Em seguida, o aplicativo armazena em cache a incorporação e a resposta do prompt ElastiCache para que futuros prompts semelhantes possam ser atendidos a partir do cache.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Por que ElastiCache usar o Valkey para armazenamento em cache semântico

Pré-requisitos