View a markdown version of this page

Arquitetura da solução - Amazon ElastiCache

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Arquitetura da solução

A arquitetura a seguir implementa um cache semântico de leitura contínua para um agente no Amazon Bedrock. AgentCore Uma solicitação segue um dos dois caminhos:

  • Ocorrência no cache — Se ElastiCache encontrar uma consulta anterior acima do limite de similaridade configurado, AgentCore retornará a resposta em cache imediatamente. Esse caminho invoca somente o modelo de incorporação e não exige inferência de LLM. Esse caminho tem latência de ponta a ponta no nível de milissegundos e não incorre no custo de inferência do LLM.

  • Erro de cache — Se nenhuma consulta anterior semelhante for encontrada, AgentCore invoca o LLM para gerar uma nova resposta e a devolve ao usuário. Em seguida, o aplicativo armazena em cache a incorporação e a resposta do prompt ElastiCache para que futuros prompts semelhantes possam ser atendidos a partir do cache.