As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Arquitetura da solução
A arquitetura a seguir implementa um cache semântico de leitura contínua para um agente no Amazon Bedrock. AgentCore Uma solicitação segue um dos dois caminhos:
Ocorrência no cache — Se ElastiCache encontrar uma consulta anterior acima do limite de similaridade configurado, AgentCore retornará a resposta em cache imediatamente. Esse caminho invoca somente o modelo de incorporação e não exige inferência de LLM. Esse caminho tem latência de ponta a ponta no nível de milissegundos e não incorre no custo de inferência do LLM.
Erro de cache — Se nenhuma consulta anterior semelhante for encontrada, AgentCore invoca o LLM para gerar uma nova resposta e a devolve ao usuário. Em seguida, o aplicativo armazena em cache a incorporação e a resposta do prompt ElastiCache para que futuros prompts semelhantes possam ser atendidos a partir do cache.