

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Impacto y puntos de referencia
<a name="semantic-caching-benchmarks"></a>

AWS evaluó el enfoque en 63 796 consultas de chatbots de usuarios reales y sus variantes parafraseadas del conjunto de datos público. SemBenchmarkLmArena Este conjunto de datos captura las interacciones de los usuarios con la plataforma Chatbot Arena en todos los casos de uso del asistente general, como la respuesta a preguntas, la redacción y el análisis.

La evaluación utilizó la siguiente configuración:
+ ElastiCache `cache.r7g.large`instancia como almacén de caché semántica
+ Amazon Titan Text Embeddings V2 para incrustaciones
+ Claude 3 Haiku para inferencia de LLM

Al principio, la caché se vació y las 63.796 consultas se transmitieron como tráfico de usuarios entrantes aleatorio, simulando el tráfico de aplicaciones del mundo real.

## Coste y precisión con distintos umbrales de similitud
<a name="semantic-caching-cost-accuracy"></a>

En la siguiente tabla se resume el equilibrio entre la reducción de costes, la mejora de la latencia y la precisión en los distintos umbrales de similitud:


| Umbral de similitud | Proporción de aciertos de caché | Precisión de las respuestas almacenadas en caché | Coste diario total | Ahorro de costos | Latencia (es) media | Reducción de latencia | 
| --- | --- | --- | --- | --- | --- | --- | 
| Base de referencia (sin caché) | – | – | 49,50$ | – | 4,35 | – | 
| 0,99 (muy estricto) | 23.5% | 92,1% | 41,70 DÓLARES | 15,8% | 3,60 | 17,1% | 
| 0,95 (estricto) | 56,0% | 92,6% | 23,80 DÓLARES | 51,9% | 1,84 | 57,7% | 
| 0.90 (moderada) | 74,5% | 92,3% | 13,60 DÓLARES | 72,5% | 1,21 | 72,2% | 
| 0.80 (balanceado) | 87,6% | 91,8% | 7,60 DÓLARES | 84,6% | 0,60 | 86,1% | 
| 0.75 (relajado) | 90,3% | 91,2% | 6,80 DÓLARES | 86,3% | 0,51 | 88,3% | 
| 0,50 (muy relajado) | 94,3% | 87,5% | 5,90 DÓLARES | 88,0% | 0,46 | 89,3% | 

Con un umbral de similitud de 0,75, el almacenamiento en caché semántico redujo el coste de inferencia de la LLM hasta un 86% y, al mismo tiempo, mantuvo una precisión de respuesta del 91%. La elección del LLM, el modelo de incrustación y el almacén de respaldo afecta tanto al costo como a la latencia. El almacenamiento en caché semántico ofrece beneficios proporcionalmente mayores cuando se usa con LLM más grandes y costosos.

## Mejoras en la latencia de las consultas individuales
<a name="semantic-caching-latency-improvements"></a>

En la siguiente tabla se muestra el impacto en la latencia de las consultas individuales. Un golpe de caché reduce la latencia hasta 59 veces, pasando de varios segundos a unos pocos cientos de milisegundos:


| Intención de la consulta | Falta de latencia en la memoria caché | Latencia de aciertos de caché | Reducción | 
| --- | --- | --- | --- | 
| «¿Hay casos en los que los prefijos SI se desvían de la denotación de potencias de 10, excluyendo su aplicación?» → variante parafraseada | 6.51 s | 0,11 s | 59 veces | 
| «Sally es una niña con 3 hermanos, y cada uno de sus hermanos tiene 2 hermanas. ¿Cuántas hermanas hay en la familia de Sally?» → variante parafraseada | 1,64 s | 0,13 s | 12 veces | 