영향 및 벤치마크

AWS 는 63,796개의 실제 사용자 챗봇 쿼리에 대한 접근 방식과 퍼블릭 SemBenchmarkLmArena 데이터 세트의 구문이 다른 변형을 평가했습니다. 이 데이터 세트는 질문 답변, 쓰기 및 분석과 같은 일반 어시스턴트 사용 사례 전반에서 Chatbot Arena 플랫폼과의 사용자 상호 작용을 캡처합니다.

평가에는 다음 구성이 사용되었습니다.

의미 체계 캐시 스토어로서의 ElastiCache cache.r7g.large 인스턴스
임베딩을 위한 Amazon Titan Text Embeddings V2
LLM 추론을 위한 Claude 3 Haiku

캐시가 비어 있고 63,796개의 쿼리가 모두 임의 수신 사용자 트래픽으로 스트리밍되어 실제 애플리케이션 트래픽을 시뮬레이션했습니다.

다양한 유사성 임계값에서의 비용 및 정확도

다음 표에는 다양한 유사성 임계값에서 비용 절감, 지연 시간 개선 및 정확도 간의 장단점이 요약되어 있습니다.

유사성 임계값	캐시 적중률	캐시된 응답의 정확도	총 일일 비용	비용 절감	평균 지연 시간(초)	지연 시간 감소
기준(캐시 없음)	–	–	49.50 USD	–	4.35	–
0.99(매우 엄격)	23.5%	92.1%	41.70 USD	15.8%	3.60	17.1%
0.95(엄격)	56.0%	92.6%	23.80 USD	51.9%	1.84	57.7%
0.90(중간)	74.5%	92.3%	13.60 USD	72.5%	1.21	72.2%
0.80(균형)	87.6%	91.8%	7.60 USD	84.6%	0.60	86.1%
0.75(릴랙싱됨)	90.3%	91.2%	6.80 USD	86.3%	0.51	88.3%
0.50(매우 완화됨)	94.3%	87.5%	5.90 USD	88.0%	0.46	89.3%

유사성 임계값 0.75에서 의미 체계 캐싱은 91%의 응답 정확도를 유지하면서 LLM 추론 비용을 최대 86%까지 절감했습니다. LLM, 임베딩 모델 및 백업 스토어를 선택하면 비용과 지연 시간에 모두 영향을 미칩니다. 의미 체계 캐싱은 더 크고 비용이 많이 드LLMs과 함께 사용할 때 비례적으로 더 큰 이점을 제공합니다.

개별 쿼리 지연 시간 개선

다음 표는 개별 쿼리 지연 시간에 미치는 영향을 보여줍니다. 캐시 적중은 몇 초에서 몇 백 밀리초까지 지연 시간을 최대 59배 단축했습니다.

쿼리 의도	캐시 누락 지연 시간	캐시 적중 지연 시간	감소
“SI 접두사가 애플리케이션을 제외하고 10의 파워를 나타내는 것과 다른 인스턴스가 있나요?” → 문구가 다른 변형	6.51초	0.11초	59x
"Sally는 형제 3명이 있는 소녀이며, 각 형제에는 자매 2명이 있습니다. Sally의 가족에는 몇 명의 자매가 있습니까?" → 문구가 다른 변형	1.64초	0.13초	12x

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

ElastiCache for Valkey를 사용하여 의미 체계 캐시 구현

멀티턴 대화 캐싱