

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 영향 및 벤치마크
<a name="semantic-caching-benchmarks"></a>

AWS 는 63,796개의 실제 사용자 챗봇 쿼리에 대한 접근 방식과 퍼블릭 SemBenchmarkLmArena 데이터 세트의 구문이 다른 변형을 평가했습니다. 이 데이터 세트는 질문 답변, 쓰기 및 분석과 같은 일반 어시스턴트 사용 사례 전반에서 Chatbot Arena 플랫폼과의 사용자 상호 작용을 캡처합니다.

평가에는 다음 구성이 사용되었습니다.
+ 의미 체계 캐시 스토어로서의 ElastiCache `cache.r7g.large` 인스턴스
+ 임베딩을 위한 Amazon Titan Text Embeddings V2 
+ LLM 추론을 위한 Claude 3 Haiku

캐시가 비어 있고 63,796개의 쿼리가 모두 임의 수신 사용자 트래픽으로 스트리밍되어 실제 애플리케이션 트래픽을 시뮬레이션했습니다.

## 다양한 유사성 임계값에서의 비용 및 정확도
<a name="semantic-caching-cost-accuracy"></a>

다음 표에는 다양한 유사성 임계값에서 비용 절감, 지연 시간 개선 및 정확도 간의 장단점이 요약되어 있습니다.


| 유사성 임계값 | 캐시 적중률 | 캐시된 응답의 정확도 | 총 일일 비용 | 비용 절감 | 평균 지연 시간(초) | 지연 시간 감소 | 
| --- | --- | --- | --- | --- | --- | --- | 
| 기준(캐시 없음) | – | – | 49.50 USD | – | 4.35 | – | 
| 0.99(매우 엄격) | 23.5% | 92.1% | 41.70 USD | 15.8% | 3.60 | 17.1% | 
| 0.95(엄격) | 56.0% | 92.6% | 23.80 USD | 51.9% | 1.84 | 57.7% | 
| 0.90(중간) | 74.5% | 92.3% | 13.60 USD | 72.5% | 1.21 | 72.2% | 
| 0.80(균형) | 87.6% | 91.8% | 7.60 USD | 84.6% | 0.60 | 86.1% | 
| 0.75(릴랙싱됨) | 90.3% | 91.2% | 6.80 USD | 86.3% | 0.51 | 88.3% | 
| 0.50(매우 완화됨) | 94.3% | 87.5% | 5.90 USD | 88.0% | 0.46 | 89.3% | 

유사성 임계값 0.75에서 의미 체계 캐싱은 91%의 응답 정확도를 유지하면서 LLM 추론 비용을 최대 86%까지 절감했습니다. LLM, 임베딩 모델 및 백업 스토어를 선택하면 비용과 지연 시간에 모두 영향을 미칩니다. 의미 체계 캐싱은 더 크고 비용이 많이 드LLMs과 함께 사용할 때 비례적으로 더 큰 이점을 제공합니다.

## 개별 쿼리 지연 시간 개선
<a name="semantic-caching-latency-improvements"></a>

다음 표는 개별 쿼리 지연 시간에 미치는 영향을 보여줍니다. 캐시 적중은 몇 초에서 몇 백 밀리초까지 지연 시간을 최대 59배 단축했습니다.


| 쿼리 의도 | 캐시 누락 지연 시간 | 캐시 적중 지연 시간 | 감소 | 
| --- | --- | --- | --- | 
| “SI 접두사가 애플리케이션을 제외하고 10의 파워를 나타내는 것과 다른 인스턴스가 있나요?” → 문구가 다른 변형 | 6.51초 | 0.11초 | 59x | 
| "Sally는 형제 3명이 있는 소녀이며, 각 형제에는 자매 2명이 있습니다. Sally의 가족에는 몇 명의 자매가 있습니까?" → 문구가 다른 변형 | 1.64초 | 0.13초 | 12x | 