기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
영향 및 벤치마크
AWS 는 63,796개의 실제 사용자 챗봇 쿼리에 대한 접근 방식과 퍼블릭 SemBenchmarkLmArena 데이터 세트의 구문이 다른 변형을 평가했습니다. 이 데이터 세트는 질문 답변, 쓰기 및 분석과 같은 일반 어시스턴트 사용 사례 전반에서 Chatbot Arena 플랫폼과의 사용자 상호 작용을 캡처합니다.
평가에는 다음 구성이 사용되었습니다.
의미 체계 캐시 스토어로서의 ElastiCache
cache.r7g.large인스턴스임베딩을 위한 Amazon Titan Text Embeddings V2
LLM 추론을 위한 Claude 3 Haiku
캐시가 비어 있고 63,796개의 쿼리가 모두 임의 수신 사용자 트래픽으로 스트리밍되어 실제 애플리케이션 트래픽을 시뮬레이션했습니다.
다양한 유사성 임계값에서의 비용 및 정확도
다음 표에는 다양한 유사성 임계값에서 비용 절감, 지연 시간 개선 및 정확도 간의 장단점이 요약되어 있습니다.
| 유사성 임계값 | 캐시 적중률 | 캐시된 응답의 정확도 | 총 일일 비용 | 비용 절감 | 평균 지연 시간(초) | 지연 시간 감소 |
|---|---|---|---|---|---|---|
| 기준(캐시 없음) | – | – | 49.50 USD | – | 4.35 | – |
| 0.99(매우 엄격) | 23.5% | 92.1% | 41.70 USD | 15.8% | 3.60 | 17.1% |
| 0.95(엄격) | 56.0% | 92.6% | 23.80 USD | 51.9% | 1.84 | 57.7% |
| 0.90(중간) | 74.5% | 92.3% | 13.60 USD | 72.5% | 1.21 | 72.2% |
| 0.80(균형) | 87.6% | 91.8% | 7.60 USD | 84.6% | 0.60 | 86.1% |
| 0.75(릴랙싱됨) | 90.3% | 91.2% | 6.80 USD | 86.3% | 0.51 | 88.3% |
| 0.50(매우 완화됨) | 94.3% | 87.5% | 5.90 USD | 88.0% | 0.46 | 89.3% |
유사성 임계값 0.75에서 의미 체계 캐싱은 91%의 응답 정확도를 유지하면서 LLM 추론 비용을 최대 86%까지 절감했습니다. LLM, 임베딩 모델 및 백업 스토어를 선택하면 비용과 지연 시간에 모두 영향을 미칩니다. 의미 체계 캐싱은 더 크고 비용이 많이 드LLMs과 함께 사용할 때 비례적으로 더 큰 이점을 제공합니다.
개별 쿼리 지연 시간 개선
다음 표는 개별 쿼리 지연 시간에 미치는 영향을 보여줍니다. 캐시 적중은 몇 초에서 몇 백 밀리초까지 지연 시간을 최대 59배 단축했습니다.
| 쿼리 의도 | 캐시 누락 지연 시간 | 캐시 적중 지연 시간 | 감소 |
|---|---|---|---|
| “SI 접두사가 애플리케이션을 제외하고 10의 파워를 나타내는 것과 다른 인스턴스가 있나요?” → 문구가 다른 변형 | 6.51초 | 0.11초 | 59x |
| "Sally는 형제 3명이 있는 소녀이며, 각 형제에는 자매 2명이 있습니다. Sally의 가족에는 몇 명의 자매가 있습니까?" → 문구가 다른 변형 | 1.64초 | 0.13초 | 12x |