View a markdown version of this page

영향 및 벤치마크 - Amazon ElastiCache

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

영향 및 벤치마크

AWS 는 63,796개의 실제 사용자 챗봇 쿼리에 대한 접근 방식과 퍼블릭 SemBenchmarkLmArena 데이터 세트의 구문이 다른 변형을 평가했습니다. 이 데이터 세트는 질문 답변, 쓰기 및 분석과 같은 일반 어시스턴트 사용 사례 전반에서 Chatbot Arena 플랫폼과의 사용자 상호 작용을 캡처합니다.

평가에는 다음 구성이 사용되었습니다.

  • 의미 체계 캐시 스토어로서의 ElastiCache cache.r7g.large 인스턴스

  • 임베딩을 위한 Amazon Titan Text Embeddings V2

  • LLM 추론을 위한 Claude 3 Haiku

캐시가 비어 있고 63,796개의 쿼리가 모두 임의 수신 사용자 트래픽으로 스트리밍되어 실제 애플리케이션 트래픽을 시뮬레이션했습니다.

다양한 유사성 임계값에서의 비용 및 정확도

다음 표에는 다양한 유사성 임계값에서 비용 절감, 지연 시간 개선 및 정확도 간의 장단점이 요약되어 있습니다.

유사성 임계값 캐시 적중률 캐시된 응답의 정확도 총 일일 비용 비용 절감 평균 지연 시간(초) 지연 시간 감소
기준(캐시 없음) 49.50 USD 4.35
0.99(매우 엄격) 23.5% 92.1% 41.70 USD 15.8% 3.60 17.1%
0.95(엄격) 56.0% 92.6% 23.80 USD 51.9% 1.84 57.7%
0.90(중간) 74.5% 92.3% 13.60 USD 72.5% 1.21 72.2%
0.80(균형) 87.6% 91.8% 7.60 USD 84.6% 0.60 86.1%
0.75(릴랙싱됨) 90.3% 91.2% 6.80 USD 86.3% 0.51 88.3%
0.50(매우 완화됨) 94.3% 87.5% 5.90 USD 88.0% 0.46 89.3%

유사성 임계값 0.75에서 의미 체계 캐싱은 91%의 응답 정확도를 유지하면서 LLM 추론 비용을 최대 86%까지 절감했습니다. LLM, 임베딩 모델 및 백업 스토어를 선택하면 비용과 지연 시간에 모두 영향을 미칩니다. 의미 체계 캐싱은 더 크고 비용이 많이 드LLMs과 함께 사용할 때 비례적으로 더 큰 이점을 제공합니다.

개별 쿼리 지연 시간 개선

다음 표는 개별 쿼리 지연 시간에 미치는 영향을 보여줍니다. 캐시 적중은 몇 초에서 몇 백 밀리초까지 지연 시간을 최대 59배 단축했습니다.

쿼리 의도 캐시 누락 지연 시간 캐시 적중 지연 시간 감소
“SI 접두사가 애플리케이션을 제외하고 10의 파워를 나타내는 것과 다른 인스턴스가 있나요?” → 문구가 다른 변형 6.51초 0.11초 59x
"Sally는 형제 3명이 있는 소녀이며, 각 형제에는 자매 2명이 있습니다. Sally의 가족에는 몇 명의 자매가 있습니까?" → 문구가 다른 변형 1.64초 0.13초 12x