기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 의미 체계 캐싱 개요
<a name="semantic-caching-overview"></a>

정확한 문자열 일치에 의존하는 기존 캐시와 달리 의미 체계 캐시는 의미 체계 유사성을 기반으로 데이터를 검색합니다. 의미 체계 캐시는 Amazon Titan Text Embeddings와 같은 모델에서 생성된 벡터 임베딩을 사용하여 고차원 벡터 공간에서 의미 체계 의미를 캡처합니다.

생성형 AI 애플리케이션에서 의미 체계 캐시는 쿼리 및 해당 응답의 벡터 표현을 저장합니다. 시스템은 각 새 쿼리의 벡터 임베딩을 이전 쿼리의 캐시된 벡터와 비교하여 이전에 유사한 쿼리에 응답했는지 확인합니다. 캐시에 구성된 유사성 임계값을 초과하는 유사한 쿼리가 포함된 경우 시스템은 LLM을 호출하는 대신 이전에 생성된 응답을 반환합니다. 그렇지 않으면 시스템은 LLM을 호출하여 응답을 생성하고 향후 재사용을 위해 쿼리 임베딩과 응답을 함께 캐싱합니다.

## 정확히 일치하지 않는 의미 체계를 사용하는 이유는 무엇입니까?
<a name="semantic-caching-why-semantic"></a>

수천 명의 사용자가 동일한 질문을 하는 IT 지원 챗봇을 생각해 보세요. 다음 쿼리는 서로 다른 문자열이지만 동일한 의미를 갖습니다.
+ “노트북에 VPN 앱을 설치하려면 어떻게 해야 하나요?”
+ "회사 VPN을 설정하는 방법을 안내해 주시겠어요?"
+ "내 컴퓨터에서 VPN 작업을 수행하는 단계"

정확히 일치하는 캐시는 각 쿼리를 고유한 것으로 취급하고 LLM을 세 번 호출합니다. 의미 체계 캐시는 이러한 쿼리를 의미상 동등한 쿼리로 인식하고 세 가지 모두에 대해 캐시된 응답을 반환하여 LLM을 한 번만 호출합니다.

## 주요 이점
<a name="semantic-caching-benefits"></a>

의미 체계 캐싱은 생성형 AI 및 에이전트 AI 애플리케이션에 다음과 같은 이점을 제공합니다.
+ **비용 절감** - 유사한 질문에 대한 답변을 재사용하면 LLM 호출 수와 전체 추론 지출이 줄어듭니다. 벤치마크에서 의미 체계 캐싱은 LLM 추론 비용을 최대 86%까지 절감했습니다.
+ 지연 **시간 단축** - 캐시에서 응답을 제공하면 LLM 추론을 실행하는 것보다 응답 속도가 빠릅니다. 캐시 적중은 초가 아닌 밀리초 단위로 응답을 반환하여 최대 88%의 지연 시간 감소를 달성합니다.
+ **확장성 향상** - 유사하거나 반복되는 쿼리에 대한 LLM 호출을 줄이면 용량을 늘리지 않고도 동일한 모델 처리량 한도 내에서 더 많은 요청을 처리할 수 있습니다.
+ **일관성 향상** - 의미상 유사한 요청에 동일한 캐시된 응답을 사용하면 동일한 기본 질문에 대한 일관된 답변을 제공하는 데 도움이 됩니다.

## 의미 체계 캐싱이 효과적인 위치
<a name="semantic-caching-effective-use-cases"></a>

의미 체계 캐싱은 다음과 같은 유형의 애플리케이션에 특히 효과적입니다.


| 애플리케이션 유형 | 설명 | 예제 | 
| --- | --- | --- | 
| RAG 기반 어시스턴트 및 부조종사 | 많은 쿼리는 공유 지식 기반에 대해 서로 다른 사용자의 중복 요청입니다. | IT 도움말 챗봇, 제품 FAQ 봇, 설명서 도우미 | 
| 에이전트 AI 애플리케이션 | 에이전트는 유사한 정보를 반복적으로 조회할 수 있는 여러 작은 단계로 작업을 나눕니다. | 규정 준수 에이전트 재사용 정책 조회, 연구 에이전트 재사용 이전 조사 결과 | 
| 멀티모달 애플리케이션 | 유사한 오디오 세그먼트, 이미지 또는 비디오 쿼리 일치 | 매장 시간과 같은 반복 요청에 대한 지침을 재사용하는 자동 전화 시스템 |