View a markdown version of this page

서비스 할당량 및 제한 - AWS 기한 클라우드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

서비스 할당량 및 제한

어시스턴트는 계정의 서비스 할당량이 적용되는 온디맨드 추론을 사용합니다. 두 가지 기본 제약 조건은 다음과 같습니다.

  • 분당 요청 수(RPM) - 분당 허용되는 모델 호출 요청 수입니다.

  • 분당 토큰 수(TPM) - 분당 처리된 총 입력 및 출력 토큰 수입니다.

기본 할당량은 리전에 따라 다릅니다. 일부 리전에는 기본 제한(20RPM)이 낮기 때문에 어시스턴트 사용량이 많은 경우 제한이 발생할 수 있습니다.

할당량 증가 요청

어시스턴트를 사용할 때 제한 오류가 발생하는 경우 서비스 할당량 증가를 요청할 수 있습니다.

할당량 증가 요청
  1. Service Quotas Console을 엽니다.

  2. 탐색 창에서 AWS 서비스를 선택한 다음를 선택합니다.

  3. 어시스턴트가 사용하는 모델의 할당량을 찾습니다(InvokeModelWithResponseStream관련 모델의와 관련된 할당량 찾기).

  4. 할당량 이름을 선택한 다음 계정 수준에서 증가 요청을 선택합니다.

  5. 원하는 할당량 값을 입력하고 요청을 제출합니다.

자세한 내용은 Service Quotas 사용 설명서할당량 증가 요청을 참조하세요.

참고

리전에서 교차 리전 추론을 사용하는 경우 대상 리전의 서비스 할당량도 적용됩니다. 교차 리전 추론 프로파일은 최소 200RPM을 지원하므로 단일 리전 제한이 더 낮은 리전에서 제한을 완화하는 데 도움이 될 수 있습니다.

할당량 사용량 모니터링

CloudWatch 지표를 통해 할당량 사용량을 모니터링할 수 있습니다. 제한 지표에 대한 CloudWatch 경보를 설정하여 할당량 한도에 도달하는 시점을 사전에 식별합니다. 자세한 내용은 사용 설명서의 https://docs.aws.amazon.com/bedrock/latest/userguide/monitoring-overview.html 모니터링을 참조하세요.