용량, 한도 및 비용 최적화 - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

용량, 한도 및 비용 최적화

Amazon Bedrock은 워크로드 요구 사항 및 예산에 맞는 유연한 용량 옵션을 제공합니다. 온디맨드 티어(플렉스, 우선 순위, 표준), 예약 티어, 배치 처리 및 리전 간 추론 간의 차이를 이해하면 성능과 비용을 모두 최적화하는 데 도움이 됩니다.

용량 옵션

용량 유형 사용 사례 주요 특징
온디맨드: Flex 산발적인 소량 워크로드
  • 토큰당 최저 비용

  • 최선의 가용성

  • 제한이 발생할 수 있음

  • SLA 없음

온디맨드: 표준 일반 프로덕션 워크로드
  • 균형 잡힌 비용 및 성능

  • 중간 수준의 처리량 보장

  • 표준 SLA

  • 가장 일반적인 선택

온디맨드: 우선 순위 우선순위가 높고 지연 시간에 민감한 앱
  • 가장 높은 온디맨드 비용

  • 프리미엄 처리량 할당

  • 향상된 SLA

  • 제한 위험 감소

예약 티어 일관된 대용량 워크로드
  • 예약 모델 단위

  • 보장된 용량

  • 1개월 또는 6개월 약정

  • 예측 가능한 성능

배치 non-time-sensitive 대규모 처리
  • 온디맨드 대비 50% 비용 절감

  • 24시간 처리 기간

  • 대량 추론에 적합

교차 리전 추론 고가용성, 트래픽 버스팅
  • 자동 장애조치(failover)

  • 사용량이 적은 리전으로 라우팅

  • 가동 시간 개선

  • 온디맨드 요금 사용

한도 및 할당량

온디맨드 제한(계층별)

계층 RPM 범위 TPM 범위 제한 위험
Flex 10-100 5K-50K 높음
표준 100-500 50K-150K 중간
우선순위 500-1000 이상 150K-300K 이상 낮음
  • 버스트 용량: 모든 계층에서 짧은 스파이크에 사용 가능

  • 소프트 제한: 서비스 할당량 요청을 통해 증가 가능

  • 모델별: 실제 제한은 파운데이션 모델에 따라 다릅니다.

예약 티어 제한

  • 최소 약정: 모델 유닛 1개

  • 최대 단위: 계정 및 리전별

  • 입력/출력 토큰 제한: 구매한 단위 기준

  • 구매한 용량 내에서 RPM 제한 없음

배치 처리 제한

  • 작업 크기: 배치당 최대 10,000개의 레코드

  • 파일 크기: 최대 200MB 입력 파일

  • 처리 시간: 24시간 완료 기간

  • 동시 작업: 리전별 할당량

교차 리전 추론

  • 리전당 온디맨드 티어 제한을 상속합니다.

  • 추가 할당량 오버헤드 없음

  • 자동 라우팅(수동 제한 관리 없음)

비용 최적화

결정 프레임워크

시나리오 권장 옵션 이유
개발/테스트 Flex 비프로덕션에 적합한 최저 비용
표준 프로덕션 표준 최상의 비용-성능 균형
중요한 사용자 대면 앱 우선순위 비용 대비 안정성 및 성능
안정적인 대용량 로드 예약 티어 약정을 통한 30~50% 절감
대량 데이터 처리 배치 50% 할인, 긴급하지 않은 워크로드
미션 크리티컬 가동 시간 교차 리전 추론 가용성 > 비용

최적화 전략

적절한 온디맨드 티어 선택

  • 대부분의 워크로드에 대해 Standard로 시작

  • 개발/테스트 환경을 위해 Flex로 다운그레이드

  • 제한이 사용자에게 영향을 미치는 경우에만 Priority로 업그레이드

  • CloudWatch 스로틀 지표를 모니터링하여 결정 정보 제공

예약 티어로 전환

  • 일관된 로드가 온디맨드 비용의 40%를 초과하는 경우

  • 손익분기점 계산: (월별 온디맨드 비용) 대 (예약된 약정)

  • 처음에는 1개월 약정 사용

  • 예약 티어는 모든 온디맨드 티어와 함께 사용할 수 있습니다.

용 배치 활용

  • 훈련 데이터 생성

  • 콘텐츠 조절 백로그

  • 보고서 생성

  • 데이터 보강 파이프라인

접근 방식 결합

  • 기준 트래픽에 대한 예약 티어

  • 중간 버스트에 대한 표준 온디맨드

  • 중요한 피크 기간의 온디맨드 우선 순위

  • 오프라인 처리를 위한 배치

  • 장애 조치 전용 교차 리전

비용 모니터링

  • 티어 비용 비교: Flex < Standard < Priority

  • 요청당 토큰 추적(프롬프트 최적화)

  • 사용률 및 제한에 CloudWatch 지표 사용

  • 예상치 못한 스파이크에 대한 결제 경보 설정

  • 월별 예약 티어 사용률 검토

  • 제한 발생 시에만 티어 업그레이드 평가