기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
용량, 한도 및 비용 최적화
Amazon Bedrock은 워크로드 요구 사항 및 예산에 맞는 유연한 용량 옵션을 제공합니다. 온디맨드 티어(플렉스, 우선 순위, 표준), 예약 티어, 배치 처리 및 리전 간 추론 간의 차이를 이해하면 성능과 비용을 모두 최적화하는 데 도움이 됩니다.
용량 옵션
| 용량 유형 | 사용 사례 | 주요 특징 |
|---|---|---|
| 온디맨드: Flex | 산발적인 소량 워크로드 |
|
| 온디맨드: 표준 | 일반 프로덕션 워크로드 |
|
| 온디맨드: 우선 순위 | 우선순위가 높고 지연 시간에 민감한 앱 |
|
| 예약 티어 | 일관된 대용량 워크로드 |
|
| 배치 | non-time-sensitive 대규모 처리 |
|
| 교차 리전 추론 | 고가용성, 트래픽 버스팅 |
|
한도 및 할당량
온디맨드 제한(계층별)
| 계층 | RPM 범위 | TPM 범위 | 제한 위험 |
|---|---|---|---|
| Flex | 10-100 | 5K-50K | 높음 |
| 표준 | 100-500 | 50K-150K | 중간 |
| 우선순위 | 500-1000 이상 | 150K-300K 이상 | 낮음 |
버스트 용량: 모든 계층에서 짧은 스파이크에 사용 가능
소프트 제한: 서비스 할당량 요청을 통해 증가 가능
모델별: 실제 제한은 파운데이션 모델에 따라 다릅니다.
예약 티어 제한
최소 약정: 모델 유닛 1개
최대 단위: 계정 및 리전별
입력/출력 토큰 제한: 구매한 단위 기준
구매한 용량 내에서 RPM 제한 없음
배치 처리 제한
작업 크기: 배치당 최대 10,000개의 레코드
파일 크기: 최대 200MB 입력 파일
처리 시간: 24시간 완료 기간
동시 작업: 리전별 할당량
교차 리전 추론
리전당 온디맨드 티어 제한을 상속합니다.
추가 할당량 오버헤드 없음
자동 라우팅(수동 제한 관리 없음)
비용 최적화
결정 프레임워크
| 시나리오 | 권장 옵션 | 이유 |
|---|---|---|
| 개발/테스트 | Flex | 비프로덕션에 적합한 최저 비용 |
| 표준 프로덕션 | 표준 | 최상의 비용-성능 균형 |
| 중요한 사용자 대면 앱 | 우선순위 | 비용 대비 안정성 및 성능 |
| 안정적인 대용량 로드 | 예약 티어 | 약정을 통한 30~50% 절감 |
| 대량 데이터 처리 | 배치 | 50% 할인, 긴급하지 않은 워크로드 |
| 미션 크리티컬 가동 시간 | 교차 리전 추론 | 가용성 > 비용 |
최적화 전략
적절한 온디맨드 티어 선택
대부분의 워크로드에 대해 Standard로 시작
개발/테스트 환경을 위해 Flex로 다운그레이드
제한이 사용자에게 영향을 미치는 경우에만 Priority로 업그레이드
CloudWatch 스로틀 지표를 모니터링하여 결정 정보 제공
예약 티어로 전환
일관된 로드가 온디맨드 비용의 40%를 초과하는 경우
손익분기점 계산: (월별 온디맨드 비용) 대 (예약된 약정)
처음에는 1개월 약정 사용
예약 티어는 모든 온디맨드 티어와 함께 사용할 수 있습니다.
용 배치 활용
훈련 데이터 생성
콘텐츠 조절 백로그
보고서 생성
데이터 보강 파이프라인
접근 방식 결합
기준 트래픽에 대한 예약 티어
중간 버스트에 대한 표준 온디맨드
중요한 피크 기간의 온디맨드 우선 순위
오프라인 처리를 위한 배치
장애 조치 전용 교차 리전
비용 모니터링
티어 비용 비교: Flex < Standard < Priority
요청당 토큰 추적(프롬프트 최적화)
사용률 및 제한에 CloudWatch 지표 사용
예상치 못한 스파이크에 대한 결제 경보 설정
월별 예약 티어 사용률 검토
제한 발생 시에만 티어 업그레이드 평가