

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 용량 및 성능
<a name="capacity-limits-cost-optimization"></a>

Amazon Bedrock은 워크로드 요구 사항 및 예산에 맞는 유연한 용량 옵션을 제공합니다. 온디맨드 티어(플렉스, 우선 순위, 표준), 예약 티어, 배치 처리 및 리전 간 추론 간의 차이를 이해하면 성능과 비용을 모두 최적화하는 데 도움이 됩니다.

## 용량 옵션
<a name="capacity-options"></a>


| 용량 유형 | 사용 사례 | 주요 특징 | 
| --- | --- | --- | 
| 온디맨드: Flex | 산발적인 소량 워크로드 |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/ko_kr/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| 온디맨드: 표준 | 일반 프로덕션 워크로드 |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/ko_kr/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| 온디맨드: 우선 순위 | 우선순위가 높고 지연 시간에 민감한 앱 |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/ko_kr/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| 예약 티어 | 일관된 대용량 워크로드 |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/ko_kr/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| 배치 | non-time-sensitive 대규모 처리 |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/ko_kr/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| 교차 리전 추론 | 고가용성, 트래픽 버스팅 |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/ko_kr/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 

## 한도 및 할당량
<a name="limits-quotas"></a>

### 온디맨드 제한(계층별)
<a name="on-demand-limits"></a>


| 계층 | RPM 범위 | TPM 범위 | 제한 위험 | 
| --- | --- | --- | --- | 
| Flex | 10-100 | 5K-50K | 높음 | 
| 표준 | 100-500 | 50K-150K | 중간 | 
| 우선순위 | 500-1000 이상 | 150K-300K 이상 | 낮음 | 
+ 버스트 용량: 모든 계층에서 짧은 스파이크에 사용 가능
+ 소프트 제한: 서비스 할당량 요청을 통해 증가 가능
+ 모델별: 실제 제한은 파운데이션 모델에 따라 다릅니다.

### 예약 티어 제한
<a name="reserved-tier-limits"></a>
+ 최소 약정: 모델 유닛 1개
+ 최대 단위: 계정 및 리전별
+ 입력/출력 토큰 제한: 구매한 단위 기준
+ 구매한 용량 내에서 RPM 제한 없음

### 배치 처리 제한
<a name="batch-processing-limits"></a>
+ 작업 크기: 배치당 최대 10,000개의 레코드
+ 파일 크기: 최대 200MB 입력 파일
+ 처리 시간: 24시간 완료 기간
+ 동시 작업: 리전별 할당량

### 교차 리전 추론
<a name="cross-region-inference-limits"></a>
+ 리전당 온디맨드 티어 제한을 상속합니다.
+ 추가 할당량 오버헤드 없음
+ 자동 라우팅(수동 제한 관리 없음)

## 티어 선택
<a name="cost-optimization"></a>

### 결정 프레임워크
<a name="decision-framework"></a>


| 시나리오 | 권장 옵션 | 이유 | 
| --- | --- | --- | 
| 개발/테스트 | Flex | 비프로덕션에 적합한 최저 비용 | 
| 표준 프로덕션 | 표준 | 최상의 비용-성능 균형 | 
| 중요한 사용자 대면 앱 | 우선순위 | 비용 대비 안정성 및 성능 | 
| 안정적인 대용량 로드 | 예약 티어 | 약정을 통한 30\~50% 절감 | 
| 대량 데이터 처리 | 배치 | 50% 할인, 긴급하지 않은 워크로드 | 
| 미션 크리티컬 가동 시간 | 교차 리전 추론 | 가용성 > 비용 | 

### 최적화 전략
<a name="optimization-strategies"></a>

**적절한 온디맨드 티어 선택**
+ 대부분의 워크로드에 대해 Standard로 시작
+ 개발/테스트 환경을 위해 Flex로 다운그레이드
+ 제한이 사용자에게 영향을 미치는 경우에만 Priority로 업그레이드
+ CloudWatch 스로틀 지표를 모니터링하여 결정 정보 제공

**예약 티어로 전환**
+ 일관된 로드가 온디맨드 비용의 40%를 초과하는 경우
+ 손익분기점 계산: (월별 온디맨드 비용) 대 (예약된 약정)
+ 처음에는 1개월 약정 사용
+ 예약 티어는 모든 온디맨드 티어와 함께 사용할 수 있습니다.

**에 배치 사용**
+ 훈련 데이터 생성
+ 콘텐츠 조절 백로그
+ 보고서 생성
+ 데이터 보강 파이프라인

**접근 방식 결합**
+ 기준 트래픽에 대한 예약 티어
+ 중간 버스트에 대한 표준 온디맨드
+ 중요한 피크 기간의 온디맨드 우선 순위
+ 오프라인 처리를 위한 배치
+ 장애 조치 전용 교차 리전

**비용 모니터링**
+ 티어 비용 비교: Flex < Standard < Priority
+ 요청당 토큰 추적(프롬프트 최적화)
+ CloudWatch 지표를 사용하여 사용 및 제한
+ 예상치 못한 스파이크에 대한 결제 경보 설정
+ 매월 예약 티어 사용 검토
+ 제한 발생 시에만 티어 업그레이드 평가