

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Capacidad y rendimiento
<a name="capacity-limits-cost-optimization"></a>

Amazon Bedrock ofrece opciones de capacidad flexibles que se adaptan a sus requisitos de carga de trabajo y presupuesto. Comprender las diferencias entre los niveles bajo demanda (flexible, prioritario, estándar), el nivel reservado, el procesamiento por lotes y la inferencia entre regiones le ayudará a optimizar tanto el rendimiento como los costos.

## Opciones de capacidad
<a name="capacity-options"></a>


| Tipo de capacidad | Caso de uso | Características clave | 
| --- | --- | --- | 
| On-Demand: Flex | Cargas de trabajo esporádicas y de bajo volumen |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/es_es/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| On-Demand: Estándar | Cargas de trabajo de producción regulares |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/es_es/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| On-Demand: Prioridad | High-priority, aplicaciones sensibles a la latencia |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/es_es/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| Nivel reservado | Cargas de trabajo consistentes y de gran volumen |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/es_es/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| Lote | Large-scale, procesamiento no urgente |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/es_es/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 
| Cross-Region Inferencia | Alta disponibilidad, tráfico a raudales |  [See the AWS documentation website for more details](http://docs.aws.amazon.com/es_es/bedrock/latest/userguide/capacity-limits-cost-optimization.html)  | 

## Limita &amp; las cuotas
<a name="limits-quotas"></a>

### On-Demand Límites (por nivel)
<a name="on-demand-limits"></a>


| Nivel | Rango de RPM | Rango TPM | Riesgo de estrangulamiento | 
| --- | --- | --- | --- | 
| Flexionar | 10-100 | 5K-50K | Alto | 
| Standard | 100-500 | 50 K-150K | Medio | 
| Priority (Prioridad) | Más de 500 a 1000 | 150 \+ K-300K | Bajo | 
+ Capacidad de ráfaga: disponible en todos los niveles para picos cortos
+ Límites flexibles: se pueden aumentar mediante solicitudes de cuotas de servicio
+ Model-specific: Los límites reales varían según el modelo básico

### Límites de niveles reservados
<a name="reserved-tier-limits"></a>
+ Compromiso mínimo: 1 unidad modelo
+ Unidades máximas: específicas de la cuenta y la región
+ Input/output límites de fichas: se basan en las unidades compradas
+ No se reducen las RPM dentro de la capacidad comprada

### Límites de procesamiento por lotes
<a name="batch-processing-limits"></a>
+ Tamaño del trabajo: hasta 10 000 registros por lote
+ Tamaño del archivo: archivo de entrada máximo de 200 MB
+ Tiempo de procesamiento: plazo de finalización de 24 horas
+ Trabajos simultáneos: cuotas Region-specific 

### Cross-Region Inferencia
<a name="cross-region-inference-limits"></a>
+ Hereda los límites de los niveles bajo demanda por región
+ Sin gastos de cuota adicionales
+ Enrutamiento automático (sin administración manual de límites)

## Elegir un nivel
<a name="cost-optimization"></a>

### Marco de decisión
<a name="decision-framework"></a>


| Escenario | Opción recomendada | ¿Por qué | 
| --- | --- | --- | 
| Development/testing | Flexionar | El costo más bajo, aceptable para la no producción | 
| Producción estándar | Standard | La mejor relación costo-rendimiento | 
| Aplicaciones críticas orientadas al usuario | Priority (Prioridad) | Fiabilidad y rendimiento por encima del coste | 
| Carga constante de alto volumen | Nivel reservado | Ahorros del 30 al 50% con compromiso | 
| Procesamiento masivo de datos | Lote | 50% de descuento, cargas de trabajo no urgentes | 
| Mission-critical tiempo de actividad | Cross-Region Inferencia | Disponibilidad > costo | 

### Estrategias de optimización
<a name="optimization-strategies"></a>

**Elija el On-Demand nivel correcto**
+ Comience con el estándar para la mayoría de las cargas de trabajo
+ Cambie a Flex para entornos dev/test 
+ Actualice a Priority solo cuando la limitación afecte a los usuarios
+ Supervise las métricas CloudWatch de aceleración para tomar decisiones informadas

**Transición al nivel reservado**
+ Cuando la carga constante supera el 40% de los costes bajo demanda
+ Calcule el punto de equilibrio: (coste mensual bajo demanda) frente a (compromiso reservado)
+ Utilice inicialmente un compromiso de 1 mes
+ El nivel reservado puede funcionar junto con cualquier nivel bajo demanda

**Utilice Batch para**
+ Generación de datos de entrenamiento
+ Atrasos en la moderación de contenido
+ Generación de informes
+ Canalizaciones de enriquecimiento de datos

**Combine enfoques**
+ Nivel reservado para el tráfico de referencia
+ Estándar bajo demanda para ráfagas moderadas
+ Prioridad bajo demanda para períodos críticos de alta demanda
+ Batch para procesamiento fuera de línea
+ Cross-region solo para conmutación por error

**Supervisión de costes**
+ Compare los costos por niveles: Flex < Standard < Priority
+ Realice un seguimiento de los tokens por solicitud (optimice las indicaciones)
+ Usa CloudWatch métricas para el uso y la regulación
+ Configura alarmas de facturación en caso de picos inesperados
+ Revisa el uso del nivel reservado mensualmente
+ Evalúe las mejoras de nivel solo cuando se produzcan limitaciones