Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés. # Capacidad y rendimiento Amazon Bedrock ofrece opciones de capacidad flexibles que se adaptan a sus requisitos de carga de trabajo y presupuesto. Comprender las diferencias entre los niveles bajo demanda (flexible, prioritario, estándar), el nivel reservado, el procesamiento por lotes y la inferencia entre regiones le ayudará a optimizar tanto el rendimiento como los costos. ## Opciones de capacidad | Tipo de capacidad | Caso de uso | Características clave | | --- | --- | --- | | On-Demand: Flex | Cargas de trabajo esporádicas y de bajo volumen | [See the AWS documentation website for more details](http://docs.aws.amazon.com/es_es/bedrock/latest/userguide/capacity-limits-cost-optimization.html) | | On-Demand: Estándar | Cargas de trabajo de producción regulares | [See the AWS documentation website for more details](http://docs.aws.amazon.com/es_es/bedrock/latest/userguide/capacity-limits-cost-optimization.html) | | On-Demand: Prioridad | High-priority, aplicaciones sensibles a la latencia | [See the AWS documentation website for more details](http://docs.aws.amazon.com/es_es/bedrock/latest/userguide/capacity-limits-cost-optimization.html) | | Nivel reservado | Cargas de trabajo consistentes y de gran volumen | [See the AWS documentation website for more details](http://docs.aws.amazon.com/es_es/bedrock/latest/userguide/capacity-limits-cost-optimization.html) | | Lote | Large-scale, procesamiento no urgente | [See the AWS documentation website for more details](http://docs.aws.amazon.com/es_es/bedrock/latest/userguide/capacity-limits-cost-optimization.html) | | Cross-Region Inferencia | Alta disponibilidad, tráfico a raudales | [See the AWS documentation website for more details](http://docs.aws.amazon.com/es_es/bedrock/latest/userguide/capacity-limits-cost-optimization.html) | ## Limita & las cuotas ### On-Demand Límites (por nivel) | Nivel | Rango de RPM | Rango TPM | Riesgo de estrangulamiento | | --- | --- | --- | --- | | Flexionar | 10-100 | 5K-50K | Alto | | Standard | 100-500 | 50 K-150K | Medio | | Priority (Prioridad) | Más de 500 a 1000 | 150 \+ K-300K | Bajo | + Capacidad de ráfaga: disponible en todos los niveles para picos cortos + Límites flexibles: se pueden aumentar mediante solicitudes de cuotas de servicio + Model-specific: Los límites reales varían según el modelo básico ### Límites de niveles reservados + Compromiso mínimo: 1 unidad modelo + Unidades máximas: específicas de la cuenta y la región + Input/output límites de fichas: se basan en las unidades compradas + No se reducen las RPM dentro de la capacidad comprada ### Límites de procesamiento por lotes + Tamaño del trabajo: hasta 10 000 registros por lote + Tamaño del archivo: archivo de entrada máximo de 200 MB + Tiempo de procesamiento: plazo de finalización de 24 horas + Trabajos simultáneos: cuotas Region-specific ### Cross-Region Inferencia + Hereda los límites de los niveles bajo demanda por región + Sin gastos de cuota adicionales + Enrutamiento automático (sin administración manual de límites) ## Elegir un nivel ### Marco de decisión | Escenario | Opción recomendada | ¿Por qué | | --- | --- | --- | | Development/testing | Flexionar | El costo más bajo, aceptable para la no producción | | Producción estándar | Standard | La mejor relación costo-rendimiento | | Aplicaciones críticas orientadas al usuario | Priority (Prioridad) | Fiabilidad y rendimiento por encima del coste | | Carga constante de alto volumen | Nivel reservado | Ahorros del 30 al 50% con compromiso | | Procesamiento masivo de datos | Lote | 50% de descuento, cargas de trabajo no urgentes | | Mission-critical tiempo de actividad | Cross-Region Inferencia | Disponibilidad > costo | ### Estrategias de optimización **Elija el On-Demand nivel correcto** + Comience con el estándar para la mayoría de las cargas de trabajo + Cambie a Flex para entornos dev/test + Actualice a Priority solo cuando la limitación afecte a los usuarios + Supervise las métricas CloudWatch de aceleración para tomar decisiones informadas **Transición al nivel reservado** + Cuando la carga constante supera el 40% de los costes bajo demanda + Calcule el punto de equilibrio: (coste mensual bajo demanda) frente a (compromiso reservado) + Utilice inicialmente un compromiso de 1 mes + El nivel reservado puede funcionar junto con cualquier nivel bajo demanda **Utilice Batch para** + Generación de datos de entrenamiento + Atrasos en la moderación de contenido + Generación de informes + Canalizaciones de enriquecimiento de datos **Combine enfoques** + Nivel reservado para el tráfico de referencia + Estándar bajo demanda para ráfagas moderadas + Prioridad bajo demanda para períodos críticos de alta demanda + Batch para procesamiento fuera de línea + Cross-region solo para conmutación por error **Supervisión de costes** + Compare los costos por niveles: Flex < Standard < Priority + Realice un seguimiento de los tokens por solicitud (optimice las indicaciones) + Usa CloudWatch métricas para el uso y la regulación + Configura alarmas de facturación en caso de picos inesperados + Revisa el uso del nivel reservado mensualmente + Evalúe las mejoras de nivel solo cuando se produzcan limitaciones