Opciones de capacidad Limita & las cuotas Elegir un nivel

Capacidad y rendimiento

Amazon Bedrock ofrece opciones de capacidad flexibles que se adaptan a sus requisitos de carga de trabajo y presupuesto. Comprender las diferencias entre los niveles bajo demanda (flexible, prioritario, estándar), el nivel reservado, el procesamiento por lotes y la inferencia entre regiones le ayudará a optimizar tanto el rendimiento como los costos.

Opciones de capacidad

Tipo de capacidad	Caso de uso	Características clave
On-Demand: Flex	Cargas de trabajo esporádicas y de bajo volumen	El coste más bajo por token Best-effort disponibilidad Puede experimentar estrangulamiento Sin SLA
On-Demand: Estándar	Cargas de trabajo de producción regulares	Coste y rendimiento equilibrados Garantiza un rendimiento moderado SLA estándar La opción más común
On-Demand: Prioridad	High-priority, aplicaciones sensibles a la latencia	El costo bajo demanda más alto Asignación de rendimiento superior SLA mejorado Reducción del riesgo de estrangulamiento
Nivel reservado	Cargas de trabajo consistentes y de gran volumen	Unidades modelo reservadas Capacidad garantizada Compromisos de 1 o 3 meses Rendimiento predecible
Lote	Large-scale, procesamiento no urgente	Ahorro de costes del 50% en comparación con la demanda Ventana de procesamiento de 24 horas Ideal para inferencias masivas
Cross-Region Inferencia	Alta disponibilidad, tráfico a raudales	Conmutación por error automática Ruta a regiones menos concurridas Tiempo de actividad mejorado Utiliza precios bajo demanda

Limita & las cuotas

On-Demand Límites (por nivel)

Nivel	Rango de RPM	Rango TPM	Riesgo de estrangulamiento
Flexionar	10-100	5K-50K	Alto
Standard	100-500	50 K-150K	Medio
Priority (Prioridad)	Más de 500 a 1000	150 + K-300K	Bajo

Capacidad de ráfaga: disponible en todos los niveles para picos cortos
Límites flexibles: se pueden aumentar mediante solicitudes de cuotas de servicio
Model-specific: Los límites reales varían según el modelo básico

Límites de niveles reservados

Compromiso mínimo: 1 unidad modelo
Unidades máximas: específicas de la cuenta y la región
Input/output límites de fichas: se basan en las unidades compradas
No se reducen las RPM dentro de la capacidad comprada

Límites de procesamiento por lotes

Tamaño del trabajo: hasta 10 000 registros por lote
Tamaño del archivo: archivo de entrada máximo de 200 MB
Tiempo de procesamiento: plazo de finalización de 24 horas
Trabajos simultáneos: cuotas Region-specific

Cross-Region Inferencia

Hereda los límites de los niveles bajo demanda por región
Sin gastos de cuota adicionales
Enrutamiento automático (sin administración manual de límites)

Elegir un nivel

Marco de decisión

Escenario	Opción recomendada	¿Por qué
Development/testing	Flexionar	El costo más bajo, aceptable para la no producción
Producción estándar	Standard	La mejor relación costo-rendimiento
Aplicaciones críticas orientadas al usuario	Priority (Prioridad)	Fiabilidad y rendimiento por encima del coste
Carga constante de alto volumen	Nivel reservado	Ahorros del 30 al 50% con compromiso
Procesamiento masivo de datos	Lote	50% de descuento, cargas de trabajo no urgentes
Mission-critical tiempo de actividad	Cross-Region Inferencia	Disponibilidad > costo

Estrategias de optimización

Elija el On-Demand nivel correcto

Comience con el estándar para la mayoría de las cargas de trabajo
Cambie a Flex para entornos dev/test
Actualice a Priority solo cuando la limitación afecte a los usuarios
Supervise las métricas CloudWatch de aceleración para tomar decisiones informadas

Transición al nivel reservado

Cuando la carga constante supera el 40% de los costes bajo demanda
Calcule el punto de equilibrio: (coste mensual bajo demanda) frente a (compromiso reservado)
Utilice inicialmente un compromiso de 1 mes
El nivel reservado puede funcionar junto con cualquier nivel bajo demanda

Utilice Batch para

Generación de datos de entrenamiento
Atrasos en la moderación de contenido
Generación de informes
Canalizaciones de enriquecimiento de datos

Combine enfoques

Nivel reservado para el tráfico de referencia
Estándar bajo demanda para ráfagas moderadas
Prioridad bajo demanda para períodos críticos de alta demanda
Batch para procesamiento fuera de línea
Cross-region solo para conmutación por error

Supervisión de costes

Compare los costos por niveles: Flex < Standard < Priority
Realice un seguimiento de los tokens por solicitud (optimice las indicaciones)
Usa CloudWatch métricas para el uso y la regulación
Configura alarmas de facturación en caso de picos inesperados
Revisa el uso del nivel reservado mensualmente
Evalúe las mejoras de nivel solo cuando se produzcan limitaciones

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Administración de proyectos con AWS CloudFormation

Niveles reservado, estándar, prioritario y flexible