Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Optimización de la capacidad, los límites y los costes
Amazon Bedrock ofrece opciones de capacidad flexibles que se adaptan a sus requisitos de carga de trabajo y a su presupuesto. Comprender las diferencias entre los niveles bajo demanda (flexible, prioritario, estándar), el nivel reservado, el procesamiento por lotes y la inferencia entre regiones le ayudará a optimizar tanto el rendimiento como los costos.
Opciones de capacidad
| Tipo de capacidad | Caso de uso | Características clave |
|---|---|---|
| Bajo demanda: Flex | Cargas de trabajo esporádicas y de bajo volumen |
|
| Bajo demanda: estándar | Cargas de trabajo de producción regulares |
|
| Bajo demanda: prioridad | Aplicaciones sensibles a la latencia y de alta prioridad |
|
| Nivel reservado | Cargas de trabajo consistentes y de gran volumen |
|
| Lote | non-time-sensitiveProcesamiento a gran escala |
|
| Inferencia entre regiones | Alta disponibilidad, tráfico a raudales |
|
Límites y cuotas
Límites bajo demanda (por nivel)
| Nivel | Rango de RPM | Rango TPM | Riesgo de estrangulamiento |
|---|---|---|---|
| Flexionar | 10-100 | 5K-50 K | Alto |
| Standard | 100-500 | 50 K-150 K | Medio |
| Priority (Prioridad) | 500-1000 + | 150K-300K+ | Bajo |
Capacidad de ráfaga: disponible en todos los niveles para picos cortos
Límites flexibles: se pueden aumentar mediante solicitudes de cuotas de servicio
Específicos del modelo: los límites reales varían según el modelo básico
Límites de niveles reservados
Compromiso mínimo: 1 unidad modelo
Unidades máximas: específicas de la cuenta y la región
Límites de entrada y salida de fichas: según las unidades compradas
No se limitan las RPM dentro de la capacidad comprada
Límites de procesamiento por lotes
Tamaño del trabajo: hasta 10 000 registros por lote
Tamaño del archivo: archivo de entrada máximo de 200 MB
Tiempo de procesamiento: plazo de finalización de 24 horas
Trabajos simultáneos: cuotas específicas por región
Inferencia interregional
Hereda los límites de los niveles bajo demanda por región
Sin gastos de cuota adicionales
Enrutamiento automático (sin administración manual de límites)
Optimización de costes
Marco de decisión
| Escenario | Opción recomendada | ¿Por qué |
|---|---|---|
| Desarrollo/pruebas | Flexionar | El costo más bajo, aceptable para la no producción |
| Producción estándar | Standard | La mejor relación costo-rendimiento |
| Aplicaciones críticas orientadas al usuario | Priority (Prioridad) | Fiabilidad y rendimiento por encima del coste |
| Carga constante de alto volumen | Nivel reservado | Ahorros del 30 al 50% con compromiso |
| Procesamiento masivo de datos | Lote | 50% de descuento, cargas de trabajo no urgentes |
| Tiempo de actividad fundamental | Inferencia entre regiones | Disponibilidad > costo |
Estrategias de optimización
Elija el nivel bajo demanda adecuado
Comience con el estándar para la mayoría de las cargas de trabajo
Cambie a Flex para entornos dev/test
Actualice a Priority solo cuando la limitación afecte a los usuarios
Supervise las métricas CloudWatch de aceleración para tomar decisiones informadas
Transición al nivel reservado
Cuando la carga constante supera el 40% de los costes bajo demanda
Calcule el punto de equilibrio: (coste mensual bajo demanda) frente a (compromiso reservado)
Utilice inicialmente un compromiso de 1 mes
El nivel reservado puede funcionar junto con cualquier nivel bajo demanda
Aproveche Batch para
Generación de datos de entrenamiento
Atrasos en la moderación de contenido
Generación de informes
Canalizaciones de enriquecimiento de datos
Combine enfoques
Nivel reservado para el tráfico de referencia
Estándar bajo demanda para ráfagas moderadas
Prioridad bajo demanda para períodos críticos de alta demanda
Batch para procesamiento fuera de línea
Únicamente para conmutación por error entre regiones
Supervisión de costes
Compare los costos por niveles: Flex < Standard < Priority
Realice un seguimiento de los tokens por solicitud (optimice las indicaciones)
Utilice CloudWatch métricas para la utilización y la limitación
Configura alarmas de facturación en caso de picos inesperados
Revise el uso de los niveles reservados mensualmente
Evalúe las actualizaciones de nivel solo cuando se produzca una limitación