Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Capacidad y rendimiento
Amazon Bedrock ofrece opciones de capacidad flexibles que se adaptan a sus requisitos de carga de trabajo y presupuesto. Comprender las diferencias entre los niveles bajo demanda (flexible, prioritario, estándar), el nivel reservado, el procesamiento por lotes y la inferencia entre regiones le ayudará a optimizar tanto el rendimiento como los costos.
Opciones de capacidad
| Tipo de capacidad | Caso de uso | Características clave |
|---|---|---|
| On-Demand: Flex | Cargas de trabajo esporádicas y de bajo volumen |
|
| On-Demand: Estándar | Cargas de trabajo de producción regulares |
|
| On-Demand: Prioridad | High-priority, aplicaciones sensibles a la latencia |
|
| Nivel reservado | Cargas de trabajo consistentes y de gran volumen |
|
| Lote | Large-scale, procesamiento no urgente |
|
| Cross-Region Inferencia | Alta disponibilidad, tráfico a raudales |
|
Limita & las cuotas
On-Demand Límites (por nivel)
| Nivel | Rango de RPM | Rango TPM | Riesgo de estrangulamiento |
|---|---|---|---|
| Flexionar | 10-100 | 5K-50K | Alto |
| Standard | 100-500 | 50 K-150K | Medio |
| Priority (Prioridad) | Más de 500 a 1000 | 150 + K-300K | Bajo |
Capacidad de ráfaga: disponible en todos los niveles para picos cortos
Límites flexibles: se pueden aumentar mediante solicitudes de cuotas de servicio
Model-specific: Los límites reales varían según el modelo básico
Límites de niveles reservados
Compromiso mínimo: 1 unidad modelo
Unidades máximas: específicas de la cuenta y la región
Input/output límites de fichas: se basan en las unidades compradas
No se reducen las RPM dentro de la capacidad comprada
Límites de procesamiento por lotes
Tamaño del trabajo: hasta 10 000 registros por lote
Tamaño del archivo: archivo de entrada máximo de 200 MB
Tiempo de procesamiento: plazo de finalización de 24 horas
Trabajos simultáneos: cuotas Region-specific
Cross-Region Inferencia
Hereda los límites de los niveles bajo demanda por región
Sin gastos de cuota adicionales
Enrutamiento automático (sin administración manual de límites)
Elegir un nivel
Marco de decisión
| Escenario | Opción recomendada | ¿Por qué |
|---|---|---|
| Development/testing | Flexionar | El costo más bajo, aceptable para la no producción |
| Producción estándar | Standard | La mejor relación costo-rendimiento |
| Aplicaciones críticas orientadas al usuario | Priority (Prioridad) | Fiabilidad y rendimiento por encima del coste |
| Carga constante de alto volumen | Nivel reservado | Ahorros del 30 al 50% con compromiso |
| Procesamiento masivo de datos | Lote | 50% de descuento, cargas de trabajo no urgentes |
| Mission-critical tiempo de actividad | Cross-Region Inferencia | Disponibilidad > costo |
Estrategias de optimización
Elija el On-Demand nivel correcto
Comience con el estándar para la mayoría de las cargas de trabajo
Cambie a Flex para entornos dev/test
Actualice a Priority solo cuando la limitación afecte a los usuarios
Supervise las métricas CloudWatch de aceleración para tomar decisiones informadas
Transición al nivel reservado
Cuando la carga constante supera el 40% de los costes bajo demanda
Calcule el punto de equilibrio: (coste mensual bajo demanda) frente a (compromiso reservado)
Utilice inicialmente un compromiso de 1 mes
El nivel reservado puede funcionar junto con cualquier nivel bajo demanda
Utilice Batch para
Generación de datos de entrenamiento
Atrasos en la moderación de contenido
Generación de informes
Canalizaciones de enriquecimiento de datos
Combine enfoques
Nivel reservado para el tráfico de referencia
Estándar bajo demanda para ráfagas moderadas
Prioridad bajo demanda para períodos críticos de alta demanda
Batch para procesamiento fuera de línea
Cross-region solo para conmutación por error
Supervisión de costes
Compare los costos por niveles: Flex < Standard < Priority
Realice un seguimiento de los tokens por solicitud (optimice las indicaciones)
Usa CloudWatch métricas para el uso y la regulación
Configura alarmas de facturación en caso de picos inesperados
Revisa el uso del nivel reservado mensualmente
Evalúe las mejoras de nivel solo cuando se produzcan limitaciones