Optimización de la capacidad, los límites y los costes - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Optimización de la capacidad, los límites y los costes

Amazon Bedrock ofrece opciones de capacidad flexibles que se adaptan a sus requisitos de carga de trabajo y a su presupuesto. Comprender las diferencias entre los niveles bajo demanda (flexible, prioritario, estándar), el nivel reservado, el procesamiento por lotes y la inferencia entre regiones le ayudará a optimizar tanto el rendimiento como los costos.

Opciones de capacidad

Tipo de capacidad Caso de uso Características clave
Bajo demanda: Flex Cargas de trabajo esporádicas y de bajo volumen
  • El coste más bajo por token

  • Disponibilidad óptima

  • Puede experimentar estrangulamiento

  • Sin SLA

Bajo demanda: estándar Cargas de trabajo de producción regulares
  • Coste y rendimiento equilibrados

  • Garantías de rendimiento moderadas

  • SLA estándar

  • La opción más común

Bajo demanda: prioridad Aplicaciones sensibles a la latencia y de alta prioridad
  • El costo bajo demanda más alto

  • Asignación de rendimiento superior

  • SLA mejorado

  • Reducción del riesgo de estrangulamiento

Nivel reservado Cargas de trabajo consistentes y de gran volumen
  • Unidades modelo reservadas

  • Capacidad garantizada

  • Compromisos de 1 o 6 meses

  • Rendimiento predecible

Lote non-time-sensitiveProcesamiento a gran escala
  • Ahorro de costes del 50% en comparación con la demanda

  • Ventana de procesamiento de 24 horas

  • Ideal para inferencias masivas

Inferencia entre regiones Alta disponibilidad, tráfico a raudales
  • Conmutación por error automática

  • Ruta a regiones menos concurridas

  • Tiempo de actividad mejorado

  • Utiliza precios bajo demanda

Límites y cuotas

Límites bajo demanda (por nivel)

Nivel Rango de RPM Rango TPM Riesgo de estrangulamiento
Flexionar 10-100 5K-50 K Alto
Standard 100-500 50 K-150 K Medio
Priority (Prioridad) 500-1000 + 150K-300K+ Bajo
  • Capacidad de ráfaga: disponible en todos los niveles para picos cortos

  • Límites flexibles: se pueden aumentar mediante solicitudes de cuotas de servicio

  • Específicos del modelo: los límites reales varían según el modelo básico

Límites de niveles reservados

  • Compromiso mínimo: 1 unidad modelo

  • Unidades máximas: específicas de la cuenta y la región

  • Límites de entrada y salida de fichas: según las unidades compradas

  • No se limitan las RPM dentro de la capacidad comprada

Límites de procesamiento por lotes

  • Tamaño del trabajo: hasta 10 000 registros por lote

  • Tamaño del archivo: archivo de entrada máximo de 200 MB

  • Tiempo de procesamiento: plazo de finalización de 24 horas

  • Trabajos simultáneos: cuotas específicas por región

Inferencia interregional

  • Hereda los límites de los niveles bajo demanda por región

  • Sin gastos de cuota adicionales

  • Enrutamiento automático (sin administración manual de límites)

Optimización de costes

Marco de decisión

Escenario Opción recomendada ¿Por qué
Desarrollo/pruebas Flexionar El costo más bajo, aceptable para la no producción
Producción estándar Standard La mejor relación costo-rendimiento
Aplicaciones críticas orientadas al usuario Priority (Prioridad) Fiabilidad y rendimiento por encima del coste
Carga constante de alto volumen Nivel reservado Ahorros del 30 al 50% con compromiso
Procesamiento masivo de datos Lote 50% de descuento, cargas de trabajo no urgentes
Tiempo de actividad fundamental Inferencia entre regiones Disponibilidad > costo

Estrategias de optimización

Elija el nivel bajo demanda adecuado

  • Comience con el estándar para la mayoría de las cargas de trabajo

  • Cambie a Flex para entornos dev/test

  • Actualice a Priority solo cuando la limitación afecte a los usuarios

  • Supervise las métricas CloudWatch de aceleración para tomar decisiones informadas

Transición al nivel reservado

  • Cuando la carga constante supera el 40% de los costes bajo demanda

  • Calcule el punto de equilibrio: (coste mensual bajo demanda) frente a (compromiso reservado)

  • Utilice inicialmente un compromiso de 1 mes

  • El nivel reservado puede funcionar junto con cualquier nivel bajo demanda

Aproveche Batch para

  • Generación de datos de entrenamiento

  • Atrasos en la moderación de contenido

  • Generación de informes

  • Canalizaciones de enriquecimiento de datos

Combine enfoques

  • Nivel reservado para el tráfico de referencia

  • Estándar bajo demanda para ráfagas moderadas

  • Prioridad bajo demanda para períodos críticos de alta demanda

  • Batch para procesamiento fuera de línea

  • Únicamente para conmutación por error entre regiones

Supervisión de costes

  • Compare los costos por niveles: Flex < Standard < Priority

  • Realice un seguimiento de los tokens por solicitud (optimice las indicaciones)

  • Utilice CloudWatch métricas para la utilización y la limitación

  • Configura alarmas de facturación en caso de picos inesperados

  • Revise el uso de los niveles reservados mensualmente

  • Evalúe las actualizaciones de nivel solo cuando se produzca una limitación