Descripción general de Cómo funciona el ciclo de optimización Lo que recibes Costo Duración prevista

Cómo funciona la optimización avanzada de peticiones

Descripción general de

La optimización avanzada de solicitudes (AdvPO) le permite optimizar las indicaciones para cualquier modelo de Bedrock y, al mismo tiempo, comparar las instrucciones originales con las instrucciones optimizadas de hasta 5 modelos simultáneamente. Puede usarlo si está migrando a un nuevo modelo o simplemente desea obtener un mejor rendimiento en su modelo actual. Si va a cambiar de modelo, seleccione su modelo actual como base y hasta 4 modelos más. Si no va a cambiar de modelo, simplemente seleccione el modelo actual para ver el antes y el después de la optimización. El optimizador utiliza sus plantillas de solicitudes (hasta 10 por trabajo), ejemplos de entradas de usuario para valores variables (muestras de evaluación, hasta 100 por plantilla de solicitud), respuestas basadas en la verdad básica y una métrica de evaluación para guiar la optimización. Incluso es compatible con entradas multimodales como jpeg, png o PDF. Puede proporcionar una LLM-as-a-judge rúbrica, una función Lambda o criterios de orientación breves en lenguaje natural. La evaluación orienta la optimización rápida. El optimizador funciona en un circuito de retroalimentación basado en la evaluación para optimizar las respuestas rápidas y resultantes del modelo, y genera las plantillas de solicitudes originales y finales con las puntuaciones de las evaluaciones, las estimaciones de costos y la latencia.

Si desea migrar las solicitudes de un modelo que no sea de Bedrock y aún así quiere tener comparaciones paralelas, una forma de hacerlo es realizar inferencias en su modelo que no sea de Bedrock por separado y, a continuación, aplicar una para puntuar esos resultados. Evaluador Lambda personalizado A continuación, cree un trabajo de optimización rápida avanzada con el mismo evaluador de funciones Lambda para sus modelos objetivo de Bedrock. De esta forma, podrá realizar una comparación directa del modelo anterior con el nuevo antes y después de una rápida optimización.

Cómo funciona el ciclo de optimización

Las muestras de evaluación se insertan en las variables de marcador de posición de la plantilla de solicitud y, a continuación, se envían para su inferencia con los modelos objetivo. Las entradas multimodales (imágenes y archivos PDF) se envían en la carga útil al modelo junto con la solicitud, pero no se debe hacer referencia a ellas en una variable entre corchetes. {{placeholder}} Las respuestas se califican de acuerdo con su método de evaluación. El servicio analiza los resultados de la evaluación y reescribe automáticamente las solicitudes y, a continuación, las devuelve a los modelos. Este circuito de retroalimentación se repite y se completa de acuerdo con los parámetros de optimización internos patentados.

Es importante que defina el método y los criterios de evaluación con la mayor precisión posible, ya que la evaluación orienta la optimización rápida.

Tanto el conjunto de datos como el metric/lambda código dan forma a la calidad de la optimización. El sistema utiliza su conjunto de datos para evaluar a los candidatos iniciales y lee el código métrico (texto fuente y cadenas de documentos) para entender qué significa «bueno» y diagnosticar los casos en los que no funcionan.

Lo que recibes

Al final del trabajo de optimización, recibirá:

Sus plantillas de solicitudes antes y después de la optimización
Puntuaciones de evaluación para cada muestra de evaluación
Latencia (tiempo transcurrido hasta el primer token o TTFT) para cada modelo
Estimaciones de costos para cada modelo

Costo

Todas las invocaciones de inferencias y funciones Lambda se ejecutan en su cuenta. AWS Las operaciones de Lambda se cobran al precio público de Lambda. Los precios de inferencia (incluidas LLM-as-a-judge las evaluaciones) se cobran de acuerdo con los precios públicos de Bedrock para la inferencia bajo demanda. El servicio Advanced Prompt Optimization no tiene un coste adicional aparte de los costes de inferencia. El LLM-as-a-judge modelo predeterminado actual es Anthropic Claude Sonnet 4.6, a menos que seleccione uno diferente para su mensaje LLMJ personalizado.

Consulte la página pública de precios de Bedrock en Prompt Optimization y, a continuación, Advanced Prompt Optimization para obtener un método de cálculo para estimar el costo de ejecutar una optimización.

Duración prevista

Para una sola solicitud con solo unas pocas muestras de evaluación, el trabajo podría durar de 15 a 20 minutos. En el caso de muchas solicitudes, cada una con un gran número de muestras de evaluación, el trabajo podría durar más de una hora o, posiblemente, varias horas. Esto se debe a que cada plantilla de solicitud pasa por varias rondas de ciclos de inferencia, evaluación y reescritura en función de cada registro de muestra de evaluación que proporcione.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Optimice y migre las solicitudes

Requisitos previos y permisos