Visão geral do Como funciona o ciclo de otimização O que você recebe Custo Duração esperada

Como funciona a otimização de prompts avançados

Visão geral do

A Otimização Avançada de Prompt (AdvPO) permite que você otimize seus prompts para qualquer modelo no Bedrock enquanto compara seus prompts originais com avisos otimizados em até 5 modelos simultaneamente. Você pode usar isso se estiver migrando para um novo modelo ou apenas quiser obter um melhor desempenho em seu modelo atual. Se você estiver trocando de modelo, selecione seu modelo atual como linha de base e até 4 outros modelos. Se você não estiver mudando de modelo, basta selecionar seu modelo atual para ver antes e depois da otimização. O otimizador usa seus modelos de solicitação (até 10 por tarefa), exemplos de entradas do usuário para valores variáveis (amostras de avaliação, até 100 por modelo de solicitação), respostas verdadeiras e uma métrica de avaliação para orientar a otimização. É até compatível com entradas multimodais, como jpeg, png ou PDF. Você pode fornecer uma LLM-as-a-judge rubrica, uma função Lambda ou critérios curtos de orientação em linguagem natural. A avaliação orienta a otimização imediata. O otimizador funciona em um ciclo de feedback baseado em avaliação para otimizar as respostas imediatas e resultantes do modelo e gera os modelos de solicitação original e final com pontuações de avaliação, estimativas de custo e latência.

Se você quiser migrar solicitações de um modelo que não seja do Bedrock e ainda quiser fazer comparações lado a lado, uma maneira de fazer isso é executar inferências em seu modelo que não é do Bedrock separadamente e, em seguida, aplicar a para pontuar esses resultados. Avaliador Lambda personalizado Em seguida, crie um trabalho de Otimização Avançada de Prompt com o mesmo avaliador de funções Lambda para seus modelos de destino do Bedrock. Dessa forma, você pode fazer uma comparação direta do modelo antigo com o novo antes e depois da otimização imediata.

Como funciona o ciclo de otimização

Suas amostras de avaliação são injetadas nas variáveis de espaço reservado em seu modelo de prompt e, em seguida, enviadas para inferência com seu (s) modelo (s) de destino. As entradas multimodais (imagens e PDFs) são enviadas na carga útil para o modelo junto com o prompt, mas não devem ser referenciadas em uma variável de colchetes duplos. {{placeholder}} As respostas são avaliadas de acordo com seu método de avaliação. O serviço analisa os resultados da avaliação, reescreve automaticamente suas solicitações e as envia de volta aos modelos. Esse ciclo de feedback se repete e se completa de acordo com os parâmetros de otimização internos proprietários.

É importante que você defina o método e os critérios de avaliação com a maior precisão possível, pois a avaliação orienta a otimização imediata.

Tanto o conjunto de dados quanto o metric/lambda código moldam a qualidade da otimização. O sistema usa seu conjunto de dados para testar candidatos a solicitações e lê seu código métrico (texto fonte e documentos) para entender o que significa “bom” e diagnosticar onde as solicitações falham.

O que você recebe

Ao final do trabalho de otimização, você recebe:

Seus modelos de prompt antes e depois da otimização
Pontuações de avaliação para cada amostra de avaliação
Latência (tempo até o primeiro token, ou TTFT) para cada modelo
Estimativas de custo para cada modelo

Custo

Todas as inferências e invocações da função Lambda são executadas em sua conta. AWS As operações da Lambda são cobradas de acordo com os preços públicos da Lambda. Os preços de inferência (incluindo LLM-as-a-judge avaliações) são cobrados de acordo com os preços públicos da Bedrock para inferência sob demanda. Não há cobrança de serviço separada do Advanced Prompt Optimization além dos custos de inferência. O LLM-as-a-judge modelo padrão atual é Anthropic Claude Sonnet 4.6, a menos que você selecione um diferente para seu prompt LLMJ personalizado.

Consulte a página pública de preços da Bedrock em Otimização imediata e depois em Otimização imediata avançada para obter um método de cálculo para estimar o custo de execução de uma otimização.

Duração esperada

Para um único prompt com apenas algumas amostras de avaliação, o trabalho pode ser executado por 15 a 20 minutos. Para muitas solicitações, cada uma com um grande número de amostras de avaliação, o trabalho pode ser executado por mais de uma hora, potencialmente por várias horas. Isso ocorre porque cada modelo de prompt passa por várias rodadas de ciclos de inferência, avaliação e reescrita com base em cada registro de amostra de avaliação que você fornece.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Otimize e migre os prompts

Pré-requisitos e permissões