View a markdown version of this page

Recomendações otimizadas de inferência generativa de IA - SageMaker Inteligência Artificial da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Recomendações otimizadas de inferência generativa de IA

A Amazon SageMaker AI agora oferece suporte a recomendações de inferência, um recurso que elimina a otimização manual e o benchmarking para oferecer um desempenho de inferência ideal. Em vez de testar manualmente combinações de tipos de instância de GPU, contêineres de atendimento, estratégias de paralelismo e técnicas de otimização, você fornece seus requisitos de modelo e carga de trabalho, e a SageMaker IA retorna configurações validadas e prontas para implantação com métricas de desempenho reais.

As recomendações de inferência analisam a arquitetura do seu modelo, restringem o espaço de configuração e aplicam otimizações alinhadas a objetivos, como decodificação especulativa para taxa de transferência e ajuste do kernel para latência. Ao avaliar vários tipos de instância, você pode selecionar a opção com melhor custo-benefício para sua carga de trabalho. Ele compara cada configuração em uma infraestrutura de GPU real, para que você possa implantar com confiança e dimensionar corretamente seus gastos com inferência.

Como funciona

Começar com as recomendações de inferência é simples, seja por meio do SageMaker AI Studio ou das APIs de IA. SageMaker As etapas a seguir descrevem o fluxo de trabalho.

  1. Prepare seu modelo. Aponte para artefatos do modelo no Amazon S3 ou no AI Model SageMaker Registry. As recomendações de inferência oferecem suporte ao formato de HuggingFace ponto de verificação com SafeTensor pesos, incluindo modelos básicos e modelos personalizados ou ajustados.

  2. Defina sua carga de trabalho. Descreva seus padrões de tráfego esperados, incluindo distribuições de tokens de entrada e saída e níveis de simultaneidade. Você pode usar especificações em linha ou um conjunto de dados representativo do Amazon S3.

  3. Defina sua meta. Escolha um único objetivo de desempenho: otimizar os custos, minimizar a latência ou maximizar a produtividade. Selecione até três tipos de instância para comparar.

  4. Revise os resultados. SageMaker A IA retorna configurações validadas com métricas reais de desempenho: Time to First Token (TTFT), latência entre tokens, latência da solicitação, taxa de transferência e custo P50/P90/P99 por configuração. Cada configuração está pronta para implantação.

  5. Implantar. Implante a configuração escolhida em um endpoint de inferência de SageMaker IA com uma única ação do SageMaker AI Studio ou programaticamente por meio da API.

Você também pode comparar os endpoints de produção existentes para validar o desempenho atual ou comparar com as novas configurações.

Casos de uso

Veja a seguir casos de uso comuns para recomendações de inferência.

  • Pre-deployment validação. Otimize e compare um novo modelo antes de se comprometer com uma implantação de produção. Valide o desempenho do modelo antes de investir em escalá-lo.

  • Teste de regressão após atualizações. Valide o desempenho após uma atualização de contêiner, atualização de estrutura ou lançamento de biblioteca de serviço. Confirme se sua configuração ainda está ótima antes de começar a produção.

  • Right-sizing quando as condições mudam. Quando os padrões de tráfego mudarem ou novos tipos de instância forem disponibilizados, execute novamente as recomendações de inferência em horas, em vez de reiniciar um processo manual de semanas.

  • Comparação de modelos. Compare o desempenho e o custo de diferentes variantes de modelo em todos os tipos de instância para fazer uma seleção informada antes da implantação na produção.

  • Otimização de custo. Compare os endpoints de produção existentes para identificar a infraestrutura superprovisionada. Use os resultados para dimensionar corretamente e reduzir os gastos recorrentes com inferência.

Preços

As recomendações de inferência não têm taxa de serviço adicional. Você pode usar reservas de ML existentes (planos de treinamento flexíveis) sem custo adicional de computação ou usar computação sob demanda que é provisionada automaticamente.

Regiões aceitas

As recomendações de inferência estão disponíveis nas seguintes AWS regiões:

  • Leste dos EUA (Norte da Virgínia)

  • Leste dos EUA (Ohio)

  • Oeste dos EUA (Oregon)

  • Ásia-Pacífico (Singapura)

  • Ásia-Pacífico (Tóquio)

  • Europa (Frankfurt)

  • Europa (Irlanda)