As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Invocar o modelo importado
A tarefa de importação do modelo pode levar vários minutos para importar seu modelo após o envio da CreateModelImportJobsolicitação. Você pode verificar o status do seu trabalho de importação no console ou chamando a GetModelImportJoboperação e verificando o Status campo na resposta. O trabalho de importação será concluído se o Status do modelo for Concluído.
Depois que seu modelo importado estiver disponível no Amazon Bedrock, você poderá usar o modelo com taxa de transferência sob demanda enviando InvokeModelou InvokeModelWithResponseStreamsolicitando chamadas de inferência para o modelo. Para obter mais informações, consulte Envie uma única solicitação com InvokeModel.
Para interagir com seu modelo importado usando o formato de mensagens, você pode chamar o Converse ou ConverseStreamas operações. Para obter mais informações, consulte Usar o Converse solicitações de.
nota
A API Converse não é compatível com GPT-OSS modelos Qwen2.5 Qwen2-VL Qwen2.5-VL,, e.
Suporte aprimorado de API: vários formatos de API
A partir de 17 de novembro de 2025, o Amazon Bedrock Custom Model Import oferece suporte a formatos abrangentes de OpenAI-compatible API, oferecendo flexibilidade na forma como você integra e implementa seus modelos personalizados. Todos os modelos importados após 11 de novembro de 2025 se beneficiarão automaticamente desses recursos aprimorados sem a necessidade de configuração adicional.
O Custom Model Import agora oferece suporte a três formatos de API:
BedrockCompletion (Texto) - Compatível com os fluxos de trabalho atuais do Bedrock
OpenAICompletion (Text) - Compatibilidade do OpenAI Completions Schema
OpenAIChatCompletion (Texto e imagens) - Compatibilidade total com esquemas de conversação
Esses recursos aprimorados incluem saídas estruturadas para aplicar esquemas e padrões JSON, suporte aprimorado à visão com processamento de várias imagens, probabilidades de registro para insights de confiança do modelo e recursos de chamada de ferramentas para modelos. GPT-OSS
Para obter a documentação de referência detalhada da API, consulte a documentação oficial da OpenAI:
Conclusão: API de conclusão do OpenAI
ChatCompletion: API de bate-papo OpenAI
Exemplos de formato de API
Os exemplos a seguir demonstram como usar cada um dos quatro formatos de API compatíveis com seus modelos importados.
O ARN do modelo é necessário para fazer chamadas de inferência ao modelo recém-importado. Após a conclusão bem-sucedida do trabalho de importação e depois que o modelo importado estiver ativo, você poderá obter o ARN do modelo importado no console ou enviando uma ListImportedModelssolicitação.
Quando você invoca seu modelo importado usando InvokeModel ouInvokeModelWithStream, a solicitação é atendida em 5 minutos ou você pode receber ModelNotReadyException. Para entender o ModelNotReadyException, siga as etapas na próxima seção para lidar com ModelNotreadyException.
Perguntas frequentes
P: Qual formato de API devo usar?
R: Para máxima compatibilidade com vários SDKs, recomendamos usar o OpenAICompletion ou OpenAIChatCompletion formatos, pois eles fornecem OpenAI-compatible esquemas que são amplamente suportados em diferentes ferramentas e bibliotecas.
P: O GPT-OSS Amazon Bedrock Custom Model Import é compatível com a API Converse?
R: Não. GPT-OSSos modelos de importação de modelos personalizados baseados não oferecem suporte à API ou ConverseStream API Converse. Você deve usar a InvokeModelAPI com OpenAI-compatible esquemas ao trabalhar com modelos personalizados GPT-OSS baseados.
P: Quais modelos oferecem suporte à chamada de ferramentas?
R: modelos personalizados GPT-OSS baseados em suporte aos recursos de chamada de ferramentas. A chamada de ferramentas permite a chamada de funções para fluxos de trabalho complexos.
P: E quanto aos modelos importados antes de 11 de novembro de 2025?
R: Os modelos importados antes de 11 de novembro de 2025 continuam funcionando como estão com seus formatos e recursos de API existentes.
P: E quanto generation_config.json aos OpenAI-based modelos?
R: É fundamental que você inclua o generation_config.json arquivo correto ao importar OpenAI-based modelos comoGPT-OSS. Você deve usar o arquivo de configuração atualizado (atualizado em 13 de agosto de 2024) disponível em https://huggingface.co/openai/gpt-oss-20b/blob/main/generation_config.json[200002, 199999, 200012]), enquanto as versões mais antigas incluíam apenas dois tokens ()[200002, 199999]. Usar um generation_config.json arquivo desatualizado causará erros de tempo de execução durante a invocação do modelo. Esse arquivo é essencial para o comportamento adequado do modelo e deve ser incluído nas importações OpenAI-based do modelo.
Manuseio ModelNotReadyException
O Amazon Bedrock Custom Model Import otimiza o uso do hardware removendo os modelos que não estão ativos. Se você tentar invocar um modelo que foi removido, você receberá umaModelNotReadyException. Depois que o modelo é removido e você o invoca pela primeira vez, o recurso Importação de modelos personalizados começa a restaurar o modelo. O tempo de restauração depende do tamanho da frota sob demanda e do tamanho do modelo.
Se sua solicitação InvokeModel ou InvokeModelWithStream exibir ModelNotReadyException, siga as etapas para lidar com a exceção.
-
Configurar novas tentativas
Por padrão, a solicitação é repetida automaticamente com um recuo exponencial. Configure o número máximo de repetições.
O exemplo de código a seguir mostra como configurar a repetição. Substitua
${region-name}${model-arn}, e10por sua região, ARN do modelo e número máximo de tentativas.import json import boto3 from botocore.config import Config REGION_NAME =${region-name}MODEL_ID= '${model-arn}' config = Config( retries={ 'total_max_attempts':10, //customizable 'mode': 'standard' } ) message = "Hello" session = boto3.session.Session() br_runtime = session.client(service_name = 'bedrock-runtime', region_name=REGION_NAME, config=config) try: invoke_response = br_runtime.invoke_model(modelId=MODEL_ID, body=json.dumps({'prompt': message}), accept="application/json", contentType="application/json") invoke_response["body"] = json.loads(invoke_response["body"].read().decode("utf-8")) print(json.dumps(invoke_response, indent=4)) except Exception as e: print(e) print(e.__repr__()) -
Monitorar códigos de resposta durante novas tentativas
Cada nova tentativa inicia o processo de restauração do modelo. O tempo de restauração depende da disponibilidade da frota sob demanda e do tamanho do modelo. Monitore os códigos de resposta enquanto o processo de restauração está em andamento.
Se as novas tentativas falharem de forma consistente, prossiga para as próximas etapas.
-
Verificar se o modelo foi importado com sucesso
Você pode verificar se o modelo foi importado com sucesso verificando o status do seu trabalho de importação no console ou chamando a GetModelImportJoboperação. Verifique o campo
Statusna resposta. Se o Status do modelo for Concluído, isso significa que o trabalho de importação foi bem-sucedido. -
Contato Suporte para uma investigação mais aprofundada
Abra um ticket com Suporte Para obter mais informações, consulte Criação de casos de suporte.
Inclua detalhes relevantes, como ID do modelo e data e hora, no tíquete de suporte.