Inférence Amazon Bedrock

Une fois que vous avez entraîné et testé votre modèle Amazon Nova, vous pouvez le déployer sur Amazon Bedrock à des fins d'inférence à l'échelle de production. Le processus de déploiement consiste à créer un modèle Amazon Bedrock à l'aide de l' CreateCustomModel API, à y exporter les artefacts de votre modèle à partir d'un compartiment Amazon S3 géré, puis, une fois le modèle ACTIF, à configurer un point de terminaison avec une inférence à la demande ou à débit provisionné.

Après avoir créé un modèle personnalisé dans SageMaker, vous pouvez utiliser l' CreateCustomModel API pour le déployer sur Amazon Bedrock depuis le SageMaker dépôt fiduciaire afin d'exécuter une inférence. Vous pouvez ensuite l'utiliser CreateCustomModelDeployment pour créer un point de terminaison d'inférence OD ou configurer une inférence de débit provisionnée pour un modèle PEFT (Parameter Efficient Fine Tuned). Vous pouvez configurer l'inférence du débit provisionné pour un modèle personnalisé Full Rank.

Vous pouvez également utiliser le SDK Amazon Nova Forge pour déployer des modèles Amazon Nova personnalisés. Le SDK Amazon Nova Forge fournit une expérience rationalisée pour extraire les informations pertinentes d'une tâche de formation ou d'un point de contrôle du modèle S3 et les publier sur Amazon Bedrock. Pour plus d'informations, consultez le SDK Amazon Nova Forge.

Pour connaître les étapes détaillées de configuration de l'inférence Amazon Bedrock pour un modèle personnalisé, consultez Déploiement de modèles Amazon Nova personnalisés sur Amazon Bedrock.

La section suivante fournit plus de détails sur l' On-Demand inférence sur les modèles personnalisés.

On-demand inférence sur les modèles personnalisés

On-demand L'inférence (OD) vous permet d'exécuter l'inférence sur vos modèles Amazon Nova personnalisés sans conserver les points de terminaison de débit provisionnés. Cela vous aide à optimiser vos coûts et à vous mettre à l’échelle efficacement. Grâce à On-demand l'inférence, vous êtes facturé en fonction de votre utilisation, mesurée en jetons, à la fois en entrée et en sortie.

Exigences de compatibilité

Les exigences de compatibilité suivantes s’appliquent :

L'inférence OD est prise en charge pour les modèles de compréhension personnalisés Amazon Nova Pro, Lite et Micro. L’inférence OD n’est pas prise en charge pour les modèles de génération de contenu personnalisés Nova.
L’inférence OD est prise en charge pour les modèles de compréhension personnalisés Amazon Nova entraînés après le 16 juillet 2025. Les modèles personnalisés entraînés avant le 16 juillet 2025 ne sont pas compatibles avec l’inférence OD.
Personnalisation Amazon Bedrock : l’inférence OD est prise en charge pour les modèles personnalisés avec Amazon Bedrock et pour les modèles étudiants qui ont été distillés à partir d’un modèle enseignant avec Amazon Bedrock.
SageMaker Personnalisation par l'IA : pour les modèles personnalisés en SageMaker IA, l'inférence OD n'est prise en charge que pour les modèles Parameter-efficient affinés (PEFT) lorsque le modèle est hébergé sur Amazon Bedrock. Cela inclut l’optimisation directe des préférences (Direct Preference Optimization) et le PEFT. L'inférence OD n'est pas prise en charge pour les modèles Full-rank affinés.

Entraînement et inférence des modèles

Lorsque vous entraînez un nouveau modèle Amazon Nova Pro, Lite ou Micro personnalisé sur Amazon Bedrock ou SageMaker AI à l'aide de PEFT après le 16 juillet 2025, le modèle sera automatiquement compatible avec les options d'inférence provisionnées et à la demande. Vous pouvez sélectionner votre méthode d’inférence préférée lorsque vous déployez votre modèle.

Pour utiliser l’inférence OD avec un modèle entraîné après le 16 juillet 2025, veuillez suivre les étapes suivantes :

Créez une nouvelle tâche de réglage avec l'API de personnalisation Amazon Bedrock ou l'API de personnalisation SageMaker AI.
Déployez le modèle nouvellement formé sur Amazon Bedrock à l'aide de l'CreateCustomModel API.
Déployez pour une inférence à la demande à l'aide de l' CustomModelDeployment API.

Limites de débit

Les limites suivantes de demandes par minute (RPM) et de jetons par minute (TPM) s’appliquent aux demandes d’inférence à la demande :

Modèle de base pour modèle personnalisé	RPM par déploiement de modèles personnalisés	Déploiement du TPM par modèle personnalisé
Nova 2 Lite	2 000	4 000 000

Pour en savoir plus sur les quotas disponibles pour Amazon Nova, consultez Quotas pour Amazon Nova.

Latence

Vous pouvez vous attendre à une différence de latence de bout en bout (c’est-à-dire le temps jusqu’au premier jeton (TTFT)) de 20 à 55 % entre l’invocation du modèle de base et l’adaptateur. La valeur exacte de la latence varie en fonction de la taille du modèle et est conforme aux normes de l’industrie.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Détection des abus pour Amazon Nova Forge

Déployer un modèle personnalisé pour l’inférence à la demande