NVIDIA — NVIDIA Nemotron 3 Super 120B Détails du modèle Capacités et fonctionnalités Tarification Accès programmatique Niveaux de service Disponibilité par région Quotas et limites Exemple de code

NVIDIA Nemotron 3 Super 120B

NVIDIA — NVIDIA Nemotron 3 Super 120B

Détails du modèle

NVIDIA Nemotron 3 Super est un modèle MoE hybride ouvert à 120 Go de paramètres, activant uniquement 12 Go de paramètres pour une efficacité et une précision de calcul maximales dans les applications multi-agents complexes. Il fournit un débit jusqu'à 7 fois supérieur, permettant une inférence rapide et rentable pour les tâches agentiques. Une longue fenêtre contextuelle confère au modèle une mémoire à long terme, ce qui permet aux agents d'intelligence artificielle de se concentrer sur de longues tâches en plusieurs étapes et de garantir des résultats d'une grande précision. Entièrement ouvert avec des poids, des ensembles de données et des recettes, il permet une personnalisation facile et un déploiement sécurisé. Pour plus d'informations sur le développement et les performances des modèles, consultez la fiche modèle/service.

Date de lancement du modèle : 11 mars 2026
Date EOL du modèle : N/A
Contrats de licence utilisateur final et conditions d'utilisation : Afficher
Cycle de vie du modèle : actif
Fenêtre contextuelle : 256 000 jetons
Nombre maximum de jetons de sortie : 32 000

Modalités de saisie	Modalités de sortie	APIs pris en charge	Endpoints pris en charge
Audio	Intégration	`Responses`	`bedrock-runtime`
Image	Image	`Chat Completions`	`bedrock-mantle`
Discours	Discours	`Invoke`
Texte	Texte	`Converse`
Vidéo	Vidéo

Note

Dans la mesure du possible, nous vous recommandons d'utiliser le bedrock-mantle point de terminaison.

Capacités et fonctionnalités

Caractéristiques de Bedrock

Fonctionnalités prises en charge avec bedrock-mantle Endpoint

Soutenu	Non pris en charge
Projets Appel d'outils côté client	Appel d'outils côté serveur

Fonctionnalités prises en charge avec bedrock-runtime Endpoint

Soutenu	Non pris en charge
Streaming de réponses Rambardes Évaluation du modèle Gestion rapide Flux Agents	Routage rapide intelligent Détection des abus Optimisation rapide Comptez les jetons Base de connaissances

Tarification

Pour connaître les tarifs, consultez la page de tarification d'Amazon Bedrock.

Accès programmatique

Utilisez le modèle IDs et le point de terminaison suivants URLs pour accéder à ce modèle par programmation. Pour plus d'informations sur les terminaux disponibles APIs et les points de terminaison, consultez les sections APIs Supportés et Terminaux pris en charge.

Point de terminaison	ID du modèle	URL du point de terminaison régional	Identifiant d'inférence géographique	ID d'inférence global
`bedrock-runtime`	`nvidia.nemotron-super-3-120b`	`https://bedrock-runtime.{region}.amazonaws.com`	Non pris en charge	Non pris en charge
`bedrock-mantle`	`nvidia.nemotron-super-3-120b`	`https://bedrock-mantle.{region}.api.aws/v1`	Non pris en charge	Non pris en charge

Par exemple, si la région est us-east-1 (Virginie du Nord), l'URL du point de terminaison de bedrock-runtime sera « » et celle de bedrock-mantle sera https://bedrock-runtime.us-east-1.amazonaws.com « https://bedrock-mantle.us-east-1.api.aws/v1 ».

Niveaux de service

Amazon Bedrock propose plusieurs niveaux de service pour répondre aux exigences de votre charge de travail. Standard fournit pay-per-token un accès sans engagement. Priority offre un débit plus élevé avec un engagement basé sur le temps. Flex fournit un accès à moindre coût pour des charges de non-time-sensitive travail flexibles. Reserved fournit un débit dédié avec un engagement à terme pour des charges de travail prévisibles. Pour plus d'informations, consultez la section niveaux de service.

Standard	Priorité	Flex	Réservé

Disponibilité par région

La disponibilité régionale en un coup d'œil

Bedrock propose trois options d'inférence : In-Region conserve les demandes au sein d'une même région pour une conformité stricte, itinéraires géo-interrégionaux à travers les régions d'une même zone géographique (États-Unis, UE, etc.) pour un débit plus élevé tout en respectant la résidence des données, et itinéraires interrégionaux mondiaux partout dans le monde pour un débit maximal en l'absence de contraintes de résidence. Reportez-vous à la Disponibilité par région page pour plus de détails.

Région	Dans la région	Géo	Solution internationale
`us-east-1`(Virginie du Nord)
`us-east-2`(Ohio)
`us-west-2`(Oregon)
`eu-south-1`(Milan)
`eu-west-1`(Irlande)
`eu-west-2`(Londres)
`ap-northeast-1`(Tokyo)
`ap-south-1`(Bombay)
`ap-southeast-2`(Sydney)
`sa-east-1`(Sao Paulo)

Quotas et limites

Votre compte AWS dispose de quotas par défaut pour maintenir les performances du service et garantir une utilisation appropriée d'Amazon Bedrock. Les quotas par défaut attribués à un compte peuvent être mis à jour en fonction de facteurs régionaux, de l'historique des paiements, de l'utilisation frauduleuse ou de and/or l'approbation d'une demande d'augmentation de quota. Pour plus de détails, reportez-vous à Quotas pour Amazon Bedrock la documentation et aux limites du modèle.

Exemple de code

Étape 1 - Compte AWS : si vous possédez déjà un compte AWS, ignorez cette étape. Si vous utilisez AWS pour la première fois, créez un compte AWS.

Étape 2 - Clé d'API : accédez à la console Amazon Bedrock et générez une clé d'API à long terme.

Étape 3 - Téléchargez le SDK : pour utiliser ce guide de démarrage, Python doit déjà être installé. Installez ensuite le logiciel approprié en fonction de celui APIs que vous utilisez.

Étape 4 - Définissez les variables d'environnement : configurez votre environnement pour utiliser la clé API pour l'authentification.

Étape 5 - Exécutez votre première demande d'inférence : enregistrez le fichier sous bedrock-first-request.py

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Nemotron Nano 3 30B

OpenAI