NVIDIA — NVIDIA Nemotron 3 Super 120B Dettagli del modello Funzionalità e caratteristiche Prezzi Accesso programmatico Livelli di servizio Disponibilità regionale Quote e limiti Codice di esempio

NVIDIA Nemotron 3 Super 120B

NVIDIA — NVIDIA Nemotron 3 Super 120B

Dettagli del modello

NVIDIA Nemotron 3 Super è un modello MoE ibrido aperto con parametri da 120B, che attiva solo 12 miliardi di parametri per la massima efficienza e precisione di elaborazione in applicazioni multiagente complesse. Offre un throughput fino a 7 volte superiore, fornendo un'inferenza rapida ed economica per le attività agentiche. Una lunga finestra contestuale fornisce al modello una memoria a lungo termine, evitando che gli agenti di intelligenza artificiale perdano la concentrazione su attività lunghe e in più fasi e garantendo risultati ad alta precisione. Completamente aperto con pesi, set di dati e ricette, consente una facile personalizzazione e un'implementazione sicura. Per ulteriori informazioni sullo sviluppo e sulle prestazioni del modello, consulta la scheda del modello/servizio.

Data di lancio del modello: 11 marzo 2026
Data di scadenza del modello: N/A
Contratti di licenza con l'utente finale e condizioni d'uso: Visualizza
Ciclo di vita del modello: attivo
Finestra contestuale: 256.000 token
Token di output massimi: 32K

Modalità di input	Modalità di output	APIs supportate	Endpoint supportati
Audio	Incorporamento	`Responses`	`bedrock-runtime`
Immagine	Immagine	`Chat Completions`	`bedrock-mantle`
Discorso	Discorso	`Invoke`
Testo	Testo	`Converse`
Video	Video

Nota

Quando possibile, ti consigliamo di utilizzare l'bedrock-mantleendpoint.

Funzionalità e caratteristiche

Caratteristiche Bedrock

Funzionalità supportate tramite endpoint bedrock-mantle

Supportato	Non supportato
Progetti Chiamata di strumenti sul lato client	Chiamata di strumenti sul lato server

Funzionalità supportate tramite endpoint bedrock-runtime

Supportato	Non supportato
Streaming di risposte Guardrail Valutazione del modello Gestione tempestiva Flussi Agenti	Routing rapido intelligente Rilevamento degli abusi Ottimizzazione tempestiva Conta i token Base di conoscenza

Prezzi

Per i prezzi, consulta la pagina dei prezzi di Amazon Bedrock.

Accesso programmatico

Utilizza il modello IDs e l'endpoint seguenti URLs per accedere a questo modello a livello di codice. Per ulteriori informazioni sugli endpoint disponibili, consulta APIs APIs Supported ed Endpoints supportati.

Endpoint	ID del modello	URL dell'endpoint locale	ID di inferenza geografica	ID di inferenza globale
`bedrock-runtime`	`nvidia.nemotron-super-3-120b`	`https://bedrock-runtime.{region}.amazonaws.com`	Non supportata	Non supportata
`bedrock-mantle`	`nvidia.nemotron-super-3-120b`	`https://bedrock-mantle.{region}.api.aws/v1`	Non supportata	Non supportata

Ad esempio, se la regione è us-east-1 (Virginia settentrionale), l'URL dell'endpoint bedrock-runtime sarà "" e per bedrock-mantle sarà https://bedrock-runtime.us-east-1.amazonaws.com "https://bedrock-mantle.us-east-1.api.aws/v1».

Livelli di servizio

Amazon Bedrock offre diversi livelli di servizio per soddisfare i tuoi requisiti di carico di lavoro. Standard fornisce pay-per-token l'accesso senza impegno. Priority offre una maggiore produttività con un impegno basato sul tempo. Flex offre un accesso a basso costo per carichi di lavoro flessibili. non-time-sensitive Reserved offre un throughput dedicato con un impegno a termine per carichi di lavoro prevedibili. Per ulteriori informazioni, consulta i livelli di servizio.

Standard	Priorità	Flex	riservato

Disponibilità regionale

Disponibilità regionale a colpo d'occhio

Bedrock offre tre opzioni di inferenza: In-Region mantiene le richieste all'interno di un'unica regione per garantire la massima conformità, percorsi geografici interregionali tra regioni all'interno di un'area geografica (Stati Uniti, UE, ecc.) per una maggiore velocità effettiva nel rispetto della residenza dei dati e rotte globali interregionali in tutto il mondo per la massima produttività quando non ci sono vincoli di residenza. Disponibilità regionaleConsulta la pagina per maggiori dettagli.

Region	All'interno della regione	Geo	Globale
`us-east-1`(Virginia settentrionale)
`us-east-2`(Ohio)
`us-west-2`(Oregon)
`eu-south-1`(Milano)
`eu-west-1`(Irlanda)
`eu-west-2`(Londra)
`ap-northeast-1`(Tokyo)
`ap-south-1`(Mumbai)
`ap-southeast-2`(Sidney)
`sa-east-1`(San Paolo)

Quote e limiti

Il tuo account AWS dispone di quote predefinite per mantenere le prestazioni del servizio e garantire un uso appropriato di Amazon Bedrock. Le quote predefinite assegnate a un account potrebbero essere aggiornate in base a fattori regionali, alla cronologia dei pagamenti, all'utilizzo fraudolento, all' and/or approvazione di una richiesta di aumento delle quote. Per maggiori dettagli, consulta la Quote per Amazon Bedrock documentazione e consulta i limiti del modello.

Codice di esempio

Fase 1 - Account AWS: se hai già un account AWS, salta questo passaggio. Se non conosci AWS, registrati per un account AWS.

Fase 2 - Chiave API: vai alla console Amazon Bedrock e genera una chiave API a lungo termine.

Passaggio 3 - Scarica l'SDK: per utilizzare questa guida introduttiva, devi avere Python già installato. Quindi installa il software pertinente a seconda di APIs quello che stai utilizzando.

Passaggio 4 - Imposta le variabili di ambiente: configura l'ambiente per utilizzare la chiave API per l'autenticazione.

Passaggio 5 - Esegui la tua prima richiesta di inferenza: salva il file come bedrock-first-request.py

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Nemotron Nano 3 30B

OpenAI