Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Configurare i filtri di contenuto per Guardrail per Amazon Bedrock
Con Guardrail per Amazon Bedrock, puoi configurare filtri di contenuto per bloccare prompt e risposte del modello in linguaggio naturale per testi e immagini che contengono contenuti dannosi. Ad esempio, un sito di e-commerce può progettare il proprio assistente online in modo da evitare l’utilizzo di linguaggio e/o immagini inappropriati.
Classificazione dei filtri e livelli di blocco
I filtri vengono applicati in base alla classificazione di affidabilità degli input degli utenti e delle risposte FM in ciascuna delle sei categorie. Tutti gli input dell’utente e le risposte FM sono classificati in base a quattro livelli di intensità: NONE, LOW, MEDIUM e HIGH. Ad esempio, se un’affermazione è classificata come Odio con un’attendibilità di HIGH, la probabilità che tale affermazione rappresenti contenuti d’odio è elevata. Una singola affermazione può essere classificata in più categorie con diversi livelli di affidabilità. Ad esempio, una singola dichiarazione può essere classificata come Odio con un’attendibilità di HIGH, come Insulti con un’attendibilità di LOW, come Sessuale con un’attendibilità di NONE e come Violenza con un’attendibilità di MEDIUM.
Intensità del filtro
Puoi configurare la potenza dei filtri per ciascuna delle categorie di filtri di contenuto. L’intensità del filtro determina la sensibilità del filtro applicato a contenuti dannosi. Man mano che l’intensità del filtro aumenta, la probabilità di filtrare contenuti dannosi cresce e la probabilità di visualizzare contenuti dannosi nell’applicazione diminuisce.
Sono disponibili quattro livelli di intensità del filtro
-
Nessuno: non sono stati applicati filtri di contenuto. Tutti gli input dell’utente e gli output generati da FM sono consentiti.
-
Bassa: l’intensità del filtro è bassa. I contenuti classificati come dannosi con un’attendibilità
HIGHverranno filtrati. I contenuti classificati come dannosi con un’attendibilitàNONE,LOW, oMEDIUMsaranno consentiti. -
Media: i contenuti classificati come dannosi con un’attendibilità
HIGHeMEDIUMverranno filtrati. I contenuti classificati come dannosi con un’attendibilitàNONEoLOWsaranno consentiti. -
Alta: rappresenta la configurazione di filtraggio più rigorosa. I contenuti classificati come dannosi con un’attendibilità
HIGH,MEDIUMeLOWverranno filtrati. I contenuti ritenuti innocui saranno consentiti.
| Intensità del filtro | Attendibilità dei contenuti bloccati | Attendibilità dei contenuti consentiti |
|---|---|---|
| Nessuno | Nessun filtraggio | Nessuna, bassa, media, alta |
| Bassa | Elevata | Nessuno, bassa, media |
| Media | Alta, media | Nessuna, bassa |
| Elevata | Alta, media, bassa | Nessuno |