Classificazione dei filtri e livelli di blocco Intensità del filtro

Configurare i filtri di contenuto per Guardrail per Amazon Bedrock

Con Guardrail per Amazon Bedrock, puoi configurare filtri di contenuto per bloccare prompt e risposte del modello in linguaggio naturale per testi e immagini che contengono contenuti dannosi. Ad esempio, un sito di e-commerce può progettare il proprio assistente online in modo da evitare l’utilizzo di linguaggio e/o immagini inappropriati.

Classificazione dei filtri e livelli di blocco

I filtri vengono applicati in base alla classificazione di affidabilità degli input degli utenti e delle risposte FM in ciascuna delle sei categorie. Tutti gli input dell’utente e le risposte FM sono classificati in base a quattro livelli di intensità: NONE, LOW, MEDIUM e HIGH. Ad esempio, se un’affermazione è classificata come Odio con un’attendibilità di HIGH, la probabilità che tale affermazione rappresenti contenuti d’odio è elevata. Una singola affermazione può essere classificata in più categorie con diversi livelli di affidabilità. Ad esempio, una singola dichiarazione può essere classificata come Odio con un’attendibilità di HIGH, come Insulti con un’attendibilità di LOW, come Sessuale con un’attendibilità di NONE e come Violenza con un’attendibilità di MEDIUM.

Intensità del filtro

Puoi configurare la potenza dei filtri per ciascuna delle categorie di filtri di contenuto. L’intensità del filtro determina la sensibilità del filtro applicato a contenuti dannosi. Man mano che l’intensità del filtro aumenta, la probabilità di filtrare contenuti dannosi cresce e la probabilità di visualizzare contenuti dannosi nell’applicazione diminuisce.

Sono disponibili quattro livelli di intensità del filtro

Nessuno: non sono stati applicati filtri di contenuto. Sono consentiti tutti gli input e FM-generated gli output dell'utente.
Bassa: l’intensità del filtro è bassa. I contenuti classificati come dannosi con un’attendibilità HIGH verranno filtrati. I contenuti classificati come dannosi con un’attendibilità NONE, LOW, o MEDIUM saranno consentiti.
Media: i contenuti classificati come dannosi con un’attendibilità HIGH e MEDIUM verranno filtrati. I contenuti classificati come dannosi con un’attendibilità NONE o LOW saranno consentiti.
Alta: rappresenta la configurazione di filtraggio più rigorosa. I contenuti classificati come dannosi con un’attendibilità HIGH, MEDIUM e LOW verranno filtrati. I contenuti ritenuti innocui saranno consentiti.

Intensità del filtro	Attendibilità dei contenuti bloccati	Attendibilità dei contenuti consentiti
Nessuno	Nessun filtraggio	Nessuna, bassa, media, alta
Bassa	Elevata	Nessuno, bassa, media
Media	Alta, media	Nessuna, bassa
Elevata	Alta, media, bassa	Nessuno

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Creare un guardrail

Filtri dei contenuti (testo)