Configurare i filtri dei contenuto per il guardrail

Bloccare parole e conversazioni dannose con i filtri dei contenuti

Amazon Bedrock Guardrails supporta filtri di contenuto per aiutare a rilevare e filtrare gli input dannosi degli utenti e gli output generati dai modelli in linguaggio naturale, nonché i contenuti relativi al codice nel livello Standard. I filtri dei contenuti sono supportati nelle seguenti categorie:

Odio

Si riferisce a prompt di input e risposte del modello che discriminano, criticano, insultano, denunciano o disumanizzano una persona o un gruppo sulla base di un’identità (come razza, etnia, genere, religione, orientamento sessuale, abilità e origine nazionale).

Insulti

Si riferisce a prompt di input e risposte del modello che includono linguaggio umiliante, denigratorio, derisorio, insultante o sminuente. Questo tipo di linguaggio è anche etichettato come bullismo.

Sessuale

Si riferisce a prompt di input e risposte del modello che indicano interesse, attività o eccitazione sessuale utilizzando riferimenti diretti o indiretti a parti del corpo, tratti fisici o sesso.

Violenza

Si riferisce a prompt di input e risposte del modello che contengono l’esaltazione o la minaccia di causare dolore fisico, danno o lesioni a un individuo, un gruppo o un oggetto.

Cattiva condotta

Si riferisce a prompt di input e le risposte del modello che cercano o forniscono informazioni relative al coinvolgimento in attività criminali, al danneggiamento, alla frode o allo sfruttamento di un individuo, un gruppo o una istituzione.

Configurare i filtri dei contenuto per il guardrail

Puoi configurare i filtri dei contenuti per il tuo guardrail utilizzando l'API Console di gestione AWS o Amazon Bedrock.

Console

Accedi a Console di gestione AWS con un'identità IAM che dispone delle autorizzazioni per utilizzare la console Amazon Bedrock. Quindi, apri la console Amazon Bedrock all'indirizzo https://console.aws.amazon.com/bedrock.
Nel riquadro di navigazione a sinistra, scegli Guardrail e poi Crea guardrail.
Nella pagina Fornisci i dettagli del guardrail, procedi come segue:
1. Nella sezione Dettagli del guardrail, fornisci un nome e una descrizione facoltativa per il guardrail.
2. Per Messaggi relativi ai prompt bloccati, inserisci un messaggio che viene visualizzato quando viene applicato il guardrail. Seleziona la casella di controllo Applica lo stesso messaggio bloccato per le risposte per utilizzare lo stesso messaggio quando il guardrail viene applicato alla risposta.
3. (Facoltativo) Per abilitare l'inferenza tra regioni per il tuo guardrail, espandi l'inferenza, quindi seleziona Abilita Cross-Region l'inferenza interregionale per il tuo guardrail. Scegli un profilo del guardrail che definisca le Regioni AWS di destinazione in cui instradare le richieste di inferenza del guardrail.
4. (Facoltativo) Per impostazione predefinita, il guardrail è crittografato con un. Chiave gestita da AWS Per utilizzare la tua chiave KMS gestita dal cliente, espandi Selezione chiave KMS e seleziona la casella di controllo Personalizza impostazioni di crittografia (avanzate).
  
  È possibile selezionare una AWS KMS chiave esistente o selezionare Crea una AWS KMS chiave per crearne una nuova.
5. (Facoltativo) Per aggiungere tag al guardrail, espandi Tag. Quindi seleziona Aggiungi nuovo tag per ogni tag che definisci.
  
  Per ulteriori informazioni, consulta Assegnazione di tag alle risorse Amazon Bedrock.
6. Scegli Avanti.
Nella pagina Configura i filtri dei contenuti, imposta l’intensità con cui vuoi filtrare i contenuti correlati alle categorie definite in Bloccare parole e conversazioni dannose con i filtri dei contenuti procedendo come segue:
1. Seleziona Configura il filtro delle categorie dannose. Seleziona Testo e and/or immagine per filtrare il contenuto di testo o immagine dai prompt o dalle risposte al modello. Seleziona Nessuno, Basso, Medio o Alto per il livello di filtro che vuoi applicare a ciascuna categoria. Puoi scegliere di avere livelli di filtro diversi per i prompt o le risposte. Puoi selezionare il filtro per gli attacchi tramite prompt nelle categorie dannose. Configura l’intensità desiderata per ogni filtro dei prompt che l’utente invia al modello.
2. Scegli Blocca o Rileva (nessuna azione) per determinare quale azione intraprende il guardrail quando rileva contenuti dannosi nei prompt e nelle risposte.
  
  Per ulteriori informazioni, consulta Opzioni per la gestione dei contenuti dannosi rilevati da Guardrail per Amazon Bedrock.
3. Per Seleziona soglia, seleziona Nessuno, Basso, Medio o Alto per il livello di filtro che vuoi applicare a ciascuna categoria.
  
  Puoi scegliere di avere livelli di filtro diversi per i prompt e le risposte.
4. Per Livello dei filtri dei contenuti, scegli il livello di protezione che vuoi che il guardrail utilizzi per filtrare prompt e risposte basati su testo. Per ulteriori informazioni, consulta Livelli di protezione per le policy dei guardrail.
5. Scegli Avanti per configurare le altre policy in base alle tue necessità o Passa a Rivedi e crea per completare la creazione del guardrail.
Rivedi le impostazioni del guardrail.
1. Seleziona Modifica in qualsiasi sezione a cui vuoi apportare modifiche.
2. Al termine della configurazione delle policy, seleziona Crea per creare il guardrail.

API

Configura i filtri di contenuto per il tuo guardrail inviando una richiesta. CreateGuardrail Il formato della richiesta è il seguente:


POST /guardrails HTTP/1.1
Content-type: application/json

{
   "blockedInputMessaging": "string",
   "blockedOutputsMessaging": "string",
   "contentPolicyConfig": { 
      "filtersConfig": [ 
         {
            "inputAction": "BLOCK | NONE",
            "inputModalities": [ "TEXT" ], 
            "inputStrength": "NONE | LOW | MEDIUM | HIGH",
            "outputStrength": "NONE | LOW | MEDIUM | HIGH",
            "type": "SEXUAL | VIOLENCE | HATE | INSULTS | MISCONDUCT"
         }
      ],
      "tierConfig": { 
         "tierName": "CLASSIC | STANDARD"
      }
   },
   "crossRegionConfig": { 
      "guardrailProfileIdentifier": "string"
   },
   "description": "string",
   "name": "string"
}

Specifica name e description per il guardrail.
Specifica i messaggi che indicano quando il guardrail blocca correttamente un prompt o una risposta del modello nei campi blockedInputMessaging e blockedOutputsMessaging.
Specifica l’intensità del filtro per le categorie dannose disponibili nell’oggetto contentPolicyConfig.

Ogni elemento dell’elenco filtersConfig appartiene a una categoria dannosa. Per ulteriori informazioni, consulta Bloccare parole e conversazioni dannose con i filtri dei contenuti. Per ulteriori informazioni sui campi di un filtro di contenuto, consulta ContentFilter.
- (Facoltativo) Per inputAction eoutputAction, specifica l’azione intrapresa dal guardrail quando rileva contenuti dannosi nei prompt e nelle risposte.
- (Facoltativo) Specifica l’azione da intraprendere quando vengono rilevati contenuti dannosi nei prompt utilizzando inputAction o nelle risposte utilizzando outputAction. Scegli BLOCK per bloccare i contenuti e sostituirli con messaggi bloccati oppure NONE per non intraprendere alcuna azione ma restituire informazioni sul rilevamento. Per ulteriori informazioni, consulta Opzioni per la gestione dei contenuti dannosi rilevati da Guardrail per Amazon Bedrock.
- Specificate l’intensità del filtro per i prompt nel campo inputStrength e per le risposte del modello nel campo outputStrength.
- Specificate la categoria nel campo type.
(Facoltativo) Specifica un livello di protezione per il guardrail nell’oggetto tierConfig all’interno dell’oggetto contentPolicyConfig. Le opzioni includono i livelli STANDARD e CLASSIC.

Per ulteriori informazioni, consulta Livelli di protezione per le policy dei guardrail.
(Facoltativo) Per abilitare l’inferenza interregionale, specifica un profilo di guardrail nell’oggetto crossRegionConfig. È obbligatorio se utilizzi il livello STANDARD.

La risposta avrebbe questo aspetto:


HTTP/1.1 202
Content-type: application/json

{
   "createdAt": "string",
   "guardrailArn": "string",
   "guardrailId": "string",
   "version": "string"
}

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Configurare filtri di contenuto

Filtri dei contenuti (immagini)