Best practice per creare argomenti rifiutati Aggiungere argomenti negati al guardrail

Bloccare argomenti negati per rimuovere i contenuti dannosi

In un guardrail è possibile specificare una serie di argomenti negati che non sono desiderati nel contesto dell’applicazione di IA generativa. Ad esempio, una banca potrebbe volere che il suo assistente IA eviti conversazioni relative alla consulenza in materia di investimenti o alle criptovalute.

I prompt e le risposte dei modelli in linguaggio naturale, così come i contenuti relativi al codice nel livello Standard, vengono valutati in base a ogni argomento negato nel guardrail. Se viene rilevato uno degli argomenti negati, il guardrail restituisce un messaggio bloccato.

È possibile un argomento negato con i seguenti parametri, che il guardrail utilizza per rilevare se un prompt o una risposta appartiene all’argomento:

Nome: il nome dell’argomento. Deve essere un sostantivo o una frase. Non descrivere l’argomento nel nome. Esempio:
- Investment Advice
Definizione: fino a 200 caratteri che riassumono il contenuto dell’argomento. Deve descrivere il contenuto dell’argomento e i relativi argomenti secondari.

Di seguito è riportata una definizione di esempio:

Investment advice is inquiries, guidance, or recommendations about the management or allocation of funds or assets with the goal of generating returns or achieving specific financial objectives.
Frasi di esempio (facoltativo): un elenco di un massimo di cinque frasi di esempio che si riferiscono all’argomento. Ogni frase può contenere fino a 100 caratteri. Un esempio è un prompt o una continuazione che mostra il tipo di contenuto da filtrare. Esempio:
- Is investing in the stocks better than bonds?
- Should I invest in gold?

Best practice per creare argomenti rifiutati

Definire l’argomento in modo chiaro e preciso. Una definizione chiara e non ambigua dell’argomento può migliorare l’accuratezza del rilevamento dell’argomento. Ad esempio, un argomento per rilevare domande o affermazioni associate alle criptovalute può essere definito come Question or information associated with investing, selling, transacting, or procuring cryptocurrencies.
Non includere esempi o istruzioni nella definizione dell’argomento. Ad esempio, Block all contents associated to cryptocurrency è un’istruzione e non una definizione dell’argomento. Tali istruzioni non devono essere utilizzate come parte delle definizioni dell’argomento.
Non definire argomenti o eccezioni negativi. Ad esempio, All contents except medical information o Contents not containing medical information sono definizioni negative di un argomento e non devono essere utilizzate.
Non utilizzare argomenti negati per acquisire entità o parole. Ad esempio Statement or questions containing the name of a person "X" o Statements with a competitor name Y. Le definizioni degli argomenti rappresentano un tema o un argomento e il guardrail valuta un input contestualmente. Il filtraggio degli argomenti non deve essere utilizzato per acquisire singole parole o tipi di entità. Per ulteriori informazioni, consulta Rimuovere le informazioni di identificazione personale dalle conversazioni utilizzando filtri per informazioni sensibili o Rimuovere un elenco specifico di parole e frasi dalle conversazioni con filtri per parole per questi casi d’uso.

Aggiungere argomenti negati al guardrail

Puoi aggiungere fino a 30 argomenti negati al tuo guardrail utilizzando l'API Console di gestione AWS o Amazon Bedrock.

Console

Accedi a Console di gestione AWS con un'identità IAM che dispone delle autorizzazioni per utilizzare la console Amazon Bedrock. Quindi, apri la console Amazon Bedrock all'indirizzo https://console.aws.amazon.com/bedrock.
Nel riquadro di navigazione a sinistra, scegli Guardrail e poi Crea guardrail.
Nella pagina Fornisci i dettagli del guardrail, procedi come segue:
1. Nella sezione Dettagli del guardrail, fornisci un nome e una descrizione facoltativa per il guardrail.
2. Per Messaggi relativi ai prompt bloccati, inserisci un messaggio che viene visualizzato quando viene applicato il guardrail. Seleziona la casella di controllo Applica lo stesso messaggio bloccato per le risposte per utilizzare lo stesso messaggio quando il guardrail viene applicato alla risposta.
3. (Facoltativo) Per abilitare l'inferenza tra regioni per il tuo guardrail, espandi l'inferenza, quindi seleziona Abilita Cross-Region l'inferenza interregionale per il tuo guardrail. Scegli un profilo guardrail che definisca la destinazione Regioni AWS in cui possono essere instradate le richieste di inferenza del guardrail.
4. (Facoltativo) Per impostazione predefinita, il guardrail è crittografato con un. Chiave gestita da AWS Per utilizzare la tua chiave KMS gestita dal cliente, espandi Selezione chiave KMS e seleziona la casella di controllo Personalizza impostazioni di crittografia (avanzate).
  
  È possibile selezionare una AWS KMS chiave esistente o selezionare Crea una AWS KMS chiave per crearne una nuova.
5. (Facoltativo) Per aggiungere tag al guardrail, espandi Tag, quindi seleziona Aggiungi nuovo tag per ogni tag che definisci.
  
  Per ulteriori informazioni, consulta Assegnazione di tag alle risorse Amazon Bedrock.
6. Scegli Avanti.
Quando arrivi alla pagina Aggiungi argomenti negati, scegli Aggiungi argomento negato e procedi come segue:
1. Inserisci un Nome per l’argomento.
2. Per Definizione, definisci l’argomento. Per le linee guida su come definire un argomento negato, consulta Bloccare argomenti negati per rimuovere i contenuti dannosi.
3. (Facoltativo) Per Input, specifica se la valutazione del guardrail è abilitata per i prompt del modello. Se è abilitata, scegli l’azione desiderata per il guardrail. L’opzione Blocca è abilitata per impostazione predefinita. Per ulteriori informazioni, consulta Opzioni per la gestione dei contenuti dannosi rilevati da Guardrail per Amazon Bedrock.
4. (Facoltativo) Per Output, specifica se la valutazione del guardrail è abilitata per le risposte del modello. Se è abilitata, scegli l’azione desiderata per il guardrail. L’opzione Blocca è abilitata per impostazione predefinita. Per ulteriori informazioni, consulta Opzioni per la gestione dei contenuti dannosi rilevati da Guardrail per Amazon Bedrock.
5. (Facoltativo) Espandi Aggiungi frasi di esempio e inserisci una frase rappresentativa dei prompt o delle risposte relative a questo argomento. Puoi inserire fino a cinque frasi. Per ogni frase che includi, seleziona Aggiungi frase.
6. Per Livello argomenti negati, scegli il livello di protezione che vuoi che il guardrail utilizzi per bloccare gli argomenti nei prompt e nelle risposte. Per ulteriori informazioni, consulta Livelli di protezione per le policy dei guardrail.
7. Quando hai finito di configurare l’argomento negato, seleziona Conferma.
8. Per creare altri argomenti negati, ripeti le fasi precedenti.
9. Scegli Avanti per configurare le altre policy in base alle tue necessità o Passa a Rivedi e crea per completare la creazione del guardrail.
Rivedi le impostazioni del guardrail.
1. Seleziona Modifica in qualsiasi sezione a cui vuoi apportare modifiche.
2. Al termine della configurazione delle policy, seleziona Crea per creare il guardrail.

API

Aggiungi argomenti negati al tuo guardrail inviando una CreateGuardrailrichiesta. La richiesta dovrebbe essere simile a quella riportata di seguito:


POST /guardrails HTTP/1.1
Content-type: application/json

{
   "blockedInputMessaging": "string",
   "blockedOutputsMessaging": "string",
   "topicPolicyConfig": {
      "topicsConfig": [ 
         { 
            "definition": "string",
            "examples": [ "string" ],
            "inputAction": "BLOCK | NONE",
            "inputEnabled": true,
            "name": "string",
            "outputAction": "BLOCK | NONE",
            "outputEnabled": true,
            "type": "DENY"
         },
      "tierConfig": { 
         "tierName": "CLASSIC | STANDARD"
      },
      ]
   },
   "crossRegionConfig": { 
      "guardrailProfileIdentifier": "string"
   },
   "description": "string",
   "name": "string"
}

Specifica i messaggi che indicano quando il guardrail blocca correttamente un prompt o una risposta del modello nei campi blockedInputMessaging e blockedOutputsMessaging.
Specifica gli argomenti che il guardrail deve negare nell’oggetto topicPolicyConfig. Ogni elemento dell’elenco topicsConfig riguarda un argomento.
- Specifica name e definition per l’argomento che deve essere negato.
- Specifica DENY nel type campo.
- Specifica l’azione da intraprendere quando l’argomento viene rilevato nei prompt utilizzando inputAction o nelle risposte utilizzando outputAction. Scegli BLOCK per bloccare i contenuti e sostituirli con messaggi bloccati oppure NONE per non intraprendere alcuna azione ma restituire informazioni sul rilevamento. Per ulteriori informazioni, consulta Opzioni per la gestione dei contenuti dannosi rilevati da Guardrail per Amazon Bedrock.
- Imposta inputEnabled e outputEnabled per controllare se la valutazione del guardrail è abilitata per i prompt e le risposte del modello.
- (Facoltativo) Nell’elenco examples, specifica fino a cinque frasi di esempio rappresentative dei prompt o delle risposte relative a questo argomento.
(Facoltativo) Specifica un livello di protezione per il guardrail nell’oggetto tierConfig. Le opzioni includono i livelli STANDARD e CLASSIC.

Per ulteriori informazioni, consulta Livelli di protezione per le policy dei guardrail.
(Facoltativo) Per abilitare l’inferenza interregionale, specifica un profilo di guardrail nell’oggetto crossRegionConfig. È obbligatorio se utilizzi il livello STANDARD.
Specifica name e description per il guardrail.

La risposta avrebbe questo aspetto:


HTTP/1.1 202
Content-type: application/json

{
   "createdAt": "string",
   "guardrailArn": "string",
   "guardrailId": "string",
   "version": "string"
}

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

attacchi prompt

Aggiungere filtri per parole