Bloquear tópicos negados para ajudar a remover conteúdo prejudicial

Em uma barreira de proteção, é possível especificar um conjunto de tópicos negados que são indesejáveis no contexto da aplicação de IA generativa. Por exemplo, um banco pode querer que seu assistente de IA evite conversas relacionadas a consultoria de investimentos ou criptomoedas.

As solicitações e respostas do modelo em linguagem natural, bem como o conteúdo relacionado ao código no nível Padrão, são avaliados em relação a cada tópico negado em sua grade de proteção. Se um dos tópicos negados for detectado, a barreira de proteção exibirá uma mensagem de bloqueio.

Crie um tópico negado com os seguintes parâmetros, que serão usados pela barreira de proteção para detectar se um prompt ou resposta pertence ao tópico:

Nome: o nome do tópico. O nome deve ser um substantivo ou uma frase. Não descreva o tópico no nome. Por exemplo:
- Investment Advice
Definição: até duzentos caracteres de resumo do conteúdo do tópico. A definição deve descrever o conteúdo do tópico e seus subtópicos.

Veja a seguir um exemplo de definição de tópico.

Investment advice is inquiries, guidance, or recommendations about the management or allocation of funds or assets with the goal of generating returns or achieving specific financial objectives.
Exemplos de frases (opcional): uma lista de até cinco exemplos de frases que se referem ao tópico. Cada frase pode ter até 100 caracteres. Um exemplo é um prompt ou uma continuação que mostra que tipo de conteúdo deve ser filtrado. Por exemplo:
- Is investing in the stocks better than bonds?
- Should I invest in gold?

Práticas recomendadas para criar tópicos negados

Defina o tópico de forma nítida e precisa. Uma definição de tópico clara e inequívoca pode melhorar a precisão da detecção do tópico. Por exemplo, um tópico para detectar consultas ou declarações associadas a criptomoedas pode ser definido como Question or information associated with investing, selling, transacting, or procuring cryptocurrencies.
Não inclua exemplos ou instruções na definição do tópico. Por exemplo, Block all contents associated to cryptocurrency é uma instrução e não uma definição do tópico. Essas instruções não devem ser usadas como parte das definições do tópico.
Não defina tópicos negativos ou exceções. Por exemplo, All contents except medical information ou Contents not containing medical information são definições negativas de um tópico e não devem ser usadas.
Não use tópicos negados para capturar entidades ou palavras. Por exemplo, Statement or questions containing the name of a person "X" ou Statements with a competitor name Y. As definições do tópico representam um tema ou um assunto e as barreiras de proteção avalizam uma entrada de forma contextual. A filtragem de tópicos não deve ser usada para capturar palavras individuais ou tipos de entidades. Para ter mais informações, consulte ou Remova as PII das conversas usando filtros de informações confidenciais ou Remover uma lista específica de palavras e frases das conversas com filtros de palavras para esses casos de uso.

Adicionar tópicos negados à barreira de proteção

Você pode adicionar até 30 tópicos negados à sua grade de proteção usando a API Amazon Bedrock ou Console de gerenciamento da AWS Amazon Bedrock.

Console

Faça login no Console de gerenciamento da AWS com uma identidade do IAM que tenha permissões para usar o console Amazon Bedrock. Em seguida, abra o console Amazon Bedrock em https://console.aws.amazon.com/bedrock.
No painel de navegação à esquerda, escolha Barreiras de proteção e selecione Criar uma barreira de proteção.
Na página Fornecer detalhes da barreira de proteção, faça o seguinte:
1. Na seção Detalhes da barreira de proteção, forneça um Nome e uma Descrição opcional para a barreira de proteção.
2. Em Mensagens para prompts bloqueados, insira uma mensagem que exibida quando a barreira de proteção é aplicada. Marque a caixa de seleção Aplicar a mesma mensagem bloqueada para respostas para usar a mesma mensagem quando a barreira de proteção for aplicada na resposta.
3. (Opcional) Para ativar a inferência entre regiões para sua grade de proteção, expanda a inferência e selecione Ativar Cross-Region inferência entre regiões para sua grade de proteção. Escolha um perfil de guardrail que defina o destino para Regiões da AWS onde as solicitações de inferência de guardrail podem ser roteadas.
4. (Opcional) Por padrão, sua grade de proteção é criptografada com um. Chave gerenciada pela AWS Para usar sua própria chave do KMS gerenciada pelo cliente, expanda Seleção da chave do KMS e marque a caixa de seleção Personalizar configurações de criptografia (avançadas).
  
  Você pode selecionar uma AWS KMS chave existente ou selecionar Criar uma AWS KMS chave para criar uma nova.
5. (Opcional) Para adicionar tags à barreira de proteção, expanda Tags e selecione Adicionar nova tag para cada tag que você definir.
  
  Para obter mais informações, consulte Marcação de recursos do Amazon Bedrock.
6. Escolha Próximo.
Ao acessar a página Adicionar tópicos negados, escolha Adicionar tópico negado e faça o seguinte:
1. Insira um Nome para o tópico.
2. Em Definição, defina o tópico. Para obter as diretrizes sobre como definir um tópico negado, consulte Bloquear tópicos negados para ajudar a remover conteúdo prejudicial.
3. (Opcional) Em Entrada, especifique se a avaliação da barreira de proteção está habilitada para prompts do modelo. Se habilitada, escolha qual ação você quer usar como barreira de proteção. Bloquear está habilitado por padrão. Para obter mais informações, consulte Opções para lidar com conteúdo nocivo detectado pelas Barreiras de Proteção do Amazon Bedrock.
4. (Opcional) Em Saída, especifique se a avaliação da barreira de proteção está habilitada para respostas do modelo. Se habilitada, escolha qual ação você deseja que a barreira de proteção execute nas respostas. Bloquear está habilitado por padrão. Para obter mais informações, consulte Opções para lidar com conteúdo nocivo detectado pelas Barreiras de Proteção do Amazon Bedrock.
5. (Opcional) Expanda Adicionar exemplos de frases e insira uma frase que represente prompts ou respostas relacionados a esse tópico. Você pode inserir até cinco frases. Para cada frase que você incluir, selecione Adicionar frase.
6. Em Nível dos tópicos negados, escolha o nível de proteção que você deseja que a barreira de proteção use para bloquear tópicos em prompts e respostas. Para obter mais informações, consulte Níveis de proteção para políticas de barreira de proteção.
7. Quando concluir a configuração do tópico negado, selecione Confirmar.
8. Repita as etapas anteriores para criar outros tópicos negados.
9. Escolha Próximo para configurar outras políticas conforme necessário ou Pular para revisar e criar para finalizar a criação da barreira de proteção.
Analise as configurações da barreira de proteção.
1. Selecione Editar em qualquer seção na qual desejar fazer alterações.
2. Quando terminar de configurar as políticas, selecione Criar para criar a barreira de proteção.

API

Adicione tópicos negados à sua grade de proteção enviando uma CreateGuardrailsolicitação. Veja abaixo um exemplo de formato de solicitação:


POST /guardrails HTTP/1.1
Content-type: application/json

{
   "blockedInputMessaging": "string",
   "blockedOutputsMessaging": "string",
   "topicPolicyConfig": {
      "topicsConfig": [ 
         { 
            "definition": "string",
            "examples": [ "string" ],
            "inputAction": "BLOCK | NONE",
            "inputEnabled": true,
            "name": "string",
            "outputAction": "BLOCK | NONE",
            "outputEnabled": true,
            "type": "DENY"
         },
      "tierConfig": { 
         "tierName": "CLASSIC | STANDARD"
      },
      ]
   },
   "crossRegionConfig": { 
      "guardrailProfileIdentifier": "string"
   },
   "description": "string",
   "name": "string"
}

Especifique mensagens para quando a barreira de proteção bloquear um prompt ou uma resposta do modelo com sucesso nos campos blockedInputMessaging e blockedOutputsMessaging.
Especifique tópicos para a barreira de proteção negar no objeto topicPolicyConfig. Cada item na lista de topicsConfig pertence a um tópico.
- Especifique um name e uma definition para o tópico que deve ser negado.
- Especifique DENY no campo type.
- Use inputAction ou outputAction para especificar a ação a ser executada quando o tópico for detectado em prompts ou em respostas, respectivamente. Escolha BLOCK para bloquear o conteúdo e substituí-lo por mensagens bloqueadas ou NONE para não executar nenhuma ação além de exibir as informações de detecção. Para obter mais informações, consulte Opções para lidar com conteúdo nocivo detectado pelas Barreiras de Proteção do Amazon Bedrock.
- Defina inputEnabled e outputEnabled para controlar se a avaliação da barreira de proteção está habilitada para prompts e respostas do modelo.
- (Opcional) Na lista examples, especifique até cinco exemplos de frase representativos dos prompts ou respostas relacionados a esse tópico.
(Opcional) Especifique um nível de proteção para a barreira de proteção no objeto tierConfig. As opções incluem os níveis CLASSIC e STANDARD.

Para obter mais informações, consulte Níveis de proteção para políticas de barreira de proteção.
(Opcional) Para habilitar a inferência entre regiões, especifique um perfil de barreira de proteção no objeto crossRegionConfig. Isso é necessário ao usar o nível STANDARD.
Especifique um name e uma description para a barreira de proteção.

O formato da resposta é semelhante a este:


HTTP/1.1 202
Content-type: application/json

{
   "createdAt": "string",
   "guardrailArn": "string",
   "guardrailId": "string",
   "version": "string"
}

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Ataques de prompt

Adicionar filtros de palavras