

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# コンテンツフィルターを使用して有害な単語や会話をブロックする
<a name="guardrails-content-filters"></a>

Amazon Bedrock ガードレールは、有害なユーザー入力とモデル生成出力を自然言語で検出およびフィルタリングするのに役立つコンテンツフィルターと、標準階層のコード関連のコンテンツをサポートしています。コンテンツフィルターは、次のカテゴリでサポートされています。

**憎しみ** 
+ 人種、民族、性同一性、宗教、性的指向、能力、出身国、その他のアイデンティティグループなど、アイデンティティに基づいて個人またはグループを差別、批判、侮辱、否定、非人間化する入力プロンプトおよびモデルの応答。

**侮辱** 
+ 侮辱的、屈辱的、嘲笑的、侮辱的、または軽蔑的な言葉を含む入力プロンプトとモデルの応答。この種の発言は、「いじめ」とも呼ばれます。

**性的** 
+ 体の一部、身体的特徴、性別への直接的または間接的な言及により、性的関心、活動、性的嗜好を示す入力プロンプトとモデルの応答。

**暴力** 
+ 人、グループ、モノに身体的苦痛、傷、または傷害を与えることへの賛美または脅威を含む入力プロンプトとモデルの応答。

**不正行為** 
+ 犯罪活動への関与、人、グループ、機関への危害、詐欺、または利用に関する情報を求めたり、提供したりする入力プロンプトとモデルの応答。

## ガードレール用のコンテンツフィルターを設定する
<a name="guardrails-filters-text-configure"></a>

 AWS マネジメントコンソール または Amazon Bedrock API を使用して、ガードレールのコンテンツフィルターを設定できます。

------
#### [ Console ]

1. Amazon Bedrock コンソールを使用するアクセス許可を持つ IAM ID AWS マネジメントコンソール を使用して にサインインします。Amazon Bedrock コンソール ([https://console.aws.amazon.com/bedrock](https://console.aws.amazon.com/bedrock)) を開きます。

1. 左側のナビゲーションペインで **[ガードレール]** を選択し、次に **[ガードレールを作成]** を選択します。

1. **[ガードレールの詳細を提供]** ページで、次の操作を行います。

   1. **[ガードレールの詳細]** セクションで、ガードレールの **[名前]** とオプションの **[説明]** に入力します。

   1. **[ブロックされたプロンプトのメッセージ]** に、ガードレールが適用されたときに表示されるメッセージを入力します。**[応答に同じブロックメッセージを適用します]** チェックボックスをオンにして、応答でガードレールが適用されたときに同じメッセージを使用します。

   1. (オプション) ガードレールの[クロスリージョン推論](guardrails-cross-region.md)を有効にするには、**[クロスリージョン推論]** を展開し、**[ガードレールのクロスリージョン推論を有効にする]** を選択します。ガードレール推論リクエストをルーティングできる送信先 AWS リージョン を定義するガードレールプロファイルを選択します。

   1. (オプション) デフォルトでは、ガードレールは で暗号化されます AWS マネージドキー。独自のカスタマーマネージド KMS キーを使用するには、**[KMS キーの選択]** を展開して、**[暗号化設定をカスタマイズ (詳細)]** チェックボックスをオンにします。

      既存の AWS KMS キーを選択するか**、キーの作成を選択して新しい AWS KMS **キーを作成できます。

   1. (オプション) ガードレールにタグを追加するには、**[タグ]** を展開します。次に、定義するタグごとに **[新しいタグを追加]** を選択します。

      詳細については、「[Amazon Bedrock リソースにタグ付け](tagging.md)」を参照してください。

   1. **[Next]** (次へ) を選択します。

1. (オプション) **[コンテンツフィルターの設定]** ページで次を実行して、「[コンテンツフィルターを使用して有害な単語や会話をブロックする](#guardrails-content-filters)」で定義されているカテゴリに関連するコンテンツのフィルター強度を設定します。

   1. **[有害カテゴリフィルターを設定]** を選択します。モデルに対するプロンプトまたは応答からテキストもしくは画像のコンテンツをフィルタリングするために、**[テキスト]** および/または **[画像]** を選択します。各カテゴリに適用するフィルターのレベルについて、**[なし]、[低]、[中]、または [高]** を選択します。プロンプトまたは応答に対して異なるフィルターレベルを選択できます。有害なカテゴリのプロンプト攻撃のフィルターを選択できます。ユーザーがモデルに提供するプロンプトに対して、各フィルターの厳格度レベルを設定します。

   1. **[ブロック]** または **[検出 (アクションなし)]** を選択して、ガードレールがプロンプトと応答で有害なコンテンツを検出したときに実行するアクションを決定します。

      詳細については、「[Amazon Bedrock ガードレールが検出した有害なコンテンツを処理するためのオプション](guardrails-harmful-content-handling-options.md)」を参照してください。

   1. **[しきい値を設定]** で、各カテゴリに適用するフィルターのレベルについて、**[なし]、[低]、[中]、または [高]** を選択します。

      プロンプトとレスポンスに異なるフィルターレベルを設定することができます。

   1. **[コンテンツフィルター階層]** で、ガードレールでテキストベースのプロンプトとレスポンスをフィルタリングするために使用するセーフガード階層を選択します。詳細については、「[ガードレールポリシーの保護層](guardrails-tiers.md)」を参照してください。

   1. 必要に応じて **[次へ]** を選択して他のポリシーを構成するか、**[スキップして確認および作成]** を選択してガードレールの作成を完了します。

1. ガードレールの設定を確認します。

   1. 変更するセクションで **[編集]** を選択します。

   1. ポリシーの設定が完了したら、**[作成]** を選択してガードレールを作成します。

------
#### [ API ]

[CreateGuardrail](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_CreateGuardrail.html) リクエストを送信して、ガードレールのコンテンツフィルターを設定します。リクエストの形式は次のとおりです。

```
POST /guardrails HTTP/1.1
Content-type: application/json

{
   "blockedInputMessaging": "string",
   "blockedOutputsMessaging": "string",
   "contentPolicyConfig": { 
      "filtersConfig": [ 
         {
            "inputAction": "BLOCK | NONE",
            "inputModalities": [ "TEXT" ], 
            "inputStrength": "NONE | LOW | MEDIUM | HIGH",
            "outputStrength": "NONE | LOW | MEDIUM | HIGH",
            "type": "SEXUAL | VIOLENCE | HATE | INSULTS | MISCONDUCT"
         }
      ],
      "tierConfig": { 
         "tierName": "CLASSIC | STANDARD"
      }
   },
   "crossRegionConfig": { 
      "guardrailProfileIdentifier": "string"
   },
   "description": "string",
   "name": "string"
}
```
+ ガードレールの `name`と `description` を指定します。
+ `blockedInputMessaging` および `blockedOutputsMessaging` フィールドでプロンプトまたはモデルレスポンスをガードレールが正常にブロックしたときのメッセージを指定します。
+ `contentPolicyConfig` オブジェクトで使用できる有害なカテゴリのフィルター強度を指定します。

  `filtersConfig` リスト内の各項目は、有害なカテゴリに関連しています。詳細については、「[コンテンツフィルターを使用して有害な単語や会話をブロックする](#guardrails-content-filters)」を参照してください。コンテンツフィルターのフィールドの詳細については、「[ContentFilter](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_ContentFilter.html)」を参照してください。
  + (オプション) `inputAction` および `outputAction` で、ガードレールがプロンプトと応答で有害なコンテンツを検出したときに実行するアクションを指定します。
  + (オプション) `inputAction` を使用してプロンプトで有害なコンテンツが検出された場合、または `outputAction` を使用して応答で有害なコンテンツが検出された場合に実行するアクションを指定します。コンテンツをブロックしてブロックメッセージに置き換える場合は [`BLOCK`] を選択し、何もアクションを取らずに検出情報を返す場合は [`NONE`] を選択します。詳細については、「[Amazon Bedrock ガードレールが検出した有害なコンテンツを処理するためのオプション](guardrails-harmful-content-handling-options.md)」を参照してください。
  + `inputStrength` フィールドでプロンプトのフィルター強度を指定し、`outputStrength` フィールドでモデル応答のフィルター強度を指定します。
  + `type` フィールドにカテゴリを指定します。
+ (オプション) `contentPolicyConfig` オブジェクト内の `tierConfig` オブジェクトで、ガードレールのセーフガード階層を指定します。オプションには、`STANDARD` 階層と `CLASSIC` 階層が含まれます。

  詳細については、「[ガードレールポリシーの保護層](guardrails-tiers.md)」を参照してください。
+ (オプション) [クロスリージョン推論](guardrails-cross-region.md)を有効にするには、`crossRegionConfig` オブジェクトでガードレールプロファイルを指定します。これは、`STANDARD` 階層を使用する場合に必要です。

応答の形式は次のようになります。

```
HTTP/1.1 202
Content-type: application/json

{
   "createdAt": "string",
   "guardrailArn": "string",
   "guardrailId": "string",
   "version": "string"
}
```

------