

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 콘텐츠 필터로 유해한 단어 및 대화 차단
<a name="guardrails-content-filters"></a>

Amazon Bedrock Guardrails는 콘텐츠 필터를 지원하여 유해한 사용자 입력 및 모델 생성 출력을 자연어로 감지하고 필터링할 뿐만 아니라 표준 계층의 코드 관련 콘텐츠를 감지하고 필터링하는 데 도움이 됩니다. 콘텐츠 필터는 다음과 같은 범주로 지원됩니다.

**혐오** 
+ 정체성(예: 인종, 민족, 성별, 종교, 성적 지향, 능력, 출신 국가)을 근거로 개인이나 집단을 차별, 비판, 모욕, 비난, 비인간화하는 내용의 입력 프롬프트 및 모델 응답을 설명합니다.

**모욕** 
+ 비하하거나, 굴욕감을 주거나, 조롱하거나, 모욕하거나, 얕보는 표현이 포함된 입력 프롬프트와 모델 응답을 설명합니다. 이러한 유형의 표현은 괴롭힘으로도 분류됩니다.

**성적 표현** 
+ 신체 부위, 신체적 특징 또는 성별을 직간접적으로 언급하여 성적 관심, 활동 또는 흥분을 나타내는 입력 프롬프트 및 모델 응답을 설명합니다.

**폭력** 
+ 사람, 집단 또는 사물에 신체적 통증, 부상 또는 상해를 입히는 위협 또는 이러한 행위를 미화하는 입력 프롬프트 및 모델 응답을 설명합니다.

**불법 행위** 
+ 범죄 행위에 가담하거나, 개인이나 집단 또는 기관에 해를 입히거나, 기만하거나, 이용하는 일에 대한 정보를 구하거나 제공하는 입력 프롬프트 및 모델 응답을 설명합니다.

## 가드레일의 콘텐츠 필터 구성
<a name="guardrails-filters-text-configure"></a>

 AWS Management Console 또는 Amazon Bedrock API를 사용하여 가드레일에 대한 콘텐츠 필터를 구성할 수 있습니다.

------
#### [ Console ]

1. Amazon Bedrock 콘솔을 사용할 권한이 있는 IAM 자격 증명 AWS Management Console 으로에 로그인합니다. 그 다음 [https://console.aws.amazon.com/bedrock](https://console.aws.amazon.com/bedrock)에서 Amazon Bedrock 콘솔을 엽니다.

1. 왼쪽 탐색 창에서 **가드레일**을 선택한 다음 **가드레일 생성**을 선택합니다.

1. **가드레일 세부 정보 제공** 페이지에서 다음 작업을 수행합니다.

   1. **가드레일 세부 정보** 섹션에서 가드레일의 **이름** 및 필요한 경우 **설명**을 제공합니다.

   1. **차단된 프롬프트에 대한 메시지**의 경우 가드레일이 적용될 때 표시할 메시지를 입력합니다. 응답에 가드레일이 적용될 때 동일한 메시지를 사용하도록 하려면 **응답에 동일한 차단된 메시지 적용** 확인란을 선택합니다.

   1. (선택 사항) 가드레일에 대한 [교차 리전 추론](guardrails-cross-region.md)을 활성화하려면 **교차 리전 추론**을 펼친 다음 **가드레일에 대한 교차 리전 추론 활성화**를 선택합니다. 가드레일 추론 요청을 라우팅할 수 있는 대상 AWS 리전 을 정의하는 가드레일 프로파일을 선택합니다.

   1. (선택 사항) 기본적으로 가드레일은 로 암호화됩니다 AWS 관리형 키. 자체 고객 관리형 KMS 키를 사용하려면 **KMS 키 선택**을 펼치고 **암호화 설정 사용자 지정(고급)** 확인란을 선택합니다.

      기존 AWS KMS 키를 선택하거나 키 생성을 선택하여 **새 AWS KMS 키를** 생성할 수 있습니다.

   1. (선택 사항) 가드레일에 태그를 추가하려면 **태그**를 펼칩니다. 그런 다음 정의한 각 태그에 대해 **새 태그 추가**를 선택합니다.

      자세한 내용은 [Amazon Bedrock 리소스 태그 지정](tagging.md) 단원을 참조하십시오.

   1. **다음**을 선택합니다.

1. **콘텐츠 필터 구성** 페이지에서 다음을 수행하여 [콘텐츠 필터로 유해한 단어 및 대화 차단](#guardrails-content-filters)에 정의된 범주와 관련된 콘텐츠를 얼마나 강력하게 필터링할지 설정합니다.

   1. **유해한 범주 필터 구성**을 선택합니다. **텍스트** 및/또는 **이미지**를 선택하여 모델에 대한 프롬프트 또는 응답에서 텍스트 또는 이미지 콘텐츠를 필터링합니다. 각 범주에 적용할 필터링 수준으로 **없음, 낮음, 중간 또는 높음**을 선택합니다. 프롬프트 또는 응답에 대해 다른 필터 수준을 사용하도록 선택할 수 있습니다. 유해 카테고리에서 프롬프트 공격에 대한 필터를 선택할 수 있습니다. 사용자가 모델에 제공하는 프롬프트에 대해 각 필터를 얼마나 엄격하게 적용할 것인지 구성합니다.

   1. **차단** 또는 **감지(작업 없음)**를 선택하여 프롬프트 및 응답에서 유해한 콘텐츠를 감지할 때 가드레일이 수행하는 작업을 결정합니다.

      자세한 내용은 [Amazon Bedrock Guardrails에서 감지한 유해한 콘텐츠를 처리하는 옵션](guardrails-harmful-content-handling-options.md) 단원을 참조하십시오.

   1. **임계값 설정**에서 각 범주에 적용할 필터링 수준으로 **없음, 낮음, 중간 또는 높음**을 선택합니다.

      프롬프트와 응답에 대해 다른 필터 수준을 사용하도록 선택할 수 있습니다.

   1. **콘텐츠 필터 티어**에서 텍스트 기반 프롬프트 및 응답을 필터링하는 데 가드레일이 사용할 보호 티어를 선택합니다. 자세한 내용은 [가드레일 정책에 대한 보호 티어](guardrails-tiers.md) 단원을 참조하십시오.

   1. 필요에 따라 다른 정책을 구성하려면 **다음**을 선택하고 가드레일 생성을 완료하려면 **검토 및 생성으로 건너뛰기**를 선택합니다.

1. 가드레일의 설정을 검토합니다.

   1. 변경하려는 섹션에서 **편집**을 선택합니다.

   1. 정책 구성을 완료했으면 **생성**을 선택하여 가드레일을 생성합니다.

------
#### [ API ]

[CreateGuardrail](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_CreateGuardrail.html) 요청을 전송하여 가드레일의 콘텐츠 필터를 구성합니다. 요청 형식은 다음과 같습니다.

```
POST /guardrails HTTP/1.1
Content-type: application/json

{
   "blockedInputMessaging": "string",
   "blockedOutputsMessaging": "string",
   "contentPolicyConfig": { 
      "filtersConfig": [ 
         {
            "inputAction": "BLOCK | NONE",
            "inputModalities": [ "TEXT" ], 
            "inputStrength": "NONE | LOW | MEDIUM | HIGH",
            "outputStrength": "NONE | LOW | MEDIUM | HIGH",
            "type": "SEXUAL | VIOLENCE | HATE | INSULTS | MISCONDUCT"
         }
      ],
      "tierConfig": { 
         "tierName": "CLASSIC | STANDARD"
      }
   },
   "crossRegionConfig": { 
      "guardrailProfileIdentifier": "string"
   },
   "description": "string",
   "name": "string"
}
```
+ 가드레일에 `name` 및 `description`을 지정합니다.
+ 가드레일이 `blockedInputMessaging` 및 `blockedOutputsMessaging` 필드에서 프롬프트 또는 모델 응답을 성공적으로 차단했을 때의 메시지를 지정합니다.
+ `contentPolicyConfig` 객체에서 사용할 수 있는 유해 범주에 대한 필터 강도를 지정합니다.

  `filtersConfig` 목록의 각 항목은 유해 범주와 관련이 있습니다. 자세한 내용은 [콘텐츠 필터로 유해한 단어 및 대화 차단](#guardrails-content-filters) 섹션을 참조하세요. 콘텐츠 필터의 필드에 대한 자세한 내용은 [ContentFilter](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_ContentFilter.html)를 참조하세요.
  + (선택 사항) `inputAction` 및 `outputAction`의 경우 프롬프트 및 응답에서 유해한 콘텐츠를 감지할 때 가드레일이 수행하는 작업을 지정합니다.
  + (선택 사항) `inputAction`을 사용하는 프롬프트 또는 `outputAction`을 사용하는 응답에서 유해한 콘텐츠가 감지될 때 수행할 작업을 지정합니다. `BLOCK`을 선택하여 콘텐츠를 차단하고 차단된 메시지로 바꾸거나 `NONE`을 선택하여 조치를 취하지 않고 감지 정보를 반환하도록 합니다. 자세한 내용은 [Amazon Bedrock Guardrails에서 감지한 유해한 콘텐츠를 처리하는 옵션](guardrails-harmful-content-handling-options.md) 단원을 참조하십시오.
  + `inputStrength` 필드의 프롬프트 및 `outputStrength` 필드의 모델 응답에 대한 필터의 강도를 지정합니다.
  + `type` 필드에 범주를 지정합니다.
+ (선택 사항) `contentPolicyConfig` 객체 내의 `tierConfig` 객체에서 가드레일의 보호 티어를 지정합니다. 옵션에는 `STANDARD` 및 `CLASSIC` 티어가 포함됩니다.

  자세한 내용은 [가드레일 정책에 대한 보호 티어](guardrails-tiers.md) 단원을 참조하십시오.
+ (선택 사항) [교차 리전 추론](guardrails-cross-region.md)을 활성화하려면 `crossRegionConfig` 객체에 가드레일 프로파일을 지정합니다. 이는 `STANDARD` 티어를 사용할 때 필요합니다.

응답 형식은 다음과 같습니다.

```
HTTP/1.1 202
Content-type: application/json

{
   "createdAt": "string",
   "guardrailArn": "string",
   "guardrailId": "string",
   "version": "string"
}
```

------