

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 텍스트 분석 API 작업
<a name="comprehendmedical-textanalysis"></a>

Amazon Comprehend Medical을 사용하면 사전 훈련된 자연어 처리(NLP) 모델을 사용하여 임상 문서를 검토하고 콘텐츠에 대한 다양한 통찰력을 얻을 수 있습니다. Amazon Simple Storage Service(S3) 버킷에 저장된 여러 파일에 대해 배치 분석으로 또는 단일 파일에서 분석을 수행할 수 있습니다.

Amazon Comprehend Medical을 사용하면 문서에서 다음과 같은 작업을 수행할 수 있습니다.
+ [Detect entities(버전 2)](textanalysis-entitiesv2.md) - 구조화되지 않은 임상 텍스트를 검사하여 의학적 상태, 치료, 검사 및 결과, 약물과 같은 의료 정보에 대한 텍스트 참조를 찾아냅니다. 이 버전은 원래 Detect Entities API와 다른 모델을 사용하며 출력에 몇 가지 변경 사항이 있습니다.
+ [PII 탐지](textanalysis-phi.md) - 구조화되지 않은 임상 텍스트를 검사하여 이름, 주소 등 보호 대상 건강 정보(PHI) 에 대한 텍스트 참조를 찾아냅니다.

Amazon Comprehend Medical에는 임상 문서에 대한 배치 텍스트 분석을 수행하는 데 사용할 수 있는 여러 API 작업도 포함되어 있습니다. 이러한 API 사용 방법에 대한 자세한 내용은 [텍스트 분석 배치 API](textanalysis-batchapi.md) 단원을 참조하십시오.

**Topics**
+ [Detect entities(버전 2)](textanalysis-entitiesv2.md)
+ [PII 탐지](textanalysis-phi.md)
+ [텍스트 분석 배치 API](textanalysis-batchapi.md)

# Detect entities(버전 2)
<a name="textanalysis-entitiesv2"></a>

**DetectEntitiesV2**를 사용하여 단일 파일에서 엔터티를 탐지하거나 **StartEntitiesDetectionV2Job**을 사용하여 여러 파일에 대한 배치 분석을 수행합니다. 다음과 같은 범주의 엔터티를 탐지할 수 있습니다.
+ `ANATOMY:` 신체 또는 신체 계통의 일부 및 해당 부위나 계통의 위치에 대한 레퍼런스를 탐지합니다.
+ `BEHAVIORAL_ENVIRONMENTAL_SOCIAL` 사람의 건강에 영향을 미치는 환경 내 행동 및 상태를 탐지합니다. 여기에는 담배 사용, 알코올 소비, 기분 전환용 약물 사용, 알레르기, 성별, 인종/민족이 포함됩니다.
+ `MEDICAL_CONDITION:` 의학적 상태의 징후, 증상 및 진단을 탐지합니다.
+ `MEDICATION:` 환자의 약물 및 투여량 정보를 감지합니다.
+ `PROTECTED_HEALTH_INFORMATION:` 환자의 개인 정보를 탐지합니다.
+ `TEST_TREATMENT_PROCEDURE:` 의학적 상태를 판단하는 데 사용되는 절차를 탐지합니다.
+ `TIME_EXPRESSION:` 탐지된 엔터티와 연관되어 있는 경우 시간과 관련된 엔터티를 탐지합니다.

**DetectEntitiesV2** 작업을 통해 여섯 가지 범주가 모두 탐지됩니다. PHI 탐지와 관련된 분석의 경우 단일 파일에 **DetectPHI**를, 배치 분석을 위해 **StartPHIDetectionJob**을 사용합니다.

 Amazon Comprehend Medical은 다음과 같은 클래스의 정보를 탐지합니다.
+ *엔터티:* 사람, 치료법, 약품, 의학적 상태 등 관련 객체의 이름에 대한 텍스트 참조. 예를 들어 `ibuprofen`입니다.
+ *범주:* 엔터티가 속하는 일반화된 그룹입니다. 예를 들어, 이부프로펜은 `MEDICATION` 범주에 속합니다.
+ *유형:* 단일 범주 내에서 탐지된 엔터티의 유형입니다. 예를 들어, 이부프로펜은 `MEDICATION` 범주의 `GENERIC_NAME` 유형에 속합니다.
+ *속성:* 엔터티와 관련된 정보(예: 약물 투여량). 예를 들어, `200 mg`은 이부프로펜 엔터티의 속성입니다.
+ *특성:* Amazon Comprehend Medical이 컨텍스트를 기반으로 엔터티에 대해 이해하는 내용. 예를 들어, 환자가 복용하지 않는 의약품에는 `NEGATION` 특성이 있습니다.
+ *관계 유형:* 엔터티와 속성 간의 관계.

Amazon Comprehend Medical은 입력 텍스트에서 엔터티의 위치를 제공합니다. Amazon Comprehend 콘솔에서는 위치를 그래픽으로 보여줍니다. API를 사용하면 위치가 숫자 오프셋으로 표시됩니다.

각 엔터티 및 속성에는 Amazon Comprehend Medical의 탐지 정확도에 대한 신뢰 수준을 나타내는 점수가 포함되어 있습니다. 각 속성에는 관계 점수도 있습니다. 이 점수는 Amazon Comprehend Medical이 속성과 상위 엔터티 간의 관계 정확성에 해당하는 신뢰 수준을 나타냅니다. 사용 사례에 적합한 신뢰 임계값을 식별합니다. 높은 정확도가 필요한 상황에서는 높은 신뢰도 임계값을 사용합니다. 임계값을 충족하지 않는 데이터는 걸러내십시오.

## 해부학 범주
<a name="anatomy-v2"></a>

`ANATOMY` 범주는 신체 또는 신체 계통의 일부 및 해당 부위나 계통의 위치에 대한 레퍼런스를 탐지합니다.

### 유형
<a name="anatomy-type-v2"></a>
+ `SYSTEM_ORGAN_SITE`: 신체 계통, 해부학적 위치 또는 부위, 신체 부위.

### 속성
<a name="anatomy-attribute-v2"></a>
+ `DIRECTION`: 지침 용어. 예: 왼쪽, 오른쪽, 내측, 외측, 상부, 하부, 후방, 전방, 원위부, 근위부, 반대측, 양측, 동측, 등쪽, 복부 등.

## 행동, 환경, 사회적 건강 범주
<a name="behavioral-category-v2"></a>

`BEHAVIORAL_ENVIRONMENTAL_SOCIAL` 범주는 사람의 건강에 영향을 미치는 환경 내 행동 및 상태에 대한 레퍼런스를 탐지합니다.

### Type
<a name="behavioral-type-v2"></a>
+ `ALCOHOL_CONSUMPTION`: 환자의 알코올 섭취량을 사용 상태, 빈도, 양, 기간 등의 측면에서 정의합니다.
+ `ALLERGIES`: 환자의 알레르기 및 알레르겐에 대한 반응을 정의합니다.
+ `GENDER`: 성 정체성의 특징 파악.
+ `RACE_ETHNICITY`: 특정 인종 및 민족 집단에 대한 환자의 동일시를 나타내는 사회-정치적 구조.
+ `REC_DRUG_USE`: 환자의 기분 전환용 약물 사용을 사용 상태, 빈도, 용량 및 기간 측면에서 정의합니다.
+ `TOBACCO_USE`: 환자의 담배 사용량을 사용 상태, 빈도, 양 및 기간 측면에서 정의합니다.속성

탐지된 다음 속성은 유형 `ALCOHOL_CONSUMPTION`, `TOBACCO_USE` 및 `REC_DRUG_USE`에만 적용됩니다.
+ `AMOUNT`: 알코올, 담배 또는 기분 전환용 약물의 사용량.
+ `DURATION`: 알코올, 담배 또는 기분전환용 약물을 사용한 기간.
+ `FREQUENCY`: 알코올, 담배 또는 기분전환용 약물의 사용 빈도.

### 특성
<a name="behavioral-trait-v2"></a>

탐지된 다음 특성은 유형 `ALCOHOL_CONSUMPTION`, `ALLERGIES`, `TOBACCO_USE` 및 `REC_DRUG_USE`에만 적용됩니다.
+ `NEGATION`: 결과가 부정적이거나 조치가 수행되지 않고 있다는 표시.
+ `PAST_HISTORY`: 알코올, 담배 또는 기분 전환용 약물 사용이 환자의 과거(현재 만남 이전)에서 유래했다는 표시.

## 의학적 상태 범주
<a name="medical-condition-v2"></a>

`MEDICAL_CONDITION` 범주는 의학적 상태의 징후, 증상 및 진단을 탐지합니다. 이 범주에는 엔터티 유형 하나, 속성 및 특성이 네 개씩 있습니다. 하나 이상의 특성을 한 가지 유형과 연결할 수 있습니다. 속성에 대한 컨텍스트 정보 및 진단과의 관계가 감지되어 `RELATIONSHIP_EXTRACTION.`을 통해 `DX_NAME`에 매핑됩니다. 예를 들어, “왼쪽 다리의 만성 통증”이라는 텍스트에서 “만성”은 `ACUITY` 속성으로, “왼쪽”은 `DIRECTION` 속성으로, “다리”는 `SYSTEM_ORGAN_SITE` 속성으로 감지됩니다. 이러한 각 속성의 관계는 신뢰도 점수와 함께 의학적 상태 엔터티 “통증”에 매핑됩니다.

### 유형
<a name="medical-condition-type-v2"></a>
+ `DX_NAME`: 모든 의학적 상태가 나열되어 있습니다. `DX_NAME` 유형에는 현재 질병, 방문 이유, 병력이 포함됩니다.

### 속성
<a name="medical-condition-attribute-v2"></a>
+ `ACUITY`: 만성, 급성, 돌발성, 지속성 또는 점진적 등 질병 사례 결정.
+ `DIRECTION`: 지침 용어. 예: 왼쪽, 오른쪽, 내측, 외측, 상부, 하측, 후방, 전방, 원위부, 근위부, 반대측, 양측, 동측, 등쪽 또는 복부.
+ `SYSTEM_ORGAN_SITE`: 해부학적 위치.
+ `QUALITY`: 병기 또는 등급과 같은 의학적 상태를 설명하는 모든 용어.

### 특성
<a name="medical-condition-trait-v2"></a>
+ `DIAGNOSIS`: 증상의 원인 또는 결과로 판단되는 의학적 상태입니다. 증상은 신체 소견, 검사실 또는 방사선 소견서 또는 기타 수단을 통해 확인할 수 있습니다.
+ `HYPOTHETICAL`: 의학적 상태가 가설로 표현된다는 표시.
+ `LOW_CONFIDENCE`: 의학적 상태의 불확실성이 높은 것으로 표현된다는 표시. 제공된 신뢰도 점수와는 직접적인 관련이 없습니다.
+ `NEGATION`: 결과가 부정적이거나 조치가 수행되지 않고 있다는 표시.
+ `PERTAINS_TO_FAMILY`: 의학적 상태가 환자 본인이 아닌 환자의 가족과 관련 있다는 표시.
+ `SIGN`: 의사가 보고한 의학적 상태.
+ `SYMPTOM`: 환자가 보고한 의학적 상태.

## 약물 범주
<a name="medication-v2"></a>

`MEDICATION` 범주는 환자의 약물 및 투여량 정보를 감지합니다. 하나 이상의 속성을 한 가지 유형에 적용할 수 있습니다.

### 유형
<a name="medication-type-v2"></a>
+ `BRAND_NAME`: 약물 또는 치료제의 저작권이 있는 브랜드 이름.
+ `GENERIC_NAME`: 약물 또는 치료제의 비브랜드 이름, 성분 이름 또는 포뮬러 혼합물.

### 속성
<a name="medication-attribute-v2"></a>
+ `DOSAGE`: 주문한 의약품의 양.
+ `DURATION`: 약을 투여 기간.
+ `FORM`: 약물의 형태.
+ `FREQUENCY`: 약물 투여 빈도.
+ `RATE`: 약물 투여율(주로 약물 주입 또는 IV의 경우).
+ `ROUTE_OR_MODE`: 약물의 투여 방법.
+ `STRENGTH`: 투약 강도.

### 특성
<a name="medication-trait-v2"></a>
+ `NEGATION`: 환자가 약물을 투여하고 있지 않다는 모든 징후.
+ `PAST_HISTORY`: 검출된 약물이 환자의 과거(현재 만남 이전)에서 비롯되었다는 표시.

## 보호 대상 건강 정보 범주
<a name="protected-health-information-v2"></a>

`PROTECTED_HEALTH_INFORMATION` 범주는 환자의 개인 정보를 탐지합니다. 이 작업에 대한 자세한 내용은 [PII 탐지](textanalysis-phi.md)을 참조하십시오.

### 유형
<a name="protected-health-information-types-v2"></a>
+ `ADDRESS`: 시설, 단위 또는 시설 내 병동 주소의 모든 지리적 세분화.
+ `AGE`: 연령, 연령 범위 또는 언급된 연령의 모든 구성 요소. 여기에는 환자, 가족 또는 기타 구성원이 포함됩니다. 달리 명시되지 않는 한 기본값은 연도입니다.
+ `EMAIL`: 이메일 주소.
+ `ID`: 주민등록번호, 의료 기록 번호, 시설 식별 번호, 임상 시험 번호, 증명서 또는 면허 번호, 차량 또는 디바이스 번호, 진료 장소 또는 제공자. 여기에는 신장, 체중, 검사실 수치 등 환자의 모든 생체인식 숫자도 포함됩니다.
+ `NAME`: 모든 이름. 일반적으로 환자, 가족 또는 의료 제공자의 이름입니다.
+ `PHONE_OR_FAX`: 전화, 팩스 또는 페이저 번호. 1-800-QUIT-NOW 및 911처럼 이름이 지정된 전화번호는 제외됩니다.
+ `PROFESSION`: 환자 또는 환자 가족과 관련된 직업 또는 고용주. 메모에 언급된 임상의의 직업은 포함되지 않습니다.

## 검사, 치료 및 절차 범주
<a name="test-treatment-procedure-v2"></a>

`TEST_TREATMENT_PROCEDURE` 범주는 의학적 상태를 판단하는 데 사용되는 절차를 탐지합니다. 하나 이상의 속성이 해당 `TEST_NAME` 유형의 엔터티 하나와 관련될 수 있습니다.

### 유형
<a name="test-treatment-procedure-types-v2"></a>
+ `PROCEDURE_NAME`: 의학적 상태를 치료하거나 환자 케어를 위해 환자에게 일회성으로 시행하는 중재술.
+ `TEST_NAME`: 결과 값이 있을 수 있는 진단, 측정, 검사 또는 등급 지정을 위해 환자에게 수행하는 절차. 여기에는 진단을 내리거나, 상태를 배제 또는 발견하거나, 환자를 평가하거나 점수를 지정을 위한 모든 절차, 프로세스, 평가 또는 등급 지정이 포함됩니다.
+ `TREATMENT_NAME`: 질병 또는 이상을 퇴치하기 위해 일정 기간 동안 시행되는 중재술. 여기에는 항바이러스제 및 백신 접종 같은 약물 투여 그룹화가 포함됩니다.

### 속성
<a name="test-treatment-procedure-attributes-v2"></a>
+ `TEST_VALUE`: 검사 결과. `TEST_NAME` 엔터티 유형에만 적용됩니다.
+ `TEST_UNIT`:검사 값과 함께 표시될 수 있는 측정 단위. `TEST_NAME` 엔터티 유형에만 적용됩니다.

### 특성
<a name="test-treatment-procedure-traits-v2"></a>
+ `FUTURE`: 검사, 치료 또는 절차가 메모의 주제 이후에 일어날 조치나 사건을 의미한다는 표시.
+ `HYPOTHETICAL`: 검사, 치료 또는 절차가 가설로 표현되었음을 나타내는 표시.
+ `NEGATION`: 결과 또는 조치가 부정적이거나 수행되지 않고 있다는 표시.
+ `PAST_HISTORY`: 검사, 치료 또는 절차가 환자의 과거(현재 만남 이전)에서 비롯되었음을 나타내는 표시.

## 시간 표현 범주
<a name="time-expression-v2"></a>

`TIME_EXPRESSION` 범주는 시간과 관련된 엔터티를 감지합니다. 여기에는 날짜와 같은 항목과 “3일 전”, “오늘”, “현재”, “입원 날짜”, “지난 달” 또는 “16일”과 같은 시간 표현이 포함됩니다. 이 범주의 결과는 엔터티와 관련된 경우에만 반환됩니다. 예를 들어 “어제 환자가 이부프로펜 200mg을 복용했습니다”는 `GENERIC_NAME` 엔터티 “이부프로펜”과 겹치는 `TIME_EXPRESSION` 엔터티로 `Yesterday` 엔터티를 반환합니다. 그러나 “어제 환자가 개를 산책시켰다”에서는 엔터티로 인식되지 않습니다.

### 유형
<a name="time-expression-v2-categories"></a>
+ `TIME_TO_MEDICATION_NAME`: 약을 복용한 날짜. 이 유형에만 적용되는 속성은 `BRAND_NAME` 및 `GENERIC_NAME` 입니다.
+ `TIME_TO_DX_NAME`: 의학적 상태가 발생한 날짜. 이 유형의 속성은 `DX_NAME`입니다.
+ `TIME_TO_TEST_NAME`: 검사를 실시한 날짜. 이 유형의 속성은 `TEST_NAME`입니다.
+ `TIME_TO_PROCEDURE_NAME`: 절차가 수행된 날짜. 이 유형의 속성은 `PROCEDURE_NAME`입니다.
+ `TIME_TO_TREATMENT_NAME`: 치료가 시행된 날짜. 이 유형의 속성은 `TREATMENT_NAME`입니다.

### 관계 유형
<a name="time-expression-v2-relationship-type"></a>
+  엔터티와 속성 간의 관계. 인식되는 `Relationship_type`은 다음과 같습니다.

  `Overlap` - `TIME_EXPRESSION`은 탐지된 엔터티와 일치합니다.

# PII 탐지
<a name="textanalysis-phi"></a>

임상 텍스트를 스캔할 때 보호 대상 건강 정보(PHI) 데이터만 탐지하려는 경우 **DetectPHI** 작업을 사용합니다. 임상 텍스트에서 사용 가능한 모든 엔터티를 검색하려면 **DetectEntitiesV2**를 사용합니다.

이 API는 PHI 엔터티 탐지만 필요한 사용 사례에 가장 적합합니다. 비 PHI 범주의 정보에 대한 자세한 내용은 [Detect entities(버전 2)](textanalysis-entitiesv2.md) 섹션을 참조하십시오.

**중요**  
 Amazon Comprehend Medical은 탐지된 엔터티의 정확성에 대한 신뢰 수준을 나타내는 신뢰도 점수를 제공합니다. 이러한 신뢰도 점수를 평가하고 사용 사례에 적합한 신뢰 임계값을 식별합니다. 특정 규정 준수 사용 사례의 경우, 추가 인적 검토 또는 기타 방법을 사용하여 탐지된 PHI의 정확성을 확인하는 것이 좋습니다.

HIPAA 법에 따라 18개 식별자 목록을 기반으로 하는 PHI는 특별한 주의를 기울여 취급해야 합니다. Amazon Comprehend Medical은 이러한 식별자와 관련된 엔터티를 탐지하지만 이러한 엔터티를 세이프 하버 방법으로 지정된 목록에 1:1로 매핑하지 않습니다. 모든 식별자가 비정형 임상 텍스트에 포함되는 것은 아니지만 Amazon Comprehend Medical은 모든 관련 식별자를 포함합니다. 이러한 식별자는 다음 목록을 포함하여 개별 환자를 식별하는 데 사용할 수 있는 데이터로 구성됩니다. 자세한 내용은 *미국 정부 보건 복지 서비스* 웹사이트의 [Health Information Privacy](https://www.hhs.gov/hipaa/for-professionals/privacy/special-topics/de-identification/index.html)를 참조하십시오.

각 PHI 관련 엔터티에는 Amazon Comprehend Medical의 탐지 정확도에 대한 신뢰도 수준을 나타내는 점수(응답의 `Score`)가 포함되어 있습니다. 사용 사례에 적합한 신뢰 임계값을 식별하고 이를 충족하지 않는 엔터티를 걸러냅니다. PHI 발생을 식별할 때는 탐지된 잠재적 엔터티를 더 많이 캡처하기 위해 필터링에 낮은 신뢰도 임계값을 사용하는 것이 더 나을 수 있습니다. 규정 준수 사용 사례에서 탐지된 엔터티의 값을 사용하지 않는 경우 특히 그렇습니다.

**DetectPHI** 또는 **DetectEntitiesV2** 작업을 실행하여 다음과 같은 PHI 관련 엔터티를 탐지할 수 있습니다.


**탐지된 PHI 엔터티**  

|  개체  |  설명  |  HIPAA 범주  | 
| --- | --- | --- | 
|  AGE  |  환자, 가족 또는 메모에 관련된 다른 사람의 연령, 연령 범위, 언급된 연령의 모든 구성 요소. 달리 명시되지 않는 한 기본값은 연도입니다.  |  3. 개인과 관련된 날짜  | 
| DATE | 환자 또는 환자 치료와 관련된 모든 날짜. | 3. 개인과 관련된 날짜 | 
|  NAME  |  임상 기록에 기재된 모든 이름(일반적으로 환자, 가족 또는 의료 제공자의 이름).  |  1. 이름  | 
|  PHONE\$1OR\$1FAX  |  모든 전화, 팩스, 호출기. 1-800-QUIT-NOW 및 911과 같은 기명 전화번호는 제외됩니다.  |  4. 전화번호 5. 팩스 번호  | 
|  EMAIL  |  이메일 주소.  |  6. 이메일 주소  | 
|  ID  |  환자 신원과 관련된 모든 종류의 번호. 여기에는 주민등록번호, 의료 기록 번호, 시설 식별 번호, 임상 시험 번호, 증명서 또는 면허 번호, 차량 또는 디바이스 번호가 포함됩니다. 또한 생체인식 번호, 진료 장소 또는 의료 서비스 제공자를 식별하는 번호도 포함됩니다.  |  7. 사회 보장 번호  8. 의료 기록 번호 9. 건강 보험 번호 10. 계정 번호 11. 인증서/면허 번호 12. 차량 식별자 13. 디바이스 번호 16. 생체 인식 정보 18. 기타 모든 식별 특성  | 
|  URL  |  모든 웹 URL.  |  14. URL  | 
|  ADDRESS  |  여기에는 시설, 유명 의료 시설 또는 시설 내 병동 주소의 모든 지리적 세분화가 포함됩니다.  |  2. 지리적 위치  | 
|  PROFESSION  |  환자 또는 환자 가족과 관련된 것으로 메모에 언급된 모든 직업 또는 고용주를 포함합니다.  |  18. 기타 모든 식별 특징  | 



**예제**  


텍스트 “환자는 워싱턴 주 시애틀에 거주하고 있는 48세의 교사 존 스미스입니다.” 반환 값은 다음과 같습니다.
+ “존 스미스"는 `PROTECTED_HEALTH_INFORMATION` 범주에 있는 `NAME` 유형의 *엔터티*입니다.
+ “48"은 `PROTECTED_HEALTH_INFORMATION` 범주에 있는 `AGE` 유형의 *엔터티*입니다.
+ "교사"는 `PROTECTED_HEALTH_INFORMATION` 범주에 있는 `PROFESSION` 유형(식별 특징)의 *엔터티*입니다.
+ “워싱턴주 시애틀”은 `PROTECTED_HEALTH_INFORMATION` 범주에 속하는 `ADDRESS` *엔터티*입니다.

Amazon Comprehend Medical 콘솔에서는 다음과 같이 표시됩니다.

![\[Patient information card displaying name, age, profession, and address details.\]](http://docs.aws.amazon.com/ko_kr/comprehend-medical/latest/dev/images/patient.png)


**DetectPHI** 작업을 사용할 때 응답은 다음과 같이 표시됩니다. **StartPHIDetectionJob** 작업을 사용하면 Amazon Comprehend Medical은 출력 위치에 이 구조를 사용하여 파일을 생성합니다.

```
{
    "Entities": [
        {
            "Id": 0,
            "BeginOffset": 11,
            "EndOffset": 21,
            "Score": 0.997368335723877,
            "Text": "John Smith",
            "Category": "PROTECTED_HEALTH_INFORMATION",
            "Type": "NAME",
            "Traits": []
        },
        {
            "Id": 1,
            "BeginOffset": 25,
            "EndOffset": 27,
            "Score": 0.9998362064361572,
            "Text": "48",
            "Category": "PROTECTED_HEALTH_INFORMATION",
            "Type": "AGE",
            "Traits": []
        },
        {
            "Id": 2,
            "BeginOffset": 37,
            "EndOffset": 44,
            "Score": 0.8661606311798096,
            "Text": "teacher",
            "Category": "PROTECTED_HEALTH_INFORMATION",
            "Type": "PROFESSION",
            "Traits": []
        },
        {
            "Id": 3,
            "BeginOffset": 61,
            "EndOffset": 68,
            "Score": 0.9629441499710083,
            "Text": "Seattle",
            "Category": "PROTECTED_HEALTH_INFORMATION",
            "Type": "ADDRESS",
            "Traits": []
        },
        {
            "Id": 4,
            "BeginOffset": 78,
            "EndOffset": 88,
            "Score": 0.38217034935951233,
            "Text": "Washington",
            "Category": "PROTECTED_HEALTH_INFORMATION",
            "Type": "ADDRESS",
            "Traits": []
        }
    ],
    "UnmappedAttributes": []
}
```

# 텍스트 분석 배치 API
<a name="textanalysis-batchapi"></a>

Amazon Comprehend Medical을 사용하여 Amazon S3 버킷에 저장된 의학 텍스트를 분석합니다. 최대 10GB의 문서를 한 번에 분석할 수 있습니다. 콘솔을 사용하여 배치 분석 작업을 생성 및 관리하거나 배치 API를 사용하여 보호 대상 건강 정보(PHI)를 비롯한 의료 엔터티를 탐지할 수 있습니다. API는 진행 중인 배치 분석 작업을 시작, 중지, 나열하고 설명합니다.

 배치 분석 및 기타 Amazon Comprehend Medical 작업에 대한 요금 정보는 [여기](https://aws.amazon.com/comprehend/medical/pricing/)에서 확인할 수 있습니다.

## 중요 공지 사항
<a name="important-notice"></a>

Amazon Comprehend Medical의 배치 분석 작업은 전문적인 의학적 조언, 진단 또는 치료를 대체할 수 없습니다. 사용 사례에 적합한 신뢰 임계값을 식별하고, 높은 정확도가 필요한 상황에서는 높은 신뢰 임계값을 사용합니다. 특정 사용 사례의 경우 적절한 교육을 받은 인간 검토자가 결과를 검토하고 확인해야 합니다. Amazon Comprehend Medical의 모든 작업은 숙련된 의료 전문가로부터 정확성과 적절한 의학적 판단을 검토받은 후 환자 치료 시나리오에서만 사용해야 합니다.

## API를 사용하여 배치 분석 수행
<a name="performing-batch-api"></a>

Amazon Comprehend Medical 콘솔 또는 Amazon Comprehend Medical 배치 API를 사용하여 배치 분석 작업을 실행할 수 있습니다.

**필수 조건**

 Amazon Comprehend Medical API를 사용하는 경우 AWS Identity Access and Management(IAM) 정책을 만들고 IAM 역할에 연결해야 합니다. IAM 역할 및 신뢰 정책에 대한 자세한 내용은 [IAM 권한 및 정책](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies.html)을 참조하세요.

****

1. 데이터를 S3 버킷에 업로드합니다.

1. 새 분석 작업을 시작하려면 StartEntitiesDetectionV2Job 작업 또는 StartPHIDetectionJob 작업을 사용합니다. 작업을 시작할 때 Amazon Comprehend Medical에 입력 파일이 포함된 입력 S3 버킷의 이름을 알리고, 배치 분석 후 파일을 기록할 출력 S3 버킷을 지정합니다.

1. 콘솔 또는 DescribeEntiesDetectionV2 작업 또는 DescribePhiDetectionJob 작업을 사용하여 작업 진행 상황을 모니터링합니다. 또한 ListEntitiesDetectionV2Jobs, ListPHIDetectionJobs를 사용하여 배치 분석 작업을 연결하는 모든 온톨로지의 상태를 확인할 수 있습니다.

1. 진행 중인 작업을 중지해야 하는 경우 StopEntitiesDetectionV2Job 또는 StopPHIDetectionJob을 사용하여 분석을 중지합니다.

1. 분석 작업의 결과를 보려면 작업을 시작할 때 구성한 출력 S3 버킷을 참조하세요.

## 콘솔을 사용하여 배치 분석 수행
<a name="batch-api-console"></a>

****

1. 데이터를 S3 버킷에 업로드합니다.

1. 새 분석 작업을 시작하려면 수행할 분석 유형을 선택합니다. 그런 다음, 입력 파일이 포함되어 있는 S3 버킷의 이름과 출력 파일을 보내려는 S3 버킷의 이름을 제공합니다.

1. 작업이 진행 중인 동안 작업 상태를 모니터링합니다. 콘솔에서 분석 시작 및 종료 시점을 포함하여 모든 배치 분석 작업과 상태를 볼 수 있습니다.

1. 분석 작업의 결과를 보려면 작업을 시작할 때 구성한 출력 S3 버킷을 참조하세요.

## 배치 작업에 대한 IAM 정책
<a name="batch-iam"></a>

Amazon Comprehend Medical 배치 API를 호출하는 IAM 역할에는 입력 및 출력 파일이 포함된 S3 버킷에 대한 액세스 권한을 부여하는 정책이 있어야 합니다. Amazon Comprehend Medical 서비스가 역할을 맡을 수 있도록 여기에도 신뢰 관계를 할당해야 합니다. IAM 역할 및 신뢰 정책에 대한 자세한 내용은 [IAM 역할](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_roles.html)을 참조하세요.

역할에는 다음과 같은 정책도 있어야 합니다.

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Action": [
                "s3:GetObject"
            ],
            "Resource": [
                "arn:aws:s3:::input-bucket/*"
            ],
            "Effect": "Allow"
        },
        {
            "Action": [
                "s3:ListBucket"
            ],
            "Resource": [
                "arn:aws:s3:::input-bucket",
                "arn:aws:s3:::output-bucket"
            ],
            "Effect": "Allow"
        },
        {
            "Action": [
                "s3:PutObject"
            ],
            "Resource": [
                "arn:aws:s3:::output-bucket/*"
            ],
            "Effect": "Allow"
        }
    ]
}
```

------

역할은 다음과 같은 신뢰 관계를 맺고 있어야 합니다. 혼동되는 대리인 보안 문제를 방지하기 위해 `aws:SourceAccount ` 및 `aws:SourceArn` 조건 키를 사용하여 혼동되는 대리인 보안 문제를 방지하는 것이 좋습니다. 혼동된 대리자 문제와 AWS 계정을 보호하는 방법에 대해 자세히 알아보려면 IAM 설명서의 [혼동된 대리자 문제를](https://docs.aws.amazon.com/IAM/latest/UserGuide/confused-deputy.html) 참조하세요.

------
#### [ JSON ]

****  

```
{
   "Version":"2012-10-17",		 	 	 
   "Statement":[
      {
         "Effect":"Allow",
         "Principal":{
            "Service":[
               "comprehendmedical.amazonaws.com"
            ]
         },
         "Action":"sts:AssumeRole",
         "Condition": {
            "StringEquals": {
               "aws:SourceAccount": "account_id"
            },
            "ArnLike": {
               "aws:SourceArn": "arn:aws:comprehendmedical:us-east-1:account_id:*"
            }
         }
      }
   ]
}
```

------

## 배치 분석 출력 파일
<a name="batch-ouput"></a>

Amazon Comprehend Medical은 배치의 각 입력 파일에 대해 하나의 출력 파일을 생성합니다. 이 파일의 확장자는 `.out`입니다. Amazon Comprehend Medical은 먼저 *AwsAccountId*-*JobType*-*JobId*를 이름으로 사용하여 출력 S3 버킷에 디렉터리를 생성한 다음, 배치에 대한 모든 출력 파일을 이 디렉터리에 씁니다. Amazon Comprehend Medical은 한 작업의 출력이 다른 작업의 출력을 덮어쓰지 않도록 이 새 디렉터리를 생성합니다.

배치 작업의 출력은 동기 작업과 동일한 출력을 생성합니다. Amazon Comprehend Medical에서 생성한 출력의 예는 [Detect entities(버전 2)](textanalysis-entitiesv2.md) 섹션을 참조하십시오.

각 배치 작업은 작업에 대한 정보가 포함된 세 개의 매니페스트 파일을 생성합니다.
+ `Manifest` - 작업을 요약합니다. 작업에 사용된 파라미터, 전체 작업 크기, 처리된 파일 수에 대한 정보를 제공합니다.
+ `success` - 성공적으로 처리된 파일에 대한 정보를 제공합니다. 입력 및 출력 파일 이름과 입력 파일 크기를 포함합니다.
+ `unprocessed` - 배치 작업에서 처리되지 않은 파일을 오류 코드 및 파일별 오류 메시지와 함께 나열합니다.

Amazon Comprehend Medical은 사용자가 배치 작업을 위해 지정한 출력 디렉터리에 파일을 기록합니다. 요약 매니페스트 파일은 `Manifest_AccountId-Operation-JobId` 제목이 붙은 폴더와 함께 출력 폴더에 기록됩니다. 매니페스트 폴더 내에는 성공 매니페스트가 들어 있는 `success` 폴더가 있습니다. 처리되지 않은 파일 매니페스트가 들어 있는 `failed` 폴더도 포함되어 있습니다. 다음 단원에서는 매니페스트 파일의 구조를 보여줍니다.

### 배치 매니페스트 파일
<a name="batch-manifest"></a>

다음은 배치 매니페스트 파일의 JSON 구조입니다.

```
{"Summary" : 
    {"Status" : "COMPLETED | FAILED | PARTIAL_SUCCESS | STOPPED", 
    "JobType" : "EntitiesDetection | PHIDetection", 
    "InputDataConfiguration" : {
        "Bucket" : "input bucket", 
        "Path" : "path to files/account ID-job type-job ID" 
    }, "OutputDataConfiguration" : {
        "Bucket" : "output bucket", 
        "Path" : "path to files" 
    }, 
    "InputFileCount" : number of files in input bucket, 
    "TotalMeteredCharacters" : total characters processed from all files, 
    "UnprocessedFilesCount" : number of files not processed, 
    "SuccessFilesCount" : total number of files processed, 
    "TotalDurationSeconds" : time required for processing, 
    "SuccessfulFilesListLocation" : "path to file", 
    "UnprocessedFilesListLocation" : "path to file",
    "FailedJobErrorMessage": "error message or if not applicable,
              The status of the job is completed"
    } 
}
```

### 성공 매니페스트 파일
<a name="batch-success"></a>

다음은 성공적으로 처리된 파일에 대한 정보가 포함된 파일의 JSON 구조입니다.

```
{
        "Files": [{
               "Input": "input path/input file name",
               "Output": "output path/output file name",
               "InputSize": size in bytes of input file
        }, {
               "Input": "input path/input file name",
               "Output": "output path/output file name",
               "InputSize": size in bytes of input file
        }]
}
```

### 처리되지 않은 매니페스트 파일
<a name="batch-unprocessed"></a>

다음은 처리되지 않은 파일에 대한 정보가 포함된 매니페스트 파일의 JSON 구조입니다.

```
{
  "Files" : [ {
      "Input": "file_name_that_failed",
      "ErrorCode": "error code for exception",
      "ErrorMessage": "explanation of the error code and suggestions"
  }, 
  { ...}
  ]
}
```