

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Bedrock Data Automation 작동 방식
<a name="bda-how-it-works"></a>

Bedrock Data Automation(BDA)을 사용하면 문서, 이미지, 비디오 또는 오디오와 같은 특정 데이터 유형에 대한 처리 요구 사항에 따라 출력을 구성할 수 있습니다. BDA는 표준 출력 또는 사용자 지정 출력을 생성할 수 있습니다. 다음은 BDA의 작동 방식을 이해하기 위한 몇 가지 주요 개념입니다. 새 사용자인 경우 표준 출력에 대한 정보로 시작합니다.
+ 표준 출력 - 다른 정보가 없는 파일을 BDA로 보내면 기본 표준 출력이 반환되며, 이 출력은 데이터 유형에 따라 일반적으로 필요한 정보로 구성됩니다. 예를 들어 오디오 트랜스크립션, 비디오 장면 요약 및 문서 요약이 있습니다. 프로젝트를 사용하여 이러한 출력을 사용 사례에 맞게 조정하여 수정할 수 있습니다. 자세한 내용은 [Bedrock Data Automation의 표준 출력](bda-standard-output.md) 섹션을 참조하세요.
+ 사용자 지정 출력 - 문서, 오디오 및 이미지만 해당됩니다. 사용자 지정 출력을 선택하면 블루프린트를 사용하여 추출하려는 정보를 정확히 정의합니다. 블루프린트는 파일에서 검색하려는 예상 필드 목록으로 구성됩니다. 각 필드는 특정 사용 사례에 맞게 추출해야 하는 정보를 나타냅니다. 자체 블루프린트를 생성하거나 BDA 블루프린트 카탈로그에서 사전 정의된 블루프린트를 선택할 수 있습니다. 자세한 내용은 [사용자 지정 출력 및 블루프린트](bda-custom-output-idp.md) 섹션을 참조하세요.
+ 프로젝트 - 프로젝트는 출력 구성을 수정 및 구성할 수 있는 BDA 리소스입니다. 각 프로젝트에는 문서, 이미지, 비디오 및 오디오에 대한 표준 출력 구성과 문서, 오디오 및 이미지에 대한 사용자 지정 출력 블루프린트가 포함될 수 있습니다. 프로젝트는 `InvokeDataAutomationAsync` API 직접 호출에서 참조되어 BDA에 파일 처리 방법을 지시합니다. 프로젝트 및 사용 사례에 대한 자세한 내용은 [Bedrock Data Automation 프로젝트](bda-projects.md) 섹션을 참조하세요.

# Bedrock Data Automation 프로젝트
<a name="bda-projects"></a>

Amazon Bedrock Data Automation(BDA)을 사용하여 파일을 처리하는 한 가지 방법은 프로젝트를 생성하는 것입니다. 프로젝트는 표준 출력 구성과 사용자 지정 출력 구성을 모두 그룹화한 것입니다. 프로젝트에는 표준 출력이 필요하지만 사용자 지정 출력은 선택 사항입니다. 프로젝트 ARN을 사용하여 `InvokeDataAutomationAsync` API를 직접 호출하면 해당 프로젝트에 정의된 구성 설정을 사용하여 파일이 자동으로 처리됩니다. 그런 다음 프로젝트의 구성에 따라 출력이 생성됩니다.

프로젝트에는 `LIVE` 또는 `DEVELOPMENT` 스테이지가 부여될 수 있습니다. 각 단계는 프로젝트의 고유하고 변경 가능한 버전입니다. 즉, `DEVELOPMENT` 스테이지를 사용하여 편집 또는 테스트하고 `LIVE` 스테이지를 사용하여 고객 요청을 처리할 수 있습니다. 콘솔에서 `DEVELOPMENT` 프로젝트에 액세스할 수 없으며 API를 통해 변경 및 간접 호출해야 합니다.

프로젝트를 사용하면 여러 파일 유형에 단일 리소스를 사용할 수 있습니다. 예를 들어 프로젝트 이름 ABC를 사용하여 BDA로 전송된 오디오 파일은 프로젝트 ABC의 오디오 표준 출력 구성을 사용하여 처리됩니다. 프로젝트 이름 ABC를 사용하여 BDA로 전송된 문서는 프로젝트 ABC의 문서 표준 출력 구성을 사용하여 처리됩니다.

프로젝트는 표준 출력을 설정할 때 유연성을 높입니다. 각 표준 출력에는 트랜스크립트 또는 요약과 같은 구성 가능한 옵션 세트가 있으며, 프로젝트를 사용하면 사용 사례에 더 적합하도록 해당 옵션을 변경할 수 있습니다. 문서, 오디오 및 이미지에 대한 블루프린트로 프로젝트를 구성하여 사용자 지정 출력을 정의할 수도 있습니다. 사용자 지정 출력을 생성하도록 구성된 프로젝트도 표준 출력을 자동으로 생성합니다.

다음 섹션에서는 프로젝트 사용의 몇 가지 예를 살펴봅니다.

## 표준 출력으로 프로젝트 사용
<a name="bda-standard-example"></a>

전체 오디오 및 비디오 파일의 트랜스크립트 요약만 추출하는 데 관심이 있는 사용 사례를 살펴보겠습니다. 기본적으로 BDA로 오디오 및 비디오 파일을 전송할 때 전체 트랜스크립트, 장면 수준 요약, 감지된 텍스트 및 기타 정보와 함께 트랜스크립트 요약을 수신합니다. 이 사용 사례에서는 필요 없는 정보를 수집하는 데 추가 시간과 리소스를 사용하고 싶지 않습니다. 이 사용 사례에서는 오디오 및 비디오 파일에 대한 요약 기능만 활성화하도록 표준 출력 프로젝트를 구성할 수 있습니다.

API 또는 콘솔을 사용하여 이 작업을 수행하려면 프로젝트를 생성하고 오디오 및 비디오에 대한 표준 출력 설정을 수정합니다. 비디오의 경우 **전체 비디오 요약**을 활성화하되 다른 추출(예: 전체 오디오 트랜스크립트, 장면 요약, 콘텐츠 조정 등)이 비활성화되어 있는지 확인합니다. 오디오에 이 구성을 반복합니다. 요약만 생성하도록 프로젝트를 구성한 후 프로젝트를 저장하고 프로젝트의 Amazon 리소스 이름(ARN)을 기록해 둡니다. 이 ARN은 `InvokeDataAutomationAsync` 작업에서 파일을 대규모로 처리하는 데 사용할 수 있습니다. 오디오 또는 비디오 파일을 BDA에 전달하고 이 프로젝트 ARN을 지정하면 각 파일에 대한 요약의 출력만 받게 됩니다. 참고로 이 예제에서는 문서 또는 이미지에 대해 수행된 구성이 없습니다. 즉, 해당 프로젝트 ARN을 사용하여 이미지 또는 문서를 BDA에 전달하면 해당 파일에 대한 기본 표준 출력을 받게 됩니다.

## 사용자 지정 출력 및 표준 출력과 함께 프로젝트 사용
<a name="bda-mixed-example"></a>

이 사용 사례에서는 문서 및 오디오 파일에 대한 표준 출력 요약을 생성하고 문서에서 사용자 지정 필드를 추출한다고 가정해 보겠습니다. 프로젝트를 생성한 후 **전체 오디오 요약**을 활성화하고 다른 추출이 활성화되지 않도록 오디오에 대한 표준 출력을 구성합니다. 문서에 이 표준 출력 구성을 반복합니다. 그런 다음 BDA 글로벌 카탈로그에서 새 블루프린트 또는 기존 블루프린트를 추가하여 문서에 대한 사용자 지정 출력을 구성할 수 있습니다. 이 프로젝트 ARN을 사용하여 BDA에 전달된 문서는 표준 출력 전체 문서 요약과 정의된 사용자 지정 필드에 대한 블루프린트 출력을 생성합니다. 이 프로젝트 ARN을 사용하여 BDA에 전달된 오디오 파일은 전체 요약을 생성합니다.

문서를 처리할 때 프로젝트에 전달되는 다양한 종류의 문서에 여러 블루프린트를 사용할 수 있습니다. 프로젝트에는 최대 40개의 문서 블루프린트가 연결될 수 있습니다. BDA는 자동으로 문서를 프로젝트에 구성된 적절한 블루프린트와 일치시키고 해당 블루프린트를 사용하여 사용자 지정 출력을 생성합니다. 또한 문서를 대량으로 전달할 수도 있습니다. 여러 문서가 포함된 파일을 전달하는 경우 프로젝트를 생성할 때 문서를 분할하도록 선택할 수 있습니다. 이렇게 하면 BDA가 파일을 스캔하여 컨텍스트에 따라 개별 문서로 분할합니다. 그런 다음 이러한 개별 문서는 처리를 위해 올바른 블루프린트와 일치합니다.

현재 이미지는 프로젝트당 단일 블루프린트 정의만 지원합니다. 이미지 파일 유형 JPG 및 PNG는 콘텐츠에 따라 이미지 또는 스캔된 문서로 취급될 수 있습니다. BDA가 텍스트가 포함된 이미지 파일에 원하는 출력을 제공하도록 문서에 대한 사용자 지정 출력을 처리할 때 이미지에 대한 사용자 지정 블루프린트를 생성하는 것이 좋습니다.

오디오 파일은 프로젝트당 하나의 블루프린트 정의만 지원합니다.

# 프로젝트를 사용하는 동안 문서 분할
<a name="bda-document-splitting"></a>

Amazon Bedrock 데이터 자동화(BDA)는 Amazon Bedrock API를 사용할 때 문서 분할을 지원합니다. 활성화되면 BDA는 분할을 통해 여러 논리적 문서가 포함된 PDF를 가져와서 별도의 문서로 분할하여 처리할 수 있습니다.

분할이 완료되면 분할 문서의 각 세그먼트가 독립적으로 처리됩니다. 즉, 입력 문서에는 다양한 문서 유형이 포함될 수 있습니다. 예를 들어 3개의 은행 명세서와 1개의 W2가 포함된 PDF가 있는 경우, 이를 분할하면 개별적으로 처리되는 4개의 개별 문서로 분할하려고 시도합니다.

BDA 자동 분할은 최대 3,000페이지의 파일을 지원하며 각각 최대 20페이지의 개별 문서를 지원합니다.

문서를 분할하는 옵션은 기본적으로 꺼져 있지만 API를 사용할 때 켤 수 있습니다. 아래은 분할자가 활성화된 프로젝트를 생성하는 예입니다. 줄임표는 프로젝트에 제공된 추가 블루프린트를 나타냅니다.

```
   response = client.create_data_automation_project(
    projectName=project_name,
    projectDescription="Provide a project description",
    projectStage='LIVE',
    standardOutputConfiguration=output_config,
    customOutputConfiguration={
    'blueprints': [
        {
        'blueprintArn': Blueprint ARN,
        'blueprintStage': 'LIVE'
        },
        ...
        ]
        },
         overrideConfiguration={'document': {'splitter': {'state': 'ENABLED'}}}
)
```

분할 프로세스를 활성화하는 부분은 overrideConfiguration 라인입니다. 이 라인은 분할자를 설정하고 동일한 파일 내에서 여러 문서를 전달할 수 있습니다.

문서는 문서의 의미 체계 경계로 분할됩니다.

문서 분할은 블루프린트 적용과 관계없이 수행되며 분할된 문서는 가장 가까운 블루프린트와 매칭됩니다. BDA가 블루프린트와 매칭되는 방법에 대한 자세한 내용은 [블루프린트 매칭 이해](#bda-blueprint-matching) 섹션을 참조하세요.

## 블루프린트 매칭 이해
<a name="bda-blueprint-matching"></a>

블루프린트 매칭은 다음 요소를 기반으로 합니다.
+  블루프린트 이름 
+  블루프린트 설명 
+  블루프린트 필드 

문서를 처리할 때 매칭할 여러 블루프린트를 제공할 수 있습니다. 이를 통해 적절한 블루프린트로 다양한 문서 유형을 처리할 수 있습니다. 데이터 자동화 API를 간접 호출할 때 여러 블루프린트 ID를 제공할 수 있으며, BDA는 각 문서를 가장 적합한 블루프린트와 매칭하려고 시도합니다. 이렇게 하면 혼합 문서 유형을 단일 배치로 처리할 수 있습니다. 이는 문서가 다양한 유형(예: 은행 명세서, 인보이스, 여권)일 것으로 예상되는 경우에 유용합니다.

문서 형식이 매우 다르거나 특수 프롬프트가 필요하기 때문에 별도의 블루프린트가 필요한 경우 문서 유형당 하나의 블루프린트를 생성하면 매칭에 도움이 될 수 있습니다. 유용한 블루프린트 생성에 대한 자세한 내용은 [블루프린트 생성 모범 사례](#bda-blueprint-best-practices) 섹션을 참조하세요.

## 블루프린트 생성 모범 사례
<a name="bda-blueprint-best-practices"></a>

 블루프린트를 최대한 활용하려면 다음 모범 사례를 따르세요.
+ 블루프린트 이름 및 설명을 명시하고 자세히 설명하여 매칭을 지원합니다.
+ 여러 관련 블루프린트를 제공하면 BDA가 가장 적합한 블루프린트를 선택할 수 있습니다. 상당히 다른 문서 형식에 대해 별도의 블루프린트 생성 
+ 최대한의 정확도가 필요한 경우 모든 공급업체/문서 소스에 대한 특수 블루프린트를 생성하는 것이 좋습니다.
+ 프로젝트에 동일한 유형의 블루프린트 2개를 포함하지 마십시오(예: W2 블루프린트 2개). 문서 자체와 블루프린트의 정보는 문서를 처리하는 데 사용되며 프로젝트에 동일한 유형의 여러 블루프린트를 포함하면 성능이 저하됩니다.

BDA는 문서 분할과 여러 블루프린트 매칭을 활용하여 가장 적절한 추출 로직을 각 문서에 적용하는 동시에 다양한 문서 세트를 보다 유연하게 처리할 수 있습니다.

# 양식 및 라우팅 파일 유형 비활성화
<a name="bda-routing-enablement"></a>

기본적으로 BDA의 프로젝트는 서로 다른 의미 체계 양식으로 정렬하여 파일 유형을 처리합니다. 프로젝트를 생성하거나 편집할 때 처리할 양식과 어떤 파일 유형이 어떤 양식으로 전송되는지 수정할 수 있습니다. 이 섹션에서는 다양한 양식의 활성화 및 비활성화, 파일을 특정 양식으로 라우팅, BDA의 기본 라우팅 절차를 살펴봅니다.

## 양식 처리 비활성화
<a name="bda-modality-enablement"></a>

프로젝트를 생성할 때 일부 종류의 파일 처리만 포함하는 사용 사례가 있을 수 있습니다. 예를 들어 문서와 오디오 파일만 처리할 수 있습니다. 이 경우 BDA가 JPEG를 이미지로 처리하거나 MP4를 비디오로 처리하지 않도록 해야 합니다. 형식 활성화를 사용하면 프로젝트의 특정 형식을 비활성화하여 BDA 처리의 응답을 큐레이팅할 수 있습니다.

**BDA 콘솔을 사용하여 양식 비활성화**  
BDA 콘솔을 사용하는 경우 체크리스트에서 양식 활성화를 처리합니다. 여기에서 프로젝트를 편집하거나 생성하는 동안 각 양식을 선택하거나 선택 취소할 수 있습니다. 이러한 옵션은 고급 설정 탭 아래에 있습니다. 프로젝트에 대해 하나 이상의 메서드를 선택해야 합니다.

![\[Modality enablement options with checkboxes for document, image, video, and audio.\]](http://docs.aws.amazon.com/ko_kr/bedrock/latest/userguide/images/bda/modalityenableconsole.png)


**BDA API를 사용하여 양식 비활성화**  
BDA API를 사용할 때 양식 활성화는 `CreateDataAutomation` 작업에 있는 `overrideConfiguration` 요청 요소에 의해 처리됩니다. 각 양식에는 양식 `ENABLED` 또는 `DISABLED`를 선언할 수 있는 연결 섹션이 있습니다. 다음은 문서 및 오디오 양식만 활성화된 `overrideConfiguration` 요소의 예입니다. `modalityProcessing` 플래그의 기본값은 `ENABLED`입니다.

```
"overrideConfiguration" : {
    "document": {
        "splitter": {
            "state": ENABLED
        },
        "modalityProcessing": {
            "state": ENABLED
        },
    },
    "image": {
        "modalityProcessing": {
            "state": DISABLED
        }
    },
    "video": {
        "modalityProcessing": {
            "state": DISABLED 
        }
    },
    "audio": {
        "modalityProcessing": {
            "state": ENABLED
        }
    },
    ...
}
```

이 섹션의 끝에 있는 줄임표는 `modalityRouting` 요소의 제거를 나타내며, 자세한 내용은 다음 섹션에서 설명합니다.

## 파일을 특정 처리 유형으로 라우팅
<a name="bda-modality-routing"></a>

특정 파일 유형은 다양한 요인에 따라 다른 양식으로 라우팅할 수 있습니다. 양식 라우팅을 사용하면 특정 양식 처리로 수동으로 라우팅하도록 특정 파일 유형을 설정할 수 있습니다. JPEG 및 PNG 문서 또는 이미지 처리로 라우팅할 수 있습니다. MP4 및 MOV 비디오 또는 오디오 처리로 라우팅할 수 있습니다.

**BDA 콘솔을 사용한 라우팅**  
블루프린트를 생성하거나 편집할 때 고급 설정 탭에서 새 수동 양식 라우팅을 추가하도록 선택할 수 있습니다. 이렇게 하면 사용 가능한 파일 유형 4개 중 하나를 선택한 다음 라우팅할 처리 양식을 선택할 수 있습니다. 다음은 문서 처리 양식으로 PNG 파일을 전송하는 수동 양식 라우팅이 포함된 콘솔 스크린샷입니다.

**참고**  
JPEG 파일 설정은 ‘.jpeg’ 및 ‘.jpg’ 파일 모두에 적용됩니다. MP4 설정 설정은 ‘.mp4’ ‘.m4v’ 파일 모두에 적용됩니다.

![\[파일 유형 및 양식 대상으로 레이블이 지정되고 PNG 및 문서로 선택된 한 쌍의 드롭다운 메뉴를 보여주는 AWS 콘솔의 이미지입니다.\]](http://docs.aws.amazon.com/ko_kr/bedrock/latest/userguide/images/bda/manualrouting.png)


**BDA API를 사용한 라우팅**  
양식 활성화와 마찬가지로 양식 라우팅은 `overrideConfiguration` 요청 요소를 통해 처리됩니다. 다음은 `overrideConfiguration`의 `modalityRouting` 부분에 대한 예입니다. 이 예제에서는 모든 양식이 활성화되어 있다고 가정하고 JPEG 및 PNG 파일은 문서 양식으로 라우팅하고 MP4 및 MOV 파일은 오디오 양식으로 라우팅합니다.

```
...
   "modalityRouting": {
        "jpeg": DOCUMENT, 
        "png": DOCUMENT,  
        "mp4": AUDIO,     
        "mov": AUDIO      
    }
}
```

예제의 시작 부분에 있는 줄임표는 `overrideConfiguration`의 나머지 부분을 제거했음을 나타내며, 이는 양식 활성화 및 문서 분할기 기능에 대한 섹션에서 자세히 설명합니다.

## InvokeDataAutomationAsync API의 표준 라우팅
<a name="bda-standard-routing-async"></a>

BDA는 자체 라우팅 절차를 설정하지 않고 파일 유형에 따라 표준 절차 세트를 사용하여 BDA가 라우팅할 양식을 결정합니다. 기본 절차는 아래 표에 나와 있습니다.

PNG 및 JPEG 시맨틱 분류기를 기본 동작으로 나열합니다. 즉, BDA는 제출된 파일이 내부 모델을 사용하는 이미지 또는 문서인지 여부를 나타내는 지표를 살펴보고 자동으로 라우팅을 수행합니다.


| 파일 유형 | 기본 라우팅 동작 | 
| --- | --- | 
|  PNG  |  의미 체계 분류기(이미지 또는 문서)  | 
|  JPEG  |  의미 체계 분류기(이미지 또는 문서)  | 
|  PDF, TIFF  |  문서  | 
|  MP4, MOV  |  비디오  | 
|  AMR, FLAC, M4A, MP3, OGG, WEBM, WAV  |  오디오  | 

## InvokeDataAutomation API의 표준 라우팅
<a name="bda-standard-routing-sync"></a>

또한 [InvokeDataAutomation](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_data-automation-runtime_InvokeDataAutomation.html) API는 제출된 PNG 또는 JPEG 파일이 내부 모델을 사용하는 이미지 또는 문서인지 여부를 나타내는 지표를 살펴보고 자동으로 라우팅을 수행합니다. 기본 절차는 아래 표에 나와 있습니다.

PNGs 및 JPEGs 시맨틱 분류자를 기본 동작으로 나열합니다. 즉, BDA는 제출된 파일이 내부 모델을 사용하는 이미지 또는 문서인지 여부를 나타내는 지표를 살펴보고 자동으로 라우팅을 수행합니다. PDF 및 TIFF 파일은 처리를 위해 문서 양식으로 라우팅됩니다. InvokeDataAutomation API는 현재 오디오 및 비디오 파일을 지원하지 않습니다.


| 파일 유형 | 기본 라우팅 동작 | 
| --- | --- | 
|  PNG  |  의미 체계 분류기(이미지 또는 문서)  | 
|  JPEG  |  의미 체계 분류기(이미지 또는 문서)  | 
|  PDF, TIFF  |  문서  | 