

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Bedrock 資料自動化中的標準輸出
<a name="bda-standard-output"></a>

標準輸出是與 Amazon Bedrock 資料自動化 (BDA) 互動的預設方式。如果您將文件傳遞至 BDA API，而沒有已建立的藍圖或專案，則會傳回該檔案類型的預設標準輸出。您可以使用專案來修改標準輸出，該專案會儲存每個資料類型的組態資訊。每個專案的每個資料類型可以有一個標準輸出組態。即使與自訂輸出回應並存，BDA 一律會提供標準輸出回應。

每個資料類型都有不同的標準輸出選項。其中一些選項是預設 Bedrock 資料自動化回應的一部分，而有些選項僅作為在專案中使用資料類型的切換。以下各節說明每個資料類型的唯一回應選項，注意哪些是預設值以及哪些是選用項目。

# 文件
<a name="bda-output-documents"></a>

文件的標準輸出可讓您設定感興趣的回應精細程度，以及在輸出中建立輸出格式和文字格式。以下是您可以啟用的一些輸出。

**注意**  
BDA 可以處理 DOCX 檔案。若處理 DOCX 檔案，它們會轉換為 PDF。這表示頁碼映射不適用於 DOCX 檔案。如果選取 JSON\$1 選項和頁面精細程度，則會將已轉換 PDF 的影像上傳至輸出儲存貯體。

## 回應精細程度
<a name="document-granularity"></a>

回應精細程度決定您希望從文件文字擷取中接收的回應類型。精細程度層級越高，得到的回應就越分散，頁面層級提供一起擷取的所有文字，而單字層級則提供每個單字作為個別的回應。可用的精細程度層級為：
+ 頁面層級精細程度 – 預設會啟用此選項。頁面層級精細程度會以您選擇的文字輸出格式提供文件的每個頁面。如果您正在處理 PDF，啟用此精細程度層級會偵測並傳回內嵌超連結。
+ 元素層級精細程度 (配置) – 預設會啟用此選項。以您選擇的輸出格式提供文件的文字，並分為不同的元素。例如圖片、資料表或段落等元素。這些元素會根據文件的結構，以邏輯讀取順序傳回。如果您正在處理 PDF，啟用此精細程度層級會偵測並傳回內嵌超連結。
+ 單字層級精細程度 – 提供個別單字的相關資訊，而不使用更廣泛的內容分析。提供頁面上的每個單字及其位置。

## 輸出設定
<a name="document-output-settings"></a>

輸出設定會決定您下載結果的結構方式。此設定僅適用於主控台。輸出設定的選項包括：
+ JSON – 文件分析的預設輸出結構。提供 JSON 輸出檔案，其中包含組態設定的資訊。
  + 非同步 [InvokeDataAutomationAsync](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_data-automation-runtime_InvokeDataAutomationAsync.html) API：非同步 API 的 JSON 輸出僅為 S3。
  + 同步 [InvokeDataAutomation](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_data-automation-runtime_InvokeDataAutomation.html) API：JSON 輸出可以設定為 S3 或利用 內嵌`outputconfiguration`。如果選取 S3，則輸出 JSON 只會移至 S3 （非內嵌）。如果未提供 S3，同步 API 輸出僅支援 JSON 內嵌。
+ JSON\$1files – 僅適用於非同步 [InvokeDataAutomationAsync](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_data-automation-runtime_InvokeDataAutomationAsync.html) API。使用此設定可同時產生與不同輸出對應的 JSON 輸出和檔案。例如，此設定會提供一個整體文字擷取的文字檔案、一個包含結構化 Markdown 之文字的 Markdown 檔案，以及在文字中找到的每個資料表的 CSV 檔案。也會儲存文件內的圖片，以及圖形裁剪和修正後的影像。此外，如果您處理的是 DOCX 檔案，且已選取此選項，則 DOCX 檔案的轉換後 PDF 將位於輸出資料夾中。這些輸出位於您的輸出資料夾中的 `standard_output/logical_doc_id/assets/`。

**注意**  
同步 API 不會輸出 JSON 以外的任何其他檔案。輸出 JSON 僅包含選取為標準輸出文字格式一部分的文字格式。同步 API 不會輸出圖形裁剪或修正影像。
Sync API 不支援 DocX。

## 文字格式
<a name="document-text-format"></a>

文字格式決定了將透過各種擷取操作提供的不同文字類型。您可以為您的文字格式選取任意數量的下列選項。
+ 純文字 – 此設定提供純文字輸出，不包含任何格式或其他 Markdown 元素。
+ 包含 Markdown 的文字 – 標準輸出的預設輸出設定。提供整合了 Markdown 元素的文字。
+ 包含 HTML 的文字 – 提供整合在回應中之 HTML 元素的文字。
+ CSV – 提供文件中資料表的 CSV 結構化輸出。這只會提供資料表的回應，而不會提供文件的其他元素。

## 邊界框和生成式欄位
<a name="additional-response-document"></a>

對於文件，有兩個回應選項可根據選取的精細程度來變更其輸出。分別是邊界框和生成式欄位。選取「邊界框」將顯示您在主控台回應下拉式清單中按一下的元素或單字的視覺輪廓。這可讓您更輕鬆地追蹤回應的特定元素。邊界框以方塊四個角點的座標形式傳回到 JSON 中。

當您選取「生成式欄位」時，會產生文件摘要，包括 10 個單字和 250 個單字版本。然後，如果您選取元素作為回應精細程度，則會產生文件中偵測到每個圖片的描述性字幕。圖片包含圖表、圖形和影像等物件。

------
#### [ Async ]

本節著重於您在文件檔案上執行 API 操作 InvokeDataAutomationAsync 時收到的不同回應物件。以下我們將細分回應物件的每個區段，然後查看範例文件的完整填入回應。我們會收到的第一個區段是 `metadata`。

```
"metadata":{
   "logical_subdocument_id":"XXXX-XXXX-XXXX-XXXX",
   "semantic_modality":"DOCUMENT",
   "s3_bucket":"bucket",
   "s3_prefix":"prefix"
},
```

上述第一個區段提供與文件相關聯的中繼資料概觀。除了 S3 資訊之外，本區段也會通知您為回應選取了哪些模態。

```
"document":{
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "description":"document text",
   "summary":"summary text",
   "statistics":{
      "element_count":5,
      "table_count":1,
      "figure_count":1,
      "word_count":1000,
      "line_count":32
   }
},
```

上述區段提供文件層級精細程度資訊。描述和摘要區段是根據文件產生的欄位。表示區段以各種格式樣式提供文件的實際內容。最後，統計資料包含文件實際內容的資訊，例如有多少語意元素、有多少圖片、單字、行等。

這是資料表實體的資訊。對於 InvokeDataAutomationAsync （非同步） 請求，除了位置資訊、文字、資料表和讀取順序的不同格式之外，它們還特別在 S3 儲存貯體中傳回資料表的 csv 資訊和裁切影像。CSV 資訊會顯示不同的標頭、頁尾和標題。影像將路由至 InvokeDataAutomationAsync 請求中設定字首的 s3 儲存貯體。對於 InvokeDataAutomation （同步） 請求，不支援 S3 儲存貯體中資料表的 csv 和裁剪映像。

當您處理 PDF 時，回應的統計資料區段也會包含 `hyperlinks_count`，告訴您文件中有多少超連結。

```
{
   "id":"entity_id",
   "type":"TEXT",
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "reading_order":2,
   "page_indices":[
      0
   ],
   "locations":[
      {
         "page_index":0,
         "bounding_box":{
            "left":0.0,
            "top":0.0,
            "width":0.05,
            "height":0.5
         }
      }
   ],
   "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},
```

這是用於文件中文字的實體，由回應中的 `TYPE` 行表示。同樣地，表示法會以不同的格式顯示文字。`reading_order` 顯示讀者在邏輯上看到文字的順序。這是根據相關聯索引鍵和值的語意排序。例如，它會依讀取順序將段落標題與其對應的段落建立關聯。`page_indices` 告訴您文字所在的頁面。接下來是位置資訊，如果回應中啟用了文字邊界框，則會提供文字邊界框。最後是實體子類型。這個子類型提供有關偵測到的文字類型的更詳細資訊。如需子類型的完整清單，請參閱《API 參考》。

```
{
   "id":"entity_id",
   "type":"TABLE",
   "representation":{
      "html":"table.../table",
      "markdown":"| header | ...",
      "text":"header \t header",
      "csv":"header, header, header\n..."
   },
   "csv_s3_uri":"s3://",
   "headers":[
      "date",
      "amount",
      "description",
      "total"
   ],
   "reading_order":3,
   "title":"Title of the table",
   "footers":[
      "the footers of the table"
   ],
   "crop_images":[
      "s3://bucket/prefix.png",
      "s3://bucket/prefix.png"
   ],
   "page_indices":[
      0,
      1
   ],
   "locations":[
      {
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      },
      {
         "page_index":1,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   ],
   "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},
```

這是資料表實體的資訊。除了位置資訊、不同格式的文字、資料表和讀取順序之外，它們還會特別傳回 S3 儲存貯體中資料表的 csv 資訊和裁剪影像。CSV 資訊會顯示不同的標頭、頁尾和標題。影像將路由至 InvokeDataAutomation 請求中設定字首的 s3 儲存貯體。

```
{

   "id":"entity_id",

   "type":"FIGURE",

   "summary":"",

   "representation":{

      "text":"document text",

      "html":"document title document content",

      "markdown":"# text"

   },

   "crop_images":[

      "s3://bucket/prefix.png",

      "s3://bucket/prefix.png"

   ],

   "locations":[

      {

         "page_index":0,

         "bounding_box":{

            "left":0,

            "top":0,

            "width":1,

            "height":1

         }

      }

   ],

   "sub_type":"CHART",

   "title":"figure title",

   "rai_flag":"APPROVED/REDACTED/REJECTED",

   "reading_order":1,

   "page_indices":[

      0

   ]

}
,
```

這是用於文件圖形和圖表等圖片的實體。與資料表類似，這些圖片將被裁切，並將影像傳送到字首設定的 s3 儲存貯體。此外，您還會收到標題文字的 `sub_type` 和圖片標題回應，以及圖形類型的指示。

```
"pages":[
   {
      "id":"page_id",
      "page_index":0,
      "detected_page_number":1,
      "representation":{
         "text":"document text",
         "html":"document title document content",
         "markdown":"# text"
      },
      "statistics":{
         "element_count":5,
         "table_count":1,
         "figure_count":1,
         "word_count":1000,
         "line_count":32
      },
      "asset_metadata":{
         "rectified_image":"s3://bucket/prefix.png",
         "rectified_image_width_pixels":1700,
         "rectified_image_height_pixels":2200
      }
   }
],
```

我們透過標準輸出擷取的最後一個實體是「頁面」。頁面與文字實體相同，但還包含頁碼 (若在頁面上偵測到頁碼)。

```
"text_lines":[
   {
      "id":"line_id",
      "text":"line text",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
],
```

```
"text_words":[
   {
      "id":"word_id",
      "text":"word text",
      "line_id":"line_id",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
]
```

最後兩個元素適用於個別文字部分。單字層級精細程度會傳回每個單字的回應，而預設輸出只會報告文字行。

------
#### [ Sync ]

本節著重於在文件檔案上執行 API 操作 InvokeDataAutomation 時收到的不同回應物件。以下我們將細分回應物件的每個區段，然後查看範例文件的完整填入回應。我們會收到的第一個區段是 `metadata`。

```
            "metadata": {
                "logical_subdocument_id": "1",
                "semantic_modality": "DOCUMENT",
                "number_of_pages": X,
                "start_page_index": "1",
                "end_page_index": X,
                "file_type": "PDF"
            },
```

上述第一個區段提供與文件相關聯的中繼資料概觀。由於同步 InvokeDataAutomation API 目前不支援文件分割，因此 logical\$1subdocument\$1id 一律等於 1。

```
"document":{
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "description":"document text",
   "summary":"summary text",
   "statistics":{
      "element_count":5,
      "table_count":1,
      "figure_count":1,
      "word_count":1000,
      "line_count":32
   }
},
```

上述區段提供文件層級精細程度資訊。描述和摘要區段是根據文件產生的欄位。表示區段以各種格式樣式提供文件的實際內容。最後，統計資料包含文件實際內容的資訊，例如有多少語意元素、有多少圖片、單字、行等。

注意：與非同步 InvokeDataAutomationAsync 請求不同，同步 InvokeDataAutomation 請求不支援傳回 S3 儲存貯體中資料表的 csv 資訊和裁切影像。

```
{
"id":"entity_id",
   "type":"TEXT",
   "representation":{
"text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "reading_order":2,
   "page_indices":[
      0
   ],
   "locations":[
      {
"page_index":0,
         "bounding_box":{
"left":0.0,
            "top":0.0,
            "width":0.05,
            "height":0.5
         }
      }
   ],
   "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},
```

 這是用於文件中文字的實體，由回應中的 TYPE 行表示。同樣地， 表示法會以不同的格式顯示文字。 reading\$1order 會顯示讀取器在邏輯上看到文字的時間。這是根據相關聯索引鍵和值的語意排序。例如，它會依讀取順序將段落標題與其個別段落建立關聯。page\$1indices 會告訴您文字所在的頁面。接下來是位置資訊，如果回應中啟用了文字邊界框，則會提供文字邊界框。最後是實體子類型。這個子類型提供有關偵測到的文字類型的更詳細資訊。如需子類型的完整清單，請參閱《API 參考》。

```
{
    "id": "entity_id",
    "type": "TABLE",
    "representation": {
        "html": "table.../table",
        "markdown": "| header | ...",
        "text": "header \t header",
        "csv": "header, header, header\n..."
    },
    "headers": ["date", "amount", "description", "total"],
    "reading_order": 3,
    "title": "Title of the table",
    "footers": ["the footers of the table"],
    "page_indices": [0, 1],
    "locations": [{
        "page_index": 0,
        "bounding_box": {
            "left": 0,
            "top": 0,
            "width": 1,
            "height": 1
        }
    }, {
        "page_index": 1,
        "bounding_box": {
            "left": 0,
            "top": 0,
            "width": 1,
            "height": 1
        }
    }]
},
```

這是資料表實體的資訊。CSV 資訊會顯示不同的標頭、頁尾和標題。

```
{

    "id": "entity_id",
    "type": "FIGURE",
    "summary": "",
    "representation": {
        "text": "document text",
        "html": "document title document content",
        "markdown": "# text"
    },

    "locations": [

        {
            "page_index": 0,
            "bounding_box": {
                "left": 0,
                "top": 0,
                "width": 1,
                "height": 1
            }
        }
    ],

    "sub_type": "CHART",
    "title": "figure title",
    "reading_order": 1,
    "page_indices": [
        0
    ]
},
​
```

這是用於文件圖形和圖表等圖片的實體。您會收到標題文字的 `sub_type` 和圖形標題回應，以及其圖形類型的指示。

```
"pages":[
   "pages":[
   {
"id":"page_id",
      "page_index":0,
      "detected_page_number":1,
      "representation":{
"text":"document text",
         "html":"document title document content",
         "markdown":"# text"
      },
      "statistics":{
"element_count":5,
         "table_count":1,
         "figure_count":1,
         "word_count":1000,
         "line_count":32
      },
      "asset_metadata":{
"rectified_image":"s3://bucket/prefix.png",
         "rectified_image_width_pixels":1700,
         "rectified_image_height_pixels":2200
      }
   }
],
```

我們透過標準輸出擷取的最後一個實體是「頁面」。頁面與文字實體相同，但還包含頁碼 (若在頁面上偵測到頁碼)。

```
"text_lines":[
   {
      "id":"line_id",
      "text":"line text",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
],
```

```
"text_words":[
   {
      "id":"word_id",
      "text":"word text",
      "line_id":"line_id",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
]
```

最後兩個元素適用於個別文字部分。單字層級精細程度會傳回每個單字的回應，而預設輸出只會報告文字行。

------

## 其他檔案格式中繼資料 JSON
<a name="output-json-plus"></a>

當您從其他檔案格式旗標收到其他檔案時，您會收到任何擷取之修正影像的 JSON 檔案。BDA 使用單應性變換來把旋轉的影像調整到 90 度。JSON 的範例如下：

```
        "asset_metadata": {
            "rectified_image": "s3://bucket/prefix.png",
            "rectified_image_width_pixels": 1700,
            "rectified_image_height_pixels": 2200,
            "corners": [
                [
                    0.006980135689736235,
                    -0.061692718505859376
                ],
                [
                    1.10847711439684,
                    0.00673927116394043
                ],
                [
                    0.994479346419327,
                    1.050548828125
                ],
                [
                    -0.11249661383904497,
                    0.9942819010416667
                ]
            ]
        }
```

邊角代表偵測到的影像邊角，用來形成文件的單應性矩陣。此單應性矩陣用於在保持影像其他屬性不變的情況下旋轉影像。

# 映像
<a name="bda-ouput-image"></a>

Amazon Bedrock Data Automation (BDA) 功能提供一組可用於影像處理的完整標準輸出，以從影像產生洞見。您可以使用這些洞見來實現各種應用和使用案例，例如內容探索、情境廣告投放和品牌安全。以下概觀說明影像標準輸出中可用的每種操作類型：

## 影像摘要
<a name="image-summarization"></a>

影像摘要會產生影像的描述性字幕。預設會在標準輸出組態中啟用此功能。

## IAB 分類法
<a name="iab-classification"></a>

互動廣告協會 (IAB) 分類會套用標準廣告分類法來分類影像內容。對於預覽版，BDA 將支援 24 個第一層 (L1) 類別和 85 個第二層 (L2) 類別。若要下載 BDA 支援的 IAB 類別清單，請按一下[這裡](samples/iab-taxonomy.zip)。

## 標誌偵測
<a name="image-logo-detection"></a>

此功能可識別影像中的標誌並提供週框方塊資訊，指出影像中每個偵測到標誌的座標，以及可信度分數。此功能預設為不啟用。

## 影像文字偵測
<a name="image-text-detection"></a>

此功能會偵測並擷取影像中以視覺方式顯示的文字，並提供週框方塊資訊，指出影像中每個偵測到文字元素的座標，以及可信度分數。預設會在標準輸出組態中啟用此功能。

## 內容審核
<a name="content-moderation"></a>

內容審核會偵測影像中不適當、不需要或令人反感的內容。對於預覽版，BDA 將支援 7 個審核類別：露骨與非露骨的私密部位裸體及接吻、泳裝或內衣、暴力、藥物和煙草、酒精、仇恨符號。影像中的露骨文字不會標記出來。

 您可以針對文字偵測等相關功能啟用或停用週框方塊和相關聯的可信度分數，以在影像中提供位置座標。根據預設，會啟用影像摘要和影像文字偵測。

## 影像標準輸出
<a name="image-standard-output-example"></a>

以下範例是透過 BDA 處理之影像的標準輸出。每個區段的內容已縮短，並以說明分隔。

```
{
"metadata": {
    "id": "image_123",
    "semantic_modality": "IMAGE",
    "s3_bucket": "my-s3-bucket",
    "s3_prefix": "images/",
    "image_width_pixels": 1920,
    "image_height_pixels": 1080,
    "color_depth": 24,
    "image_encoding": "JPEG"
},
```

回應的第一部分是影像的中繼資料。其中為您提供檔案名稱、編碼類型、s3 儲存貯體位置，以及有關內容的進一步資訊。

```
"image": {
    "summary": "Lively party scene with decorations and supplies",
```

回應的開頭是影像的生成式摘要。

```
    "iab_categories": [
        {
            "id": "iab_12345",
            "type": "IAB",
            "category": "Party Supplies",
            "confidence": 0.9,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 2
        },
        {
            "id": "iab_67890",
            "type": "IAB",
            "category": "Decorations",
            "confidence": 0.8,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 1
        }
    ],
```

接著，我們看到與回應連接的 IAB 類別。這些代表不同類型的廣告分類 (使用標準 IAB 分類法)。每個分類都有可信度分數、taxonomy\$1level 和一般高階類別的 parent\$1name。

```
    "content_moderation": [
        {
            "id": "mod_12345",
            "type": "MODERATION",
            "category": "Drugs & Tobacco Paraphernalia & Use",
            "confidence": 0.7,
            "parent_name": "Drugs & Tobacco",
            "taxonomy_level": 2
        }
    ], 
    ...
```

內容審核包含影像中可能露骨內容的相關資訊。這些都分別具有可信度分數和類別，符合本節稍早討論的內容審核類別。

```
    "text_words": [
        {
            "id": "word_1",
            "text": "lively",
            "confidence": 0.9,
            "line_id": "line_1",
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 50,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 150, "y": 200},
                        {"x": 150, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        },
        ...
```

本節會細分影像中每個偵測到的字詞，包括可信度和影像中的螢幕上位置。其也會使用 `line_id` 來標記字詞所在的行。

```
    "text_lines": [
        {
            "id": "line_1",
            "text": "lively party",
            "confidence": 0.9,
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 200,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 300, "y": 200},
                        {"x": 300, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        }
    ]
},
```

在這裡，系統會在字詞集體行中偵測到字詞，其中包含可信度分數和週框方塊。

```
"statistics": {
    "entity_count": 7,
    "object_count": 3,
    "line_count": 2,
    "word_count": 9
}
}
```

最後，我們有統計資料。這些會細分影像中的所有內容 (包括物件)

# 影片
<a name="bda-ouput-video"></a>

BDA 提供一組標準輸出，用於處理和產生影片的洞見。以下詳細說明每種操作類型：

## 完整影片摘要
<a name="video-summarization"></a>

完整影片摘要會產生整個影片的整體摘要。其中會將影片中呈現的關鍵主題、事件和資訊歸納為簡潔摘要。系統會針對具有描述性對話的內容最佳化完整影片摘要，例如產品概觀、訓練、新聞播報、談話節目和紀錄片。BDA 會嘗試根據完整影片摘要和場景摘要中的音訊訊號 (例如，發言者自我介紹) 或視覺訊號 (例如，簡報投影片會顯示發言者的名稱)，為每個唯一發言者提供名稱。唯一發言者的名稱未經過解析時，將以唯一數字表示 (例如 speaker\$10)。

## 章節摘要
<a name="video-scene-summarization"></a>

影片章節摘要提供影片中個別場景的描述性摘要。影片章節是影片中一系列鏡頭組成的序列，這些鏡頭共同構成一個連貫的動作或敘述單元。此功能會根據視覺和音訊提示，將影片細分為有意義的區段、提供那些區段的時間戳記，以及為每個區段提供總結。

## IAB 分類法
<a name="video-iab-classification"></a>

互動廣告協會 (IAB) 分類會套用標準廣告分類法，根據視覺和音訊元素將影片場景分類。對於預覽版，BDA 將支援 24 個第一層 (L1) 類別和 85 個第二層 (L2) 類別。若要下載 BDA 支援的 IAB 類別清單，請按一下[這裡](samples/iab-taxonomy.zip)。

## 完整音訊轉錄
<a name="full-audio-transcript"></a>

完整的音訊轉錄功能提供音訊檔案中所有語音的完整文字表示。其使用進階語音辨識技術來準確轉錄對話、敘述和其他音訊元素。轉錄包含發言者識別，可讓您根據發言者輕鬆瀏覽和搜尋音訊內容。

## 影片中的文字
<a name="text-in-video"></a>

此功能會偵測與擷取影片中以視覺效果顯示的文字。其可以同時識別靜態文字 (例如標題或字幕) 和動態文字 (例如在圖形中移動文字)。內容審核與影像文字偵測類似，會為每個偵測到的文字元素提供週框方塊資訊，讓您在影片影格內進行精確的當地語系化。

## 標誌偵測
<a name="video-logo-detection"></a>

此功能可識別影片中的標誌並提供週框方塊資訊，指出影片影格中每個偵測到標誌的座標，以及可信度分數。此功能預設為不啟用。

## 內容審核
<a name="video-content-moderation"></a>

內容審核會偵測影片中不適當、不需要或令人反感的內容。BDA 支援 7 個審核類別：露骨與非露骨的私密部位裸體及接吻、泳裝或內衣、暴力、藥物和煙草、酒精、仇恨符號。影片中的露骨文字不會標記出來。

您可以針對文字偵測等相關功能啟用或停用週框方塊和相關聯的可信度分數，以在影片檔案中提供位置座標和時間戳記。預設會啟用完整影片摘要、場景摘要和影片文字偵測。

**注意**  
 每個影片僅支援一個音軌。不支援字幕檔案格式 (例如 SRT、VTT 等)。

## 影片標準輸出
<a name="video-standard-output"></a>

以下範例是透過 BDA 處理之影片的標準輸出：

```
{
"metadata": {
    "asset_id": "0",
    "semantic_modality": "VIDEO",
    "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1",
    "s3_key": "demo-assets/Video/MakingTheCut.mp4",
    "format": "QuickTime / MOV",
    "frame_rate": 30,
    "codec": "h264",
    "duration_millis": 378233,
    "frame_width": 852,
    "frame_height": 480
  },
```

此初始區段說明有關影片的中繼資料資訊。其中包括儲存貯體位置、格式、影格率和其他關鍵資訊。

```
"shots": [ ...

    {
      "shot_index": 3,
      "start_timecode_smpte": "00:00:08:19",
      "end_timecode_smpte": "00:00:09:25",
      "start_timestamp_millis": 8633,
      "end_timestamp_millis": 9833,
      "start_frame_index": 259,
      "end_frame_index": 295,
      "duration_smpte": "00:00:01:06",
      "duration_millis": 1200,
      "duration_frames": 36,
      "confidence": 0.9956437242589935,
      "chapter_indices": [
        1
      ]
    },
```

這是回應中鏡頭元素的範例。鏡頭代表影片的一小部分，通常與影片中的剪輯相關聯。鏡頭包含開始和結束元素，還有 chapter\$1indicies 元素。此元素指出鏡頭所屬之影片較大區段 (稱為章節)。

```
"chapters": [
    {
      "start_timecode_smpte": "00:00:00:00",
      "end_timecode_smpte": "00:00:08:18",
      "start_timestamp_millis": 0,
      "end_timestamp_millis": 8600,
      "start_frame_index": 0,
      "end_frame_index": 258,
      "duration_millis": 8600,
      "shot_indices": [
        0,
        1,
        2
      ],
      "summary": "At an elegant outdoor venue, a man in a suit and a woman in a patterned dress stand on a raised platform overlooking a reflective pool. The setting is adorned with palm trees and lush greenery, creating a tropical atmosphere. The man initiates the event by asking if they should begin, to which the woman responds affirmatively. As the scene progresses, the focus shifts to a woman wearing a distinctive black and white patterned coat, her hair styled in a bun. She stands alone in a dimly lit room, facing away from the camera. The narrative then moves to a formal setting where a man in a dark suit stands before a curtain backdrop, suggesting he may be about to address an audience or perform. The scene concludes with a view of the entire venue, showcasing its tropical charm with a swimming pool surrounded by palm trees and decorative lighting, indicating it's prepared for a special occasion.",
```

章節是影片的較大片段。然後包含開始和結束資訊 (例如鏡頭)，以及 shot\$1indicies 元素。shot\$1indicies 會告訴您哪些鏡頭屬於某個章節。最後，摘要元素會提供章節內容的產生摘要。

```
 "frames": [...
         {
          "timecode_smpte": "00:00:03:15",
          "timestamp_millis": 3500,
          "frame_index": 105,
          "content_moderation": [],
          "text_words": [
            {
              "id": "266db64a-a7dc-463c-b710-7a178a2cc4cc",
              "type": "TEXT_WORD",
              "confidence": 0.99844897,
              "text": "ANDREA",
              "locations": [
                {
                  "bounding_box": {
                    "left": 0.1056338,
                    "top": 0.7363281,
                    "width": 0.19806337,
                    "height": 0.068359375
                  },
                  "polygon": [
                    {
                      "x": 0.1056338,
                      "y": 0.7363281
                    },
                    {
                      "x": 0.30369717,
                      "y": 0.7363281
                    },
                    {
                      "x": 0.30369717,
                      "y": 0.8046875
                    },
                    {
                      "x": 0.1056338,
                      "y": 0.8046875
                    }
                  ]
                }
              ],
              "line_id": "57b760fc-c410-418e-aee3-7c7ba58a71c2"
            },
```

影片的最小精細程度是影格，代表影片中的單一影像。影格有兩個值得注意的回應元素：content\$1moderation 和 text\$1words。第一個元素 content\$1moderation 會根據偵測到影格內容的內容審核類別，為您提供相關資訊。第二個元素 text\$1words 會提供影片中出現任何文字的位置和資訊，例如隱藏式字幕。

```
    "statistics": {
    "shot_count": 148,
    "chapter_count": 11,
    "speaker_count": 11
  }
}
```

最後，統計資料會提供與偵測資訊有關的明細，例如特定影片中有多少鏡頭、發言者和章節。

# 音訊
<a name="audio-processing"></a>

Amazon Bedrock Data Automation (BDA) 功能提供一組標準輸出，用於處理和產生音訊檔案的洞見。以下詳細說明每種操作類型：

## 完整音訊摘要
<a name="audio-audio-summarization"></a>

完整音訊摘要會產生整個音訊檔案的整體摘要。其中會將音訊中呈現的關鍵主題、事件和資訊歸納為簡潔摘要。

## 完整音訊轉錄
<a name="audio-audio-transcript"></a>

完整音訊轉錄功能可提供音訊中所有口語內容的完整文字表示。其使用進階語音辨識技術來準確轉錄對話、敘述和其他音訊元素。轉錄包含時間戳記，可讓您根據口語單字輕鬆導覽和搜尋音訊內容。

### 發言者和聲道標籤
<a name="w2aac28b8c11c13b5b3b7"></a>

您可以為產生的轉錄稿啟用聲道和/或發言者標籤功能。這樣一來，每個聲道或發言者都會被賦予編號，然後在轉錄稿中標明何時使用了某個聲道以及何時是哪個發言者在發言。此標籤會在回應中顯示為「spk\$1」，後面接著每個發言者的唯一號碼，最多 30 個發言者。第一個發言者為「spk\$10」、「spk\$11」等。音訊聲道的顯示方式類似，第一個聲道標記為「ch\$10」，但只能標記兩個聲道。

## 主題摘要
<a name="audio-topic-summary"></a>

音訊主題摘要會將音訊檔案分成名為主題的區段，並加以摘要以提供金鑰資訊。這些主題會獲得時間戳記，以協助將其整體放在音訊檔案中。此功能預設為不啟用。

## 內容審核
<a name="audio-content-moderation"></a>

內容審核使用音訊和文字線索來識別和分類語音類有害內容，將其分為七種不同的類別：
+ ****褻瀆****：包含不禮貌、粗俗或冒犯性的單字、片語或縮寫的語言。
+ ****仇恨言論****：因身份 (例如種族、民族、性別、宗教、性取向、能力和國籍) 而批評、侮辱、譴責或做出非人性化的言論。
+  ****性暗示****：使用直接或間接引用身體部位、身體特徵或性別，表現出性興趣、活動或激起性欲的語言。
+ ****侮辱****：包括貶低、羞辱、嘲笑、侮辱或貶低的言語。這種類型的語言也被標記為霸凌。
+ ****暴力或威脅****：包括試圖對個人或團體造成痛苦、傷害或敵意的威脅性言論。
+ ****圖形****：使用視覺描述和令人不愉快的生動圖像式的語言。這種類型的語言通常故意拖長，以延長收件人的不適感。
+ ****騷擾或辱罵****：目的式影響收件人心理健康的言論，包括貶低和客觀性的術語。這種語言也被標記為騷擾。

## 音訊標準輸出
<a name="audio-standard-output-example"></a>

本節著重於您在音訊檔案上執行 API 操作 InvokeDataAutomation 時收到的不同回應物件。以下我們將細分回應物件的每個區段，然後查看範例文件的完整填入回應。我們會收到的第一個區段是 `metadata`。

```
 "metadata": {
    "asset_id": "0",
    "semantic_modality": "AUDIO",
    "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1",
    "s3_key": "demo-assets/Audio/AWS_TCA-Call-Recording-2.wav",
    "sample_rate": 8000,
    "bitrate": 256000,
    "number_of_channels": 2,
    "codec": "pcm_s16le",
    "duration_millis": 237560,
    "format": "wav",
    "dominant_asset_language": "EN",
    "generative_output_language": "DEFAULT/EN"
  }
```

本節會細分檔案的相關資訊，例如其 s3 位置、位元速率、音訊聲道和格式。接下來，我們來看 `audio_items`。

`dominant_asset_language` 根據以秒為單位的長度，初始化音訊中最有的語言。 `generative_output_language` 指出回應輸出將使用的語言。設為「DEFAULT」時，將使用主要語言。

```
"audio_items": [
    {
      "item_index": 0,
      "audio_segment_index": 0,
      "content": "Auto",
      "start_timestamp_millis": 9,
      "end_timestamp_millis": 119
    },
    ...
]
```

項目區段包含以音效為基礎的音訊檔案明細。每個項目通常與單字長度有關。item\$1index 表示項目在 audio\$1items 索引中的位置，而 audio\$1segment\$1index 表示它在段落索引中的位置，下一節我們會討論這個主題。

```
"audio_segments": [
    {
      "start_timestamp_millis": 0,
      "end_timestamp_millis": 1970,
      "segment_index": 0,
      "type": "TRANSCRIPT",
      "text": "Auto sales, Cherry speaking. How can I help you?",
      "speaker": {
        "speaker_label": "spk_0"
      },
      "channel": {
        "channel_label": "ch_0"
      },
      "audio_item_indices": [
        0,
        1,
        2,
        3,
        4,
        5,
        6,
        7,
        8,
        9,
        10,
        11
      ],
      "language": "EN"
    },
    ...
]
```

在這裡，我們會根據較長的時間跨度對檔案進行細分，每個段落大約等於一個句子。它告訴我們每個段落中包含哪些音訊項目，以及段落本身的文字。接下來，我們來看看內容審核。

啟用發言者和聲道標記後，您會看到 `speaker_label` 和 `channel_label` 區段，指出此段落中存在的發言者和聲道。

```
"content_moderation": [
      {
        "id": "93068e72-290d-4aad-8717-a2cd0e02b0d0",
        "type": "AUDIO_MODERATION",
        "confidence": 0.0476,
        "start_timestamp_millis": 0,
        "end_timestamp_millis": 1970,
        "moderation_categories": [
          {
            "category": "profanity",
            "confidence": 0.1582
          },
          ...
        ]
      },
      ...
]
```

內容審核段落會逐一查看每個個別段落，並根據七個審核類別進行分析，為每個段落提供可信度分數。我們的下一節是主題。

```
"topics": [
    {
      "topic_index": 0,
      "start_timestamp_millis": 0,
      "end_timestamp_millis": 36790,
      "summary": "As follows:\n\nSuzanne, a customer, recently had her Hyundai serviced at the auto sales shop where Carrie works. Suzanne had a 3 p.m. appointment and got her car serviced, which included an oil change and filter changes. However, when Suzanne left the shop, her oil light was still on, which she found concerning. Carrie acknowledged that this sometimes happens, even after a service visit, and assured Suzanne that she would look into the issue further.",
      "transcript": {
        "representation": {
          "text": "Auto sales, Cherry speaking. How can I help you? Yeah, hi Carrie, um, my name is Suzanne. I literally just left your shop. Um, I just went in and got my Hyundai service. Um, it just was, it just needed like filter error changes oil change and all that kind of stuff, um, but. When I left and my oil light is still on and I don't know why. Got it. You just got it serviced here, but when you drove off the light was still on. Is that what happened? Yeah, yeah, yeah, like I literally like I had a 3 p.m. appointment and I just got it, you know, believe it or not, this, this happens."
        }
      },
      "audio_segment_indices": [
        0,
        1,
        2,
        3,
        4,
        5,
        6,
        7,
        8,
        9,
        10
      ]
    },
    ...
]
```

主題區段是比段落更精細的層級。這些段落分組，大致上按概念劃分。每個主題都隨附主題的產生摘要，以及主題的確切測試。回應的最後一部分是統計資料。

```
 "statistics": {
    "word_count": 749,
    "topic_count": 4
  }
```

本區段摘要說明音訊檔案的相關資訊。這包括單字計數和總主題。