

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# Bedrock Data Automation の標準出力
<a name="bda-standard-output"></a>

標準出力は、 Amazon Bedrock データオートメーション (BDA) を操作するデフォルトの方法です。ブループリントやプロジェクトが確立されていない状態でドキュメントを BDA API に渡すと、そのファイルタイプのデフォルトの標準出力が返されます。標準出力は、各データ型の設定情報を保存するプロジェクトを使用して変更できます。各プロジェクトのデータ型ごとに 1 つの標準出力を設定できます。BDA は、カスタム出力レスポンスと連携する場合でも、常に標準出力レスポンスを提供します。

各データ型の標準出力オプションはさまざまです。これらのオプションの一部は、デフォルトの Bedrock Data Automation レスポンスの一部ですが、プロジェクトでデータ型を操作するためのトグルとしてのみ存在するものもあります。以降のセクションでは、各データ型に固有のレスポンスオプションについて説明し、デフォルトとオプションの両方を提供します。

# ドキュメント
<a name="bda-output-documents"></a>

ドキュメントの標準出力では、関心のあるレスポンスの詳細度を設定し、出力に出力形式とテキスト形式を確立できます。有効にできる出力の一部を以下に示します。

**注記**  
BDA は DOCX ファイルを処理できます。DOCX ファイルを処理するために、ファイルは PDF に変換されます。つまり、ページ番号マッピングは DOCX ファイルには機能しません。JSON\$1 オプションとページの詳細度が選択されている場合、変換された PDF のイメージが出力バケットにアップロードされます。

## レスポンスの詳細度
<a name="document-granularity"></a>

レスポンスの詳細度によって、ドキュメントテキスト抽出から受け取るレスポンスの種類が決まります。詳細度の各レベルは、多くの個別のレスポンスを提供し、ページはすべてのテキストをまとめて抽出し、単語は各単語を個別のレスポンスとして提供します。使用可能な詳細度レベルは次のとおりです。
+ ページレベルの詳細度 – これはデフォルトで有効になっています。ページレベルの詳細度は、選択したテキスト出力形式でドキュメントの各ページを提供します。PDF を処理する場合、このレベルの詳細度を有効にすると、埋め込まれたハイパーリンクが検出されて返されます。
+ 要素レベルの詳細度 (レイアウト) – これはデフォルトで有効になっています。ドキュメントのテキストを任意の出力形式で、さまざまな要素に分割して提供します。図、表、段落などの要素。これらは、ドキュメントの構造に基づいて論理的な読み取り順序で返されます。PDF を処理する場合、このレベルの詳細度を有効にすると、埋め込まれたハイパーリンクが検出されて返されます。
+ 単語レベルの詳細度 – より広範なコンテキスト分析を使用せずに、個々の単語に関する情報を提供します。各単語とその場所がページに表示されます。

## 出力設定
<a name="document-output-settings"></a>

出力設定により、ダウンロードした結果の構造が決まります。この設定はコンソール専用です。出力設定のオプションは次のとおりです。
+ JSON – ドキュメント分析のデフォルトの出力構造。設定からの情報を含む JSON 出力ファイルを提供します。
  + 非同期 [InvokeDataAutomationAsync](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_data-automation-runtime_InvokeDataAutomationAsync.html) API: 非同期 API の JSON 出力は S3 のみです。
  + Sync [InvokeDataAutomation](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_data-automation-runtime_InvokeDataAutomation.html) API: JSON 出力は、 を活用して S3 またはインラインに設定できます`outputconfiguration`。S3 が選択されている場合、出力 JSON は S3 のみになります (インラインではありません）。S3 が指定されていない場合、Sync API 出力は JSON インラインのみをサポートします。
+ JSON\$1files – 非同期 [InvokeDataAutomationAsync](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_data-automation-runtime_InvokeDataAutomationAsync.html) API でのみ使用できます。この設定を使用すると、JSON 出力と、異なる出力に対応するファイルの両方が生成されます。例えば、この設定ではテキスト抽出全体のテキストファイル、構造マークダウンを含むテキストのマークダウンファイル、およびテキストに含まれる各テーブルの CSV ファイルが提供されます。ドキュメント内の図は、図のトリミングと修正されたイメージとともに保存されます。また、DOCX ファイルを処理していて、このオプションを選択した場合、DOCX ファイルの変換された PDF が出力フォルダにあります。これらの出力は、出力フォルダの `standard_output/logical_doc_id/assets/` にあります。

**注記**  
同期 API は、JSON 以外の追加のファイルを出力しません。出力 JSON には、標準出力テキスト形式の一部として選択されたテキスト形式のみが含まれます。Sync API は Figure クロップまたは修正済みイメージを出力しません。
DocX は Sync API ではサポートされていません。

## テキスト形式
<a name="document-text-format"></a>

テキスト形式は、さまざまな抽出オペレーションを介して提供されるさまざまな種類のテキストを特定します。テキスト形式には、次のオプションをいくつでも選択できます。
+ プレーンテキスト – この設定では、フォーマットやその他のマークダウン要素に留意せずに、テキストのみの出力を提供します。
+ マークダウン付きのテキスト – 標準出力のデフォルトの出力設定。マークダウン要素が統合されたテキストを提供します。
+ HTML を使用したテキスト – レスポンスに統合された HTML 要素を含むテキストを提供します。
+ CSV – ドキュメント内のテーブルの CSV 構造化出力を提供します。この設定では、ドキュメントの他の要素ではなく、テーブルに対してのみレスポンスが提供されます。

## 境界ボックスと生成フィールド
<a name="additional-response-document"></a>

ドキュメントには、選択した詳細度に基づいて出力を変更する 2 つのレスポンスオプションがあります。「境界ボックス」と「生成フィールド」です。「境界ボックス」を選択すると、コンソールレスポンスのドロップダウンでクリックした要素または単語の視覚的な概要が表示されます。これにより、レスポンスの特定要素をより簡単に追跡できます。「境界ボックス」は、JSON でボックスの 4 つのコーナーの座標として返されます。

「生成フィールド」を選択すると、10 単語バージョンと 250 単語バージョンの両方でドキュメントの概要が生成されます。次に、要素をレスポンスの詳細度として選択すると、ドキュメント内で検出された各図のわかりやすいキャプションが生成されます。図には、チャート、グラフ、イメージなどがあります。

------
#### [ Async ]

このセクションでは、ドキュメントファイルで API オペレーション InvokeDataAutomationAsync を実行することで受け取るさまざまなレスポンスオブジェクトに焦点を当てます。以下に、レスポンスオブジェクトの各セクションを分類し、サンプルドキュメントの完全な入力済みレスポンスを示します。最初に受け取るセクションは `metadata` です。

```
"metadata":{
   "logical_subdocument_id":"XXXX-XXXX-XXXX-XXXX",
   "semantic_modality":"DOCUMENT",
   "s3_bucket":"bucket",
   "s3_prefix":"prefix"
},
```

上記の最初のセクションでは、ドキュメントに関連付けられたメタデータの概要を示します。このセクションでは、S3 情報に加えて、レスポンスにどのモダリティが選択されたかついても説明します。

```
"document":{
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "description":"document text",
   "summary":"summary text",
   "statistics":{
      "element_count":5,
      "table_count":1,
      "figure_count":1,
      "word_count":1000,
      "line_count":32
   }
},
```

上記のセクションでは、ドキュメントレベルの詳細度情報を提供します。説明セクションと概要セクションは、ドキュメントに基づいて生成されたフィールドです。表現セクションは、ドキュメントの実際のコンテンツをさまざまなフォーマットスタイルで提供します。最後に、統計には、セマンティック要素の数、図、単語、行の数など、ドキュメントの実際のコンテンツに関する情報が含まれます。

これはテーブルエンティティに関する情報です。InvokeDataAutomationAsync (非同期) リクエストでは、位置情報、さまざまな形式のテキスト、テーブル、および読み取り順序に加えて、S3 バケット内のテーブルの csv 情報とトリミングされたイメージを特に返します。CSV 情報には、さまざまなヘッダー、フッター、タイトルが示されます。イメージは、InvokeDataAutomationAsync リクエストで設定されたプレフィックスの s3 バケットにルーティングされます。InvokeDataAutomation (同期) リクエストでは、S3 バケット内のテーブルの csv およびトリミングされたイメージはサポートされていません。

PDF を処理すると、レスポンスの統計セクションに、ドキュメント内に存在するハイパーリンクの数を示す `hyperlinks_count` も含まれます。

```
{
   "id":"entity_id",
   "type":"TEXT",
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "reading_order":2,
   "page_indices":[
      0
   ],
   "locations":[
      {
         "page_index":0,
         "bounding_box":{
            "left":0.0,
            "top":0.0,
            "width":0.05,
            "height":0.5
         }
      }
   ],
   "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},
```

これは、レスポンスの `TYPE` 行で示される、ドキュメント内のテキストに使用されるエンティティです。ここでも表現は、テキストをさまざまなフォーマットで示します。`reading_order` は、読者がテキストを論理的に見る時期を示します。これは、関連するキーと値に基づくセマンティック順序です。例えば、段落のタイトルをそれぞれの段落に読み取り順に関連付けます。`page_indices` は、テキストがどのページにあるかを示します。次は位置情報です。レスポンスで有効になっていた場合は、テキスト境界ボックスが表示されます。最後に、エンティティサブタイプがあります。このサブタイプは、検出されたテキストの種類に関するより詳細な情報を提供します。サブタイプの完全な一覧については、「API リファレンス」を参照してください。

```
{
   "id":"entity_id",
   "type":"TABLE",
   "representation":{
      "html":"table.../table",
      "markdown":"| header | ...",
      "text":"header \t header",
      "csv":"header, header, header\n..."
   },
   "csv_s3_uri":"s3://",
   "headers":[
      "date",
      "amount",
      "description",
      "total"
   ],
   "reading_order":3,
   "title":"Title of the table",
   "footers":[
      "the footers of the table"
   ],
   "crop_images":[
      "s3://bucket/prefix.png",
      "s3://bucket/prefix.png"
   ],
   "page_indices":[
      0,
      1
   ],
   "locations":[
      {
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      },
      {
         "page_index":1,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   ],
   "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},
```

これはテーブルエンティティに関する情報です。位置情報、テキスト、テーブル、読み取り順序のさまざまな形式に加えて、S3 バケット内のテーブルの csv 情報とトリミングされたイメージを特に返します。CSV 情報には、さまざまなヘッダー、フッター、タイトルが示されます。イメージは、InvokeDataAutomation リクエストで設定されたプレフィックスの s3 バケットにルーティングされます。

```
{

   "id":"entity_id",

   "type":"FIGURE",

   "summary":"",

   "representation":{

      "text":"document text",

      "html":"document title document content",

      "markdown":"# text"

   },

   "crop_images":[

      "s3://bucket/prefix.png",

      "s3://bucket/prefix.png"

   ],

   "locations":[

      {

         "page_index":0,

         "bounding_box":{

            "left":0,

            "top":0,

            "width":1,

            "height":1

         }

      }

   ],

   "sub_type":"CHART",

   "title":"figure title",

   "rai_flag":"APPROVED/REDACTED/REJECTED",

   "reading_order":1,

   "page_indices":[

      0

   ]

}
,
```

これは、ドキュメントのグラフやチャートなどの図に使用されるエンティティです。テーブルと同様に、これらの数値はトリミングされ、イメージはプレフィックスに設定された s3 バケットに送信されます。さらに、タイトルテキストの `sub_type` と図タイトルのレスポンスが返され、それがどのような図であるかを示されます。

```
"pages":[
   {
      "id":"page_id",
      "page_index":0,
      "detected_page_number":1,
      "representation":{
         "text":"document text",
         "html":"document title document content",
         "markdown":"# text"
      },
      "statistics":{
         "element_count":5,
         "table_count":1,
         "figure_count":1,
         "word_count":1000,
         "line_count":32
      },
      "asset_metadata":{
         "rectified_image":"s3://bucket/prefix.png",
         "rectified_image_width_pixels":1700,
         "rectified_image_height_pixels":2200
      }
   }
],
```

標準出力で抽出するエンティティの最後はページです。「ページ」は「テキスト」エンティティと同じですが、さらにページ番号が含まれ、検出されたページ番号がページに表示されます。

```
"text_lines":[
   {
      "id":"line_id",
      "text":"line text",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
],
```

```
"text_words":[
   {
      "id":"word_id",
      "text":"word text",
      "line_id":"line_id",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
]
```

これらの最後の 2 つの要素は、個々のテキスト部用です。単語レベルの詳細度では各単語のレスポンスが返されますが、デフォルトの出力ではテキスト行のみが報告されます。

------
#### [ Sync ]

このセクションでは、ドキュメントファイルで API オペレーション InvokeDataAutomation を実行することで受け取る、さまざまなレスポンスオブジェクトに焦点を当てます。以下に、レスポンスオブジェクトの各セクションを分類し、サンプルドキュメントの完全な入力済みレスポンスを示します。最初に受け取るセクションは `metadata` です。

```
            "metadata": {
                "logical_subdocument_id": "1",
                "semantic_modality": "DOCUMENT",
                "number_of_pages": X,
                "start_page_index": "1",
                "end_page_index": X,
                "file_type": "PDF"
            },
```

上記の最初のセクションでは、ドキュメントに関連付けられたメタデータの概要を示します。Synchronous InvokeDataAutomation API は現在ドキュメント分割をサポートしていないため、logical\$1subdocument\$1id は常に 1 に等しくなります。

```
"document":{
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "description":"document text",
   "summary":"summary text",
   "statistics":{
      "element_count":5,
      "table_count":1,
      "figure_count":1,
      "word_count":1000,
      "line_count":32
   }
},
```

上記のセクションでは、ドキュメントレベルの詳細度情報を提供します。説明セクションと概要セクションは、ドキュメントに基づいて生成されたフィールドです。表現セクションは、ドキュメントの実際のコンテンツをさまざまなフォーマットスタイルで提供します。最後に、統計には、セマンティック要素の数、図、単語、行の数など、ドキュメントの実際のコンテンツに関する情報が含まれます。

注: 非同期 InvokeDataAutomationAsync リクエストとは異なり、同期 InvokeDataAutomation リクエストは、S3 バケット内のテーブルの csv 情報とトリミングされたイメージの返しをサポートしていません。

```
{
"id":"entity_id",
   "type":"TEXT",
   "representation":{
"text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "reading_order":2,
   "page_indices":[
      0
   ],
   "locations":[
      {
"page_index":0,
         "bounding_box":{
"left":0.0,
            "top":0.0,
            "width":0.05,
            "height":0.5
         }
      }
   ],
   "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},
```

 これはドキュメント内のテキストに使用されるエンティティで、レスポンスの TYPE 行で示されます。ここでも表現はテキストをさまざまな形式で示します。 reading\$1order は、読者がテキストを論理的に見るタイミングを示します。これは、関連するキーと値に基づくセマンティック順序です。たとえば、段落のタイトルをそれぞれの段落に読み上げ順に関連付けます。 page\$1indices は、テキストがどのページにあるかを示します。次は位置情報です。レスポンスで有効になっていた場合は、テキスト境界ボックスが表示されます。最後に、エンティティサブタイプがあります。このサブタイプは、検出されたテキストの種類に関するより詳細な情報を提供します。サブタイプの完全な一覧については、「API リファレンス」を参照してください。

```
{
    "id": "entity_id",
    "type": "TABLE",
    "representation": {
        "html": "table.../table",
        "markdown": "| header | ...",
        "text": "header \t header",
        "csv": "header, header, header\n..."
    },
    "headers": ["date", "amount", "description", "total"],
    "reading_order": 3,
    "title": "Title of the table",
    "footers": ["the footers of the table"],
    "page_indices": [0, 1],
    "locations": [{
        "page_index": 0,
        "bounding_box": {
            "left": 0,
            "top": 0,
            "width": 1,
            "height": 1
        }
    }, {
        "page_index": 1,
        "bounding_box": {
            "left": 0,
            "top": 0,
            "width": 1,
            "height": 1
        }
    }]
},
```

これはテーブルエンティティに関する情報です。CSV 情報には、さまざまなヘッダー、フッター、タイトルが示されます。

```
{

    "id": "entity_id",
    "type": "FIGURE",
    "summary": "",
    "representation": {
        "text": "document text",
        "html": "document title document content",
        "markdown": "# text"
    },

    "locations": [

        {
            "page_index": 0,
            "bounding_box": {
                "left": 0,
                "top": 0,
                "width": 1,
                "height": 1
            }
        }
    ],

    "sub_type": "CHART",
    "title": "figure title",
    "reading_order": 1,
    "page_indices": [
        0
    ]
},
​
```

これは、ドキュメントのグラフやチャートなどの図に使用されるエンティティです。タイトルテキストの `sub_type`とフィギュアタイトルレスポンスが表示され、どのようなフィギュアであるかが示されます。

```
"pages":[
   "pages":[
   {
"id":"page_id",
      "page_index":0,
      "detected_page_number":1,
      "representation":{
"text":"document text",
         "html":"document title document content",
         "markdown":"# text"
      },
      "statistics":{
"element_count":5,
         "table_count":1,
         "figure_count":1,
         "word_count":1000,
         "line_count":32
      },
      "asset_metadata":{
"rectified_image":"s3://bucket/prefix.png",
         "rectified_image_width_pixels":1700,
         "rectified_image_height_pixels":2200
      }
   }
],
```

標準出力で抽出するエンティティの最後はページです。「ページ」は「テキスト」エンティティと同じですが、さらにページ番号が含まれ、検出されたページ番号がページに表示されます。

```
"text_lines":[
   {
      "id":"line_id",
      "text":"line text",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
],
```

```
"text_words":[
   {
      "id":"word_id",
      "text":"word text",
      "line_id":"line_id",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
]
```

これらの最後の 2 つの要素は、個々のテキスト部用です。単語レベルの詳細度では各単語のレスポンスが返されますが、デフォルトの出力ではテキスト行のみが報告されます。

------

## 追加のファイル形式のメタデータ JSON
<a name="output-json-plus"></a>

追加のファイル形式フラグから追加のファイルを受け取ると、抽出された修正済みイメージの JSON ファイルを取得します。「BDA」は、ホモグラフィを使用してイメージを 90 度の角度に回転させることで、回転されたイメージを修正します。JSON の例を以下に示します。

```
        "asset_metadata": {
            "rectified_image": "s3://bucket/prefix.png",
            "rectified_image_width_pixels": 1700,
            "rectified_image_height_pixels": 2200,
            "corners": [
                [
                    0.006980135689736235,
                    -0.061692718505859376
                ],
                [
                    1.10847711439684,
                    0.00673927116394043
                ],
                [
                    0.994479346419327,
                    1.050548828125
                ],
                [
                    -0.11249661383904497,
                    0.9942819010416667
                ]
            ]
        }
```

「コーナー」は、イメージで検出されたコーナーを表し、ドキュメントのホモグラフィを形成するために使用されます。このホモグラフィは、他のプロパティを維持しながらイメージを回転させるために使用されます。

# イメージ
<a name="bda-ouput-image"></a>

Amazon Bedrock Data Automation (BDA) 機能は、画像処理を行って画像からインサイトを生成するための包括的な標準出力のセットを提供します。このインサイトを使用すると、コンテンツ検出、コンテキストに応じた広告配置、ブランドの安全性など、幅広いアプリケーションやユースケースを実現できます。画像の標準出力の一部として使用できる各オペレーションタイプの概要を次に示します。

## 画像概要
<a name="image-summarization"></a>

画像概要により、画像のわかりやすいキャプションを生成します。この機能は、標準出力設定内でデフォルトで有効になっています。

## IAB 分類
<a name="iab-classification"></a>

Interactive Advertising Bureau (IAB) 分類により、標準の広告分類を適用して画像コンテンツを分類します。プレビューでは、BDA は 24 のトップレベル (L1) カテゴリと 85 のセカンドレベル (L2) カテゴリをサポートします。BDA でサポートされている IAB カテゴリのリストをダウンロードするには、[ここ](samples/iab-taxonomy.zip)をクリックしてください。

## ロゴ検出
<a name="image-logo-detection"></a>

この機能により、画像内のロゴを識別し、画像内で検出された各ロゴの座標を示す境界ボックス情報と信頼度スコアを提供します。この機能は、デフォルトでは有効になっていません。

## 画像テキスト検出
<a name="image-text-detection"></a>

この機能により、画像に視覚的に表示されるテキストを検出して抽出し、画像内で検出された各テキスト要素の座標を示す境界ボックス情報と信頼度スコアを提供します。この機能は、標準出力設定内でデフォルトで有効になっています。

## コンテンツモデレーション
<a name="content-moderation"></a>

コンテンツモデレーションにより、画像内の不適切なコンテンツ、望ましくないコンテンツ、または不快なコンテンツを検出します。プレビューでは、BDA は、露骨な描写、局部を含む控えめなヌードやキスの描写、水着または下着、暴力、薬物とタバコ、アルコール、ヘイトシンボルという 7 つのモデレーションカテゴリをサポートします。画像内の露骨なテキストにはフラグが付けられません。

 境界ボックスと関連する信頼度スコアは、テキスト検出など、画像内の位置座標を提供する関連機能で有効または無効にすることができます。デフォルトでは、画像概要と画像テキスト検出が有効になっています。

## 画像の標準出力
<a name="image-standard-output-example"></a>

BDA で処理された画像の標準出力の例を次に示します。各セクションは短縮され、説明で区切られています。

```
{
"metadata": {
    "id": "image_123",
    "semantic_modality": "IMAGE",
    "s3_bucket": "my-s3-bucket",
    "s3_prefix": "images/",
    "image_width_pixels": 1920,
    "image_height_pixels": 1080,
    "color_depth": 24,
    "image_encoding": "JPEG"
},
```

レスポンスの最初の部分は、画像のメタデータです。これは、ファイル名、エンコードタイプ、S3 バケットの場所、コンテンツに関する詳細情報を提供します。

```
"image": {
    "summary": "Lively party scene with decorations and supplies",
```

レスポンスの先頭にあるのは、画像の生成概要です。

```
    "iab_categories": [
        {
            "id": "iab_12345",
            "type": "IAB",
            "category": "Party Supplies",
            "confidence": 0.9,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 2
        },
        {
            "id": "iab_67890",
            "type": "IAB",
            "category": "Decorations",
            "confidence": 0.8,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 1
        }
    ],
```

次に、レスポンスにアタッチされた IAB カテゴリがあります。これらは、標準の IAB 分類を使用した、さまざまなタイプの広告分類を表します。各カテゴリに、信頼度スコア、taxonomy\$1level、一般的な上位カテゴリを示す parent\$1name があります。

```
    "content_moderation": [
        {
            "id": "mod_12345",
            "type": "MODERATION",
            "category": "Drugs & Tobacco Paraphernalia & Use",
            "confidence": 0.7,
            "parent_name": "Drugs & Tobacco",
            "taxonomy_level": 2
        }
    ], 
    ...
```

コンテンツモデレーションには、画像内の露骨であると考えられるコンテンツに関する情報が含まれます。これらにはそれぞれ信頼度スコアとカテゴリがあり、このセクションで前述したコンテンツモデレーションカテゴリと一致しています。

```
    "text_words": [
        {
            "id": "word_1",
            "text": "lively",
            "confidence": 0.9,
            "line_id": "line_1",
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 50,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 150, "y": 200},
                        {"x": 150, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        },
        ...
```

このセクションは、信頼度や画像内の画面上の位置など、画像内で検出された各単語の明細を示します。また、`line_id` を使用して、単語がある行にフラグが付けられます。

```
    "text_lines": [
        {
            "id": "line_1",
            "text": "lively party",
            "confidence": 0.9,
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 200,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 300, "y": 200},
                        {"x": 300, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        }
    ]
},
```

ここでは、複数の単語が 1 行単位でまとめて検出され、信頼度スコアと境界ボックスが示されます。

```
"statistics": {
    "entity_count": 7,
    "object_count": 3,
    "line_count": 2,
    "word_count": 9
}
}
```

最後に、統計情報があります。これらは、オブジェクトなど、画像内のすべてのコンテンツの内訳を示します

# 動画
<a name="bda-ouput-video"></a>

BDA には、動画のインサイトを処理および生成するための標準出力セットが用意されています。各オペレーションタイプの詳細を次に示します。

## 動画全体の概要
<a name="video-summarization"></a>

動画全体の概要は、動画について全体的な概要を生成します。動画全体で表示される主要なテーマ、イベント、および情報を簡潔な概要にまとめます。動画全体の概要は、製品概要、トレーニング、ニュースキャスト、トークショー、ドキュメンタリーなど、説明的な対話を含むコンテンツ向けに最適化されています。BDA は、動画全体の概要とシーンの概要に含まれるオーディオシグナル (例: 話者が自己紹介をする) またはビジュアルシグナル (例: プレゼンテーションスライドに話者の名前が表示される) に基づいて、一意の話者ごとに名前を付けようとします。一意の話者の名前が解決されない場合は、一意の番号 (speaker\$10 など) で表されます。

## 章のサマリー
<a name="video-scene-summarization"></a>

動画の章の概要は、ビデオ内の個々のシーンのわかりやすい概要になります。動画の章は、動画内でアクションまたは物語の一貫した単位を形成する一連のショットです。この機能は、ビジュアルキュートとオーディブルキューに基づいて動画を意味のあるセグメントに分割し、セグメントにタイムスタンプを付けてそれぞれを要約します。

## IAB 分類
<a name="video-iab-classification"></a>

Interactive Advertising Bureau (IAB) 分類では、標準的な広告分類法を適用し、ビジュアル要素とオーディオ要素に基づいて動画のシーンを分類します。プレビューでは、BDA は 24 のトップレベル (L1) カテゴリと 85 のセカンドレベル (L2) カテゴリをサポートします。BDA でサポートされている IAB カテゴリのリストをダウンロードするには、[ここ](samples/iab-taxonomy.zip)をクリックしてください。

## オーディオ全体の文字起こし
<a name="full-audio-transcript"></a>

オーディオ全体の文字起こし機能は、オーディオファイル内のすべての発話を完全なテキストで表現します。高度な音声認識テクノロジーを使用して、対話、ナレーション、その他のオーディオ要素を正確に書き起こします。文字起こしには話者の識別が含まれるため、話者に基づいてオーディオ コンテンツ内を簡単に移動および検索できます。

## ビデオ内のテキスト
<a name="text-in-video"></a>

この機能は、ビデオに視覚的に表示されるテキストを検出して抽出します。静的テキスト (タイトルや字幕など) と動的テキスト (グラフィック内の動くテキストなど) の両方を識別できます。画像テキスト検出と同様に、検出された各テキスト要素の境界ボックス情報を提供するため、ビデオフレーム内の正確なローカリゼーションが可能です。

## ロゴ検出
<a name="video-logo-detection"></a>

この機能はビデオ内のロゴを識別して、ビデオフレーム内で検出された各ロゴの座標を示す境界ボックス情報および信頼度スコアを提供します。この機能は、デフォルトでは有効になっていません。

## コンテンツモデレーション
<a name="video-content-moderation"></a>

コンテンツモデレーションでは、ビデオ内の不適切なコンテンツ、望ましくないコンテンツ、または不快なコンテンツを検出します。BDA は、露骨な描写、局部を含む控えめなヌードやキスの描写、水着または下着、暴力、薬物とタバコ、アルコール、ヘイトシンボルという 7 つのモデレーションカテゴリをサポートします。ビデオ内の露骨なテキストにはフラグは付きません。

境界ボックスと関連する信頼度スコアは、テキスト検出など、ビデオ内の位置座標を提供する関連機能で有効または無効にすることができます。デフォルトでは、ビデオ全体の概要、シーンの概要、およびビデオテキスト検出が有効になっています。

**注記**  
 ビデオごとに 1 つのオーディオトラックのみがサポートされています。字幕ファイル形式 (SRT、VTT など) はサポートされていません。

## ビデオ標準出力
<a name="video-standard-output"></a>

BDA で処理されたビデオの標準出力の例を次に示します。

```
{
"metadata": {
    "asset_id": "0",
    "semantic_modality": "VIDEO",
    "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1",
    "s3_key": "demo-assets/Video/MakingTheCut.mp4",
    "format": "QuickTime / MOV",
    "frame_rate": 30,
    "codec": "h264",
    "duration_millis": 378233,
    "frame_width": 852,
    "frame_height": 480
  },
```

この最初のセクションでは、ビデオに関するメタデータ情報について説明します。これには、バケットの場所、形式、フレーム レート、その他の重要な情報が含まれます。

```
"shots": [ ...

    {
      "shot_index": 3,
      "start_timecode_smpte": "00:00:08:19",
      "end_timecode_smpte": "00:00:09:25",
      "start_timestamp_millis": 8633,
      "end_timestamp_millis": 9833,
      "start_frame_index": 259,
      "end_frame_index": 295,
      "duration_smpte": "00:00:01:06",
      "duration_millis": 1200,
      "duration_frames": 36,
      "confidence": 0.9956437242589935,
      "chapter_indices": [
        1
      ]
    },
```

これは、応答のショット要素の例です。ショットとはビデオの一部分であり、通常、ビデオの編集やカットに関連付けられています。ショットには、開始要素と終了要素、および chapter\$1indicies 要素が含まれます。この要素は、ショットが、ビデオのより大きなセクション (章という) のどれに属しているかを示します。

```
"chapters": [
    {
      "start_timecode_smpte": "00:00:00:00",
      "end_timecode_smpte": "00:00:08:18",
      "start_timestamp_millis": 0,
      "end_timestamp_millis": 8600,
      "start_frame_index": 0,
      "end_frame_index": 258,
      "duration_millis": 8600,
      "shot_indices": [
        0,
        1,
        2
      ],
      "summary": "At an elegant outdoor venue, a man in a suit and a woman in a patterned dress stand on a raised platform overlooking a reflective pool. The setting is adorned with palm trees and lush greenery, creating a tropical atmosphere. The man initiates the event by asking if they should begin, to which the woman responds affirmatively. As the scene progresses, the focus shifts to a woman wearing a distinctive black and white patterned coat, her hair styled in a bun. She stands alone in a dimly lit room, facing away from the camera. The narrative then moves to a formal setting where a man in a dark suit stands before a curtain backdrop, suggesting he may be about to address an audience or perform. The scene concludes with a view of the entire venue, showcasing its tropical charm with a swimming pool surrounded by palm trees and decorative lighting, indicating it's prepared for a special occasion.",
```

章はビデオよりも大きなくくりになります。次に、ショットなどの開始情報と終了情報、および shot\$1indicies 要素を含めます。shot\$1indicies は、任意の章内にどのショットが含まれるかを示します。最後に、概要要素は、章のコンテンツについて生成された概要を提供します。

```
 "frames": [...
         {
          "timecode_smpte": "00:00:03:15",
          "timestamp_millis": 3500,
          "frame_index": 105,
          "content_moderation": [],
          "text_words": [
            {
              "id": "266db64a-a7dc-463c-b710-7a178a2cc4cc",
              "type": "TEXT_WORD",
              "confidence": 0.99844897,
              "text": "ANDREA",
              "locations": [
                {
                  "bounding_box": {
                    "left": 0.1056338,
                    "top": 0.7363281,
                    "width": 0.19806337,
                    "height": 0.068359375
                  },
                  "polygon": [
                    {
                      "x": 0.1056338,
                      "y": 0.7363281
                    },
                    {
                      "x": 0.30369717,
                      "y": 0.7363281
                    },
                    {
                      "x": 0.30369717,
                      "y": 0.8046875
                    },
                    {
                      "x": 0.1056338,
                      "y": 0.8046875
                    }
                  ]
                }
              ],
              "line_id": "57b760fc-c410-418e-aee3-7c7ba58a71c2"
            },
```

ビデオの最小粒度はフレームで、ビデオ内にある 1 つの画像を表します。フレームには、content\$1moderation と text\$1words という 2 つの重要な応答要素があります。1 つ目の content\$1moderation は、フレームのコンテンツが検出された場合に、コンテンツモデレーションカテゴリに基づいてそのコンテンツに関する情報を提供します。2 番目の text\$1words は、クローズドキャプションなど、ビデオ内に表示されるテキストの場所と情報を提供します。

```
    "statistics": {
    "shot_count": 148,
    "chapter_count": 11,
    "speaker_count": 11
  }
}
```

最後に、統計では、特定のビデオに含まれるショット、話者、章の数など、検出に関する情報の内訳が提供されます。

# 音声
<a name="audio-processing"></a>

Amazon Bedrock Data Automation (BDA) 機能には、オーディオファイルのインサイトを処理および生成するための一連の標準出力が用意されています。各オペレーションタイプの詳細を次に示します。

## オーディオ全体の概要
<a name="audio-audio-summarization"></a>

オーディオ全体の概要は、オーディオファイル全体の全体的な概要を生成します。オーディオ全体で表示される主要なテーマ、イベント、および情報を簡潔な概要にまとめます。

## オーディオ全体の文字起こし
<a name="audio-audio-transcript"></a>

オーディオ全体の文字起こし機能は、オーディオ内のすべての音声コンテンツを完全なテキストで表現します。高度な音声認識テクノロジーを使用して、対話、ナレーション、その他のオーディオ要素を正確に書き起こします。文字起こしにはタイムスタンプが含まれているため、発話された単語に基づいてオーディオコンテンツ内を簡単に移動および検索できます。

### 話者とチャネルのラベル付け
<a name="w2aac28b8c11c13b5b3b7"></a>

生成された文字起こしでは、チャネルや話者のラベル付けを有効にできます。これにより、各チャネルまたは話者に番号が付けられ、チャネルが使用されていて、特定の話者が話しているときに文字起こし内で示されます。このラベルは、レスポンス内に「spk\$1」と表示され、その後に話者ごとに一意の番号 (最大 30 人) が続きます。最初の話者は「spk\$10」、その次は「spk\$11」となります。オーディオチャネルは、「ch\$10」というラベルが付いた最初のチャネルと同様に表示されますが、ラベル付けできるのは 2 つのチャネルのみです。

## トピックの概要
<a name="audio-topic-summary"></a>

オーディオトピックの概要は、オーディオファイルをトピックと呼ばれるセクションに分割し、それらを要約してキー情報を提供します。これらのトピックには、オーディオファイル全体に配置するのに役立つタイムスタンプが付けられています。この機能は、デフォルトでは有効になっていません。

## コンテンツモデレーション
<a name="audio-content-moderation"></a>

コンテンツモデレーションは、オーディオおよびテキストベースのキューを使用して、音声ベースの有害コンテンツを 7 つの異なるカテゴリに識別および分類します。
+ ****不敬****: 無礼、下品、攻撃的な単語やフレーズ、または頭字語を含む言葉。
+ ****ヘイトスピーチ****: 人種、民族、性同一性、宗教、性的指向、能力、出身国、その他のアイデンティティグループなど、アイデンティティに基づいて個人またはグループを批判、侮辱、否定する発言。
+  ****セクシャル: ****体の一部、身体的特徴、性別への直接的または間接的な言及により、性的関心、活動、性的嗜好を示す発言。
+ ****侮辱****: 屈辱的、嘲笑的、侮辱的、または軽蔑的な言葉を含む発言。この種の発言は、「いじめ」とも呼ばれます。
+ ****暴力または脅し: ****個人または集団に対して苦痛や痛み、敵意を与えることを意図する脅迫的な発言。
+ ****グラフィックスピーチ:**** 視覚的に説明的で詳細、不快かつ生々しい画像を使った発言。この種の言葉は、受け手の不快感を増幅させるために、意図的に冗長になることが多いのです。
+ ****ハラスメントや虐待****: 相手を侮辱したり対象化したりする発言など、受け手の心理的健康に影響を与えることを意図した発言。この種の言葉は、「ハラスメント」とも呼ばれます。

## オーディオ標準出力
<a name="audio-standard-output-example"></a>

このセクションでは、オーディオファイルで API オペレーション InvokeDataAutomation を実行することで受け取るさまざまなレスポンスオブジェクトに焦点を当てます。以下に、レスポンスオブジェクトの各セクションを分類し、サンプルドキュメントの完全な入力済みレスポンスを示します。最初に受け取るセクションは `metadata` です。

```
 "metadata": {
    "asset_id": "0",
    "semantic_modality": "AUDIO",
    "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1",
    "s3_key": "demo-assets/Audio/AWS_TCA-Call-Recording-2.wav",
    "sample_rate": 8000,
    "bitrate": 256000,
    "number_of_channels": 2,
    "codec": "pcm_s16le",
    "duration_millis": 237560,
    "format": "wav",
    "dominant_asset_language": "EN",
    "generative_output_language": "DEFAULT/EN"
  }
```

このセクションでは、s3 の場所、ビットレート、オーディオチャネル、形式など、ファイルに関する情報が分類されます。次に、`audio_items` を見ていきます。

`dominant_asset_language` indicaties は、秒単位の長さに基づいて、音声の中で最も存在する言語を指定します。 は、レスポンス出力がどの言語になるか`generative_output_language`を示します。「DEFAULT」に設定すると、主要言語が使用されます。

```
"audio_items": [
    {
      "item_index": 0,
      "audio_segment_index": 0,
      "content": "Auto",
      "start_timestamp_millis": 9,
      "end_timestamp_millis": 119
    },
    ...
]
```

項目セクションには、オーディオファイルのサウンドごとの内訳が含まれています。各項目は通常、単語の長さに関するものです。item\$1index は audio\$1items インデックス内の項目の場所を示し、audio\$1segment\$1index は次に説明するセグメントインデックス内の項目の位置を示します。

```
"audio_segments": [
    {
      "start_timestamp_millis": 0,
      "end_timestamp_millis": 1970,
      "segment_index": 0,
      "type": "TRANSCRIPT",
      "text": "Auto sales, Cherry speaking. How can I help you?",
      "speaker": {
        "speaker_label": "spk_0"
      },
      "channel": {
        "channel_label": "ch_0"
      },
      "audio_item_indices": [
        0,
        1,
        2,
        3,
        4,
        5,
        6,
        7,
        8,
        9,
        10,
        11
      ],
      "language": "EN"
    },
    ...
]
```

ここでは、長い期間に基づいてファイルの内訳を取得します。各セグメントは、ほぼ 1 文に相当します。セグメントに含まれるオーディオ項目とセグメント自体のテキストが示されています。次に、コンテンツモデレーションを見てみましょう。

話者とチャネルのラベル付けを有効にすると、このセグメントに存在する話者とチャネルを示す `speaker_label` セクションと `channel_label` セクションが表示されます。

```
"content_moderation": [
      {
        "id": "93068e72-290d-4aad-8717-a2cd0e02b0d0",
        "type": "AUDIO_MODERATION",
        "confidence": 0.0476,
        "start_timestamp_millis": 0,
        "end_timestamp_millis": 1970,
        "moderation_categories": [
          {
            "category": "profanity",
            "confidence": 0.1582
          },
          ...
        ]
      },
      ...
]
```

コンテンツモデレーションセクションでは、個々のセグメントを調べて 7 つのモデレーションカタゴリのどれに該当するかを分析し、各セクションの信頼スコアを算出できます。次のセクションはトピックです。

```
"topics": [
    {
      "topic_index": 0,
      "start_timestamp_millis": 0,
      "end_timestamp_millis": 36790,
      "summary": "As follows:\n\nSuzanne, a customer, recently had her Hyundai serviced at the auto sales shop where Carrie works. Suzanne had a 3 p.m. appointment and got her car serviced, which included an oil change and filter changes. However, when Suzanne left the shop, her oil light was still on, which she found concerning. Carrie acknowledged that this sometimes happens, even after a service visit, and assured Suzanne that she would look into the issue further.",
      "transcript": {
        "representation": {
          "text": "Auto sales, Cherry speaking. How can I help you? Yeah, hi Carrie, um, my name is Suzanne. I literally just left your shop. Um, I just went in and got my Hyundai service. Um, it just was, it just needed like filter error changes oil change and all that kind of stuff, um, but. When I left and my oil light is still on and I don't know why. Got it. You just got it serviced here, but when you drove off the light was still on. Is that what happened? Yeah, yeah, yeah, like I literally like I had a 3 p.m. appointment and I just got it, you know, believe it or not, this, this happens."
        }
      },
      "audio_segment_indices": [
        0,
        1,
        2,
        3,
        4,
        5,
        6,
        7,
        8,
        9,
        10
      ]
    },
    ...
]
```

トピックセクションは、セグメントの次のレベルの詳細度です。これらはセグメントのグループ化であり、概念によって大まかに分類されます。各トピックには、生成されたトピックの概要とトピックの正確なテストが含まれています。レスポンスの最後の部分は統計です。

```
 "statistics": {
    "word_count": 749,
    "topic_count": 4
  }
```

このセクションでは、オーディオファイルに関する情報が要約されます。これには、単語数トピックと合計トピックが含まれます。