

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Output standar dalam Otomasi Data Batuan Dasar
<a name="bda-standard-output"></a>

Output standar adalah cara default untuk berinteraksi dengan Otomasi Amazon Bedrock Data (BDA). Jika Anda meneruskan dokumen ke BDA API tanpa cetak biru atau proyek yang ditetapkan, dokumen tersebut mengembalikan output standar default untuk jenis file tersebut. Output standar dapat dimodifikasi menggunakan proyek, yang menyimpan informasi konfigurasi untuk setiap tipe data. Anda dapat memiliki satu konfigurasi output standar per tipe data untuk setiap proyek. BDA selalu memberikan respons keluaran standar bahkan jika itu di samping respons keluaran khusus.

Setiap tipe data memiliki opsi output standar yang berbeda. Beberapa opsi ini merupakan bagian dari respons Otomasi Data Batuan Dasar default, sementara beberapa hanya ada sebagai sakelar untuk bekerja dengan tipe data dalam proyek. Bagian berikut membahas opsi respons unik setiap tipe data, mencatat mana yang default dan mana yang opsional.

# Dokumen
<a name="bda-output-documents"></a>

Output standar untuk dokumen memungkinkan Anda mengatur perincian respons yang Anda minati serta menetapkan format output dan format teks dalam output. Di bawah ini adalah beberapa output yang dapat Anda aktifkan.

**catatan**  
BDA dapat memproses file DOCX. Untuk memproses file DOCX, mereka diubah menjadi PDFs file. Ini berarti pemetaan nomor halaman tidak akan berfungsi untuk file DOCX. Gambar yang dikonversi PDFs akan diunggah ke bucket keluaran Anda jika opsi JSON\$1dan granularitas halaman dipilih.

## Granularitas Respon
<a name="document-granularity"></a>

Granularitas respons menentukan jenis respons yang ingin Anda terima dari ekstraksi teks dokumen. Setiap tingkat granularitas memberi Anda lebih banyak dan lebih banyak tanggapan terpisah, dengan halaman menyediakan semua teks yang diekstraksi bersama, dan kata menyediakan setiap kata sebagai respons terpisah. Tingkat granularitas yang tersedia adalah:
+ Granularitas tingkat halaman - Ini diaktifkan secara default. Granularitas tingkat halaman menyediakan setiap halaman dokumen dalam format output teks pilihan Anda. Jika Anda memproses PDF, mengaktifkan tingkat perincian ini akan mendeteksi dan mengembalikan hyperlink yang disematkan.
+ Granularitas tingkat elemen (Layout) - Ini diaktifkan secara default. Menyediakan teks dokumen dalam format output pilihan Anda, dipisahkan menjadi elemen yang berbeda. Elemen-elemen ini, seperti gambar, tabel, atau paragraf. Ini dikembalikan dalam urutan pembacaan logis berdasarkan struktur dokumen. Jika Anda memproses PDF, mengaktifkan tingkat perincian ini akan mendeteksi dan mengembalikan hyperlink yang disematkan.
+ Perincian tingkat kata — Memberikan informasi tentang kata-kata individual tanpa menggunakan analisis konteks yang lebih luas. Memberi Anda setiap kata dan lokasinya di halaman.

## Pengaturan Output
<a name="document-output-settings"></a>

Pengaturan output menentukan cara hasil unduhan Anda akan terstruktur. Pengaturan ini eksklusif untuk konsol. Opsi untuk pengaturan output adalah:
+ JSON — Struktur output default untuk analisis dokumen. Menyediakan file keluaran JSON dengan informasi dari pengaturan konfigurasi Anda.
  + Async [InvokeDataAutomationAsync](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_data-automation-runtime_InvokeDataAutomationAsync.html)API: Output JSON untuk Async API hanya S3.
  + [InvokeDataAutomation](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_data-automation-runtime_InvokeDataAutomation.html)API Sinkronisasi: Output JSON dapat diatur ke S3 atau inline dengan memanfaatkan. `outputconfiguration` Jika S3 dipilih, maka output JSON pergi ke S3 saja (tidak sebaris). Jika S3 tidak disediakan, output Sync API hanya mendukung JSON inline.
+ JSON\$1Files - Hanya tersedia untuk Async API. [InvokeDataAutomationAsync](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_data-automation-runtime_InvokeDataAutomationAsync.html) Menggunakan pengaturan ini menghasilkan output JSON dan file yang sesuai dengan output yang berbeda. Misalnya, setelan ini memberi Anda file teks untuk ekstraksi teks secara keseluruhan, file penurunan harga untuk teks dengan penurunan harga struktural, dan file CSV untuk setiap tabel yang ditemukan dalam teks. Angka yang terletak di dalam dokumen akan disimpan serta gambar tanaman dan gambar yang diperbaiki. Juga, jika Anda memproses file DOCX dan memilih opsi ini, PDF yang dikonversi dari file DOCX Anda akan berada di folder output. Output ini terletak `standard_output/logical_doc_id/assets/` di folder output Anda.

**catatan**  
API sinkronisasi tidak menampilkan file tambahan apa pun di luar JSON. Output JSON hanya berisi format teks yang dipilih sebagai bagian dari format Teks Output Standar. API Sinkronisasi tidak akan menampilkan tanaman Gambar atau gambar yang diperbaiki.
DocX tidak didukung oleh Sync API.

## Format Teks
<a name="document-text-format"></a>

Format teks menentukan berbagai jenis teks yang akan disediakan melalui berbagai operasi ekstraksi. Anda dapat memilih sejumlah opsi berikut untuk format teks Anda.
+ Plaintext - Pengaturan ini menyediakan output teks saja tanpa pemformatan atau elemen penurunan harga lainnya yang dicatat.
+ Teks dengan penurunan harga - Pengaturan output default untuk output standar. Menyediakan teks dengan elemen penurunan harga terintegrasi.
+ Teks dengan HTML - Menyediakan teks dengan elemen HTML terintegrasi dalam respon.
+ CSV — Menyediakan output terstruktur CSV untuk tabel dalam dokumen. Ini hanya akan memberikan respons untuk tabel, dan bukan elemen lain dari dokumen.

## Kotak Bounding dan Bidang Generatif
<a name="additional-response-document"></a>

Untuk Dokumen, ada dua opsi respons yang mengubah outputnya berdasarkan granularitas yang dipilih. Ini adalah Bounding Boxes, dan Generative Fields. Memilih Bounding Boxes akan memberikan garis besar visual dari elemen atau kata yang Anda klik di dropdown respons konsol. Ini memungkinkan Anda melacak elemen tertentu dari respons Anda dengan lebih mudah. Bounding Boxes dikembalikan dalam JSON Anda sebagai koordinat dari empat sudut kotak.

Saat Anda memilih Bidang Generatif, Anda akan menghasilkan ringkasan dokumen, baik versi 10 kata dan 250 kata. Kemudian, jika Anda memilih elemen sebagai perincian respons, Anda menghasilkan keterangan deskriptif dari setiap gambar yang terdeteksi dalam dokumen. Angka mencakup hal-hal seperti bagan, grafik, dan gambar.

------
#### [ Async ]

Bagian ini berfokus pada objek respons berbeda yang Anda terima dari menjalankan operasi API InvokeDataAutomationAsync pada file dokumen. Di bawah ini kita akan memecah setiap bagian dari objek respons dan kemudian melihat respons penuh dan terisi untuk dokumen contoh. Bagian pertama yang akan kami terima adalah`metadata`.

```
"metadata":{
   "logical_subdocument_id":"XXXX-XXXX-XXXX-XXXX",
   "semantic_modality":"DOCUMENT",
   "s3_bucket":"bucket",
   "s3_prefix":"prefix"
},
```

Bagian pertama di atas memberikan ikhtisar metadata yang terkait dengan dokumen. Seiring dengan informasi S3, bagian ini juga memberi tahu Anda modalitas mana yang dipilih untuk respons Anda.

```
"document":{
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "description":"document text",
   "summary":"summary text",
   "statistics":{
      "element_count":5,
      "table_count":1,
      "figure_count":1,
      "word_count":1000,
      "line_count":32
   }
},
```

Bagian di atas memberikan informasi granularitas tingkat dokumen. Bagian deskripsi dan ringkasan adalah bidang yang dihasilkan berdasarkan dokumen Bagian representasi menyediakan konten dokumen yang sebenarnya dengan berbagai gaya pemformatan. Akhirnya statistik berisi informasi tentang konten dokumen yang sebenarnya, seperti berapa banyak elemen semantik yang ada, berapa banyak angka, kata, garis, dll.

Ini adalah informasi untuk entitas tabel. Untuk permintaan InvokeDataAutomationAsync (async), selain informasi lokasi, berbagai format teks, tabel, dan urutan bacaan, mereka secara khusus mengembalikan informasi csv dan gambar tabel yang dipotong dalam ember S3. Informasi CSV menunjukkan header, footer, dan judul yang berbeda. Gambar akan dirutekan ke bucket s3 dari awalan yang ditetapkan dalam permintaan. InvokeDataAutomationAsync Untuk permintaan InvokeDataAutomation (sinkronisasi), csv dan gambar yang dipotong dari tabel di bucket S3 tidak didukung.

Saat Anda memproses PDF, bagian statistik dari respons juga akan berisi `hyperlinks_count` yang memberi tahu Anda berapa banyak hyperlink yang ada di dokumen Anda.

```
{
   "id":"entity_id",
   "type":"TEXT",
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "reading_order":2,
   "page_indices":[
      0
   ],
   "locations":[
      {
         "page_index":0,
         "bounding_box":{
            "left":0.0,
            "top":0.0,
            "width":0.05,
            "height":0.5
         }
      }
   ],
   "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},
```

Ini adalah entitas yang digunakan untuk teks dalam dokumen, ditunjukkan oleh `TYPE` baris dalam respons. Sekali lagi representasi menunjukkan teks dalam format yang berbeda. `reading_order`menunjukkan kapan pembaca secara logis akan melihat teks. Ini adalah urutan semantik berdasarkan kunci dan nilai terkait. Misalnya, ia mengaitkan judul paragraf dengan paragraf masing-masing dalam urutan bacaan. `page_indices`memberi tahu Anda halaman mana teks itu aktif. Berikutnya adalah informasi lokasi, dengan kotak pembatas teks yang disediakan jika diaktifkan sebagai tanggapan. Akhirnya, kita memiliki subtipe entitas. Subtipe ini memberikan informasi lebih rinci tentang jenis teks apa yang terdeteksi. Untuk daftar lengkap subtipe, lihat Referensi API.

```
{
   "id":"entity_id",
   "type":"TABLE",
   "representation":{
      "html":"table.../table",
      "markdown":"| header | ...",
      "text":"header \t header",
      "csv":"header, header, header\n..."
   },
   "csv_s3_uri":"s3://",
   "headers":[
      "date",
      "amount",
      "description",
      "total"
   ],
   "reading_order":3,
   "title":"Title of the table",
   "footers":[
      "the footers of the table"
   ],
   "crop_images":[
      "s3://bucket/prefix.png",
      "s3://bucket/prefix.png"
   ],
   "page_indices":[
      0,
      1
   ],
   "locations":[
      {
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      },
      {
         "page_index":1,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   ],
   "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},
```

Ini adalah informasi untuk entitas tabel. Selain informasi lokasi, format teks, tabel, dan urutan bacaan yang berbeda, mereka secara khusus mengembalikan informasi csv dan gambar tabel yang dipotong dalam ember S3. Informasi CSV menunjukkan header, footer, dan judul yang berbeda. Gambar akan dirutekan ke bucket s3 dari awalan yang ditetapkan dalam permintaan. InvokeDataAutomation 

```
{

   "id":"entity_id",

   "type":"FIGURE",

   "summary":"",

   "representation":{

      "text":"document text",

      "html":"document title document content",

      "markdown":"# text"

   },

   "crop_images":[

      "s3://bucket/prefix.png",

      "s3://bucket/prefix.png"

   ],

   "locations":[

      {

         "page_index":0,

         "bounding_box":{

            "left":0,

            "top":0,

            "width":1,

            "height":1

         }

      }

   ],

   "sub_type":"CHART",

   "title":"figure title",

   "rai_flag":"APPROVED/REDACTED/REJECTED",

   "reading_order":1,

   "page_indices":[

      0

   ]

}
,
```

Ini adalah entitas yang digunakan untuk angka-angka seperti dalam grafik dan bagan dokumen. Mirip dengan tabel, angka-angka ini akan dipotong dan gambar dikirim ke bucket s3 diatur dalam awalan Anda. Selain itu, Anda akan menerima `sub_type` dan respons judul gambar untuk teks judul dan indikasi pada gambar seperti apa itu.

```
"pages":[
   {
      "id":"page_id",
      "page_index":0,
      "detected_page_number":1,
      "representation":{
         "text":"document text",
         "html":"document title document content",
         "markdown":"# text"
      },
      "statistics":{
         "element_count":5,
         "table_count":1,
         "figure_count":1,
         "word_count":1000,
         "line_count":32
      },
      "asset_metadata":{
         "rectified_image":"s3://bucket/prefix.png",
         "rectified_image_width_pixels":1700,
         "rectified_image_height_pixels":2200
      }
   }
],
```

Entitas terakhir yang kami ekstrak melalui output standar adalah Pages. Halaman sama dengan entitas Teks, tetapi juga berisi nomor halaman, yang nomor halaman yang terdeteksi ada di halaman.

```
"text_lines":[
   {
      "id":"line_id",
      "text":"line text",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
],
```

```
"text_words":[
   {
      "id":"word_id",
      "text":"word text",
      "line_id":"line_id",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
]
```

Dua elemen terakhir ini adalah untuk bagian teks individual. Granularitas tingkat kata mengembalikan respons untuk setiap kata, sedangkan output default hanya melaporkan baris teks.

------
#### [ Sync ]

Bagian ini berfokus pada objek respons berbeda yang Anda terima dari menjalankan operasi API InvokeDataAutomation pada file dokumen. Di bawah ini kita akan memecah setiap bagian dari objek respons dan kemudian melihat respons penuh dan terisi untuk dokumen contoh. Bagian pertama yang akan kami terima adalah`metadata`.

```
            "metadata": {
                "logical_subdocument_id": "1",
                "semantic_modality": "DOCUMENT",
                "number_of_pages": X,
                "start_page_index": "1",
                "end_page_index": X,
                "file_type": "PDF"
            },
```

Bagian pertama di atas memberikan ikhtisar metadata yang terkait dengan dokumen. Karena InvokeDataAutomation API Sinkron saat ini tidak mendukung pemisahan dokumen, logical\$1subdocument\$1id selalu sama dengan 1.

```
"document":{
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "description":"document text",
   "summary":"summary text",
   "statistics":{
      "element_count":5,
      "table_count":1,
      "figure_count":1,
      "word_count":1000,
      "line_count":32
   }
},
```

Bagian di atas memberikan informasi granularitas tingkat dokumen. Bagian deskripsi dan ringkasan adalah bidang yang dihasilkan berdasarkan dokumen Bagian representasi menyediakan konten dokumen yang sebenarnya dengan berbagai gaya pemformatan. Akhirnya statistik berisi informasi tentang konten dokumen yang sebenarnya, seperti berapa banyak elemen semantik yang ada, berapa banyak angka, kata, garis, dll.

Catatan: Tidak seperti permintaan asinkron, InvokeDataAutomationAsync permintaan sinkron InvokeDataAutomation tidak mendukung pengembalian informasi csv dan gambar tabel yang dipotong di bucket S3. 

```
{
"id":"entity_id",
   "type":"TEXT",
   "representation":{
"text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "reading_order":2,
   "page_indices":[
      0
   ],
   "locations":[
      {
"page_index":0,
         "bounding_box":{
"left":0.0,
            "top":0.0,
            "width":0.05,
            "height":0.5
         }
      }
   ],
   "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},
```

 Ini adalah entitas yang digunakan untuk teks dalam dokumen, ditunjukkan oleh baris TYPE dalam respons. Sekali lagi representasi menunjukkan teks dalam format yang berbeda. reading\$1order menunjukkan kapan pembaca akan secara logis melihat teks. Ini adalah urutan semantik berdasarkan kunci dan nilai terkait. Misalnya, ini mengaitkan judul paragraf dengan paragraf masing-masing dalam urutan pembacaan. page\$1indices memberi tahu Anda halaman mana teks tersebut berada. Berikutnya adalah informasi lokasi, dengan kotak pembatas teks yang disediakan jika diaktifkan sebagai tanggapan. Akhirnya, kita memiliki subtipe entitas. Subtipe ini memberikan informasi lebih rinci tentang jenis teks apa yang terdeteksi. Untuk daftar lengkap subtipe, lihat Referensi API. 

```
{
    "id": "entity_id",
    "type": "TABLE",
    "representation": {
        "html": "table.../table",
        "markdown": "| header | ...",
        "text": "header \t header",
        "csv": "header, header, header\n..."
    },
    "headers": ["date", "amount", "description", "total"],
    "reading_order": 3,
    "title": "Title of the table",
    "footers": ["the footers of the table"],
    "page_indices": [0, 1],
    "locations": [{
        "page_index": 0,
        "bounding_box": {
            "left": 0,
            "top": 0,
            "width": 1,
            "height": 1
        }
    }, {
        "page_index": 1,
        "bounding_box": {
            "left": 0,
            "top": 0,
            "width": 1,
            "height": 1
        }
    }]
},
```

Ini adalah informasi untuk entitas tabel. Informasi CSV menunjukkan header, footer, dan judul yang berbeda. 

```
{

    "id": "entity_id",
    "type": "FIGURE",
    "summary": "",
    "representation": {
        "text": "document text",
        "html": "document title document content",
        "markdown": "# text"
    },

    "locations": [

        {
            "page_index": 0,
            "bounding_box": {
                "left": 0,
                "top": 0,
                "width": 1,
                "height": 1
            }
        }
    ],

    "sub_type": "CHART",
    "title": "figure title",
    "reading_order": 1,
    "page_indices": [
        0
    ]
},
​
```

Ini adalah entitas yang digunakan untuk angka-angka seperti dalam grafik dan bagan dokumen. Anda akan menerima `sub_type` dan respons judul gambar untuk teks judul dan indikasi pada gambar seperti apa itu.

```
"pages":[
   "pages":[
   {
"id":"page_id",
      "page_index":0,
      "detected_page_number":1,
      "representation":{
"text":"document text",
         "html":"document title document content",
         "markdown":"# text"
      },
      "statistics":{
"element_count":5,
         "table_count":1,
         "figure_count":1,
         "word_count":1000,
         "line_count":32
      },
      "asset_metadata":{
"rectified_image":"s3://bucket/prefix.png",
         "rectified_image_width_pixels":1700,
         "rectified_image_height_pixels":2200
      }
   }
],
```

Entitas terakhir yang kami ekstrak melalui output standar adalah Pages. Halaman sama dengan entitas Teks, tetapi juga berisi nomor halaman, yang nomor halaman yang terdeteksi ada di halaman.

```
"text_lines":[
   {
      "id":"line_id",
      "text":"line text",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
],
```

```
"text_words":[
   {
      "id":"word_id",
      "text":"word text",
      "line_id":"line_id",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
]
```

Dua elemen terakhir ini adalah untuk bagian teks individual. Granularitas tingkat kata mengembalikan respons untuk setiap kata, sedangkan output default hanya melaporkan baris teks.

------

## Metadata format file tambahan JSON
<a name="output-json-plus"></a>

Saat Anda menerima file tambahan dari bendera format file tambahan, Anda akan mendapatkan file JSON untuk gambar yang diperbaiki yang diekstraksi. BDA memperbaiki gambar yang diputar dengan menggunakan homografi untuk memutar gambar menjadi sudut 90 derajat. Contoh JSON adalah di bawah ini:

```
        "asset_metadata": {
            "rectified_image": "s3://bucket/prefix.png",
            "rectified_image_width_pixels": 1700,
            "rectified_image_height_pixels": 2200,
            "corners": [
                [
                    0.006980135689736235,
                    -0.061692718505859376
                ],
                [
                    1.10847711439684,
                    0.00673927116394043
                ],
                [
                    0.994479346419327,
                    1.050548828125
                ],
                [
                    -0.11249661383904497,
                    0.9942819010416667
                ]
            ]
        }
```

Sudut mewakili sudut gambar yang terdeteksi, digunakan untuk membentuk homografi dokumen. Homografi ini digunakan untuk memutar gambar sambil mempertahankan properti lainnya.

# Citra
<a name="bda-ouput-image"></a>

Fitur Otomasi Amazon Bedrock Data (BDA) menawarkan serangkaian output standar yang komprehensif untuk pemrosesan gambar untuk menghasilkan wawasan dari gambar Anda. Anda dapat menggunakan wawasan ini untuk mengaktifkan berbagai aplikasi dan kasus penggunaan, seperti penemuan konten, penempatan iklan kontekstual, dan keamanan merek. Berikut adalah ikhtisar dari setiap jenis operasi yang tersedia sebagai bagian dari output standar untuk gambar:

## Ringkasan Gambar
<a name="image-summarization"></a>

Ringkasan gambar menghasilkan keterangan deskriptif untuk sebuah gambar. Fitur ini diaktifkan dalam konfigurasi output standar secara default.

## Taksonomi IAB
<a name="iab-classification"></a>

Klasifikasi Interactive Advertising Bureau (IAB) menerapkan taksonomi iklan standar untuk mengklasifikasikan konten gambar. Untuk Pratinjau, BDA akan mendukung 24 kategori tingkat atas (L1) dan 85 kategori tingkat kedua (L2). [Untuk mengunduh daftar kategori IAB yang didukung oleh BDA, klik di sini.](samples/iab-taxonomy.zip)

## Deteksi Logo
<a name="image-logo-detection"></a>

Fitur ini mengidentifikasi logo dalam gambar dan memberikan informasi kotak pembatas, yang menunjukkan koordinat setiap logo yang terdeteksi dalam gambar, dan skor kepercayaan. Fitur ini tidak diaktifkan secara default.

## Deteksi Teks Gambar
<a name="image-text-detection"></a>

Fitur ini mendeteksi dan mengekstrak teks yang muncul secara visual dalam gambar dan menyediakan informasi kotak pembatas, yang menunjukkan koordinat setiap elemen teks yang terdeteksi dalam gambar, dan skor kepercayaan. Fitur ini diaktifkan dalam konfigurasi output standar secara default.

## Moderasi Konten
<a name="content-moderation"></a>

Moderasi konten mendeteksi konten yang tidak pantas, tidak diinginkan, atau menyinggung dalam suatu gambar. Untuk Pratinjau, BDA akan mendukung 7 kategori moderasi: Eksplisit, Ketelanjangan Non-Eksplisit dari bagian Intim dan Ciuman, Pakaian Renang atau Pakaian Dalam, Kekerasan, Narkoba & Tembakau, Alkohol, simbol Kebencian. Teks eksplisit dalam gambar tidak ditandai.

 Kotak pembatas dan skor kepercayaan terkait dapat diaktifkan atau dinonaktifkan untuk fitur yang relevan seperti deteksi teks untuk menyediakan koordinat lokasi dalam gambar. Secara default, ringkasan gambar dan deteksi teks gambar diaktifkan. 

## Output Standar Gambar
<a name="image-standard-output-example"></a>

Berikut ini adalah contoh output standar untuk gambar yang diproses melalui BDA. Setiap bagian telah dipersingkat dan dipisahkan dengan penjelasan.

```
{
"metadata": {
    "id": "image_123",
    "semantic_modality": "IMAGE",
    "s3_bucket": "my-s3-bucket",
    "s3_prefix": "images/",
    "image_width_pixels": 1920,
    "image_height_pixels": 1080,
    "color_depth": 24,
    "image_encoding": "JPEG"
},
```

Bagian pertama dari respons adalah metadat gambar. Ini memberi Anda nama file, jenis pengkodean, lokasi bucket s3 dan informasi lebih lanjut tentang konten.

```
"image": {
    "summary": "Lively party scene with decorations and supplies",
```

Pada awal respons adalah ringkasan generatif dari gambar.

```
    "iab_categories": [
        {
            "id": "iab_12345",
            "type": "IAB",
            "category": "Party Supplies",
            "confidence": 0.9,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 2
        },
        {
            "id": "iab_67890",
            "type": "IAB",
            "category": "Decorations",
            "confidence": 0.8,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 1
        }
    ],
```

Selanjutnya, kita melihat katalog IAB melekat pada tanggapan. Ini mewakili berbagai jenis klasifikasi iklan, menggunakan taksonomi IAB standar. Masing-masing memiliki skor kepercayaan, taxonomy\$1level, dan parent\$1name untuk kategori tingkat tinggi umum.

```
    "content_moderation": [
        {
            "id": "mod_12345",
            "type": "MODERATION",
            "category": "Drugs & Tobacco Paraphernalia & Use",
            "confidence": 0.7,
            "parent_name": "Drugs & Tobacco",
            "taxonomy_level": 2
        }
    ], 
    ...
```

Moderasi konten berisi informasi tentang kemungkinan konten eksplisit dalam gambar. Masing-masing memiliki skor kepercayaan dan kategori, selaras dengan kategori moderasi konten yang dibahas sebelumnya di bagian ini.

```
    "text_words": [
        {
            "id": "word_1",
            "text": "lively",
            "confidence": 0.9,
            "line_id": "line_1",
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 50,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 150, "y": 200},
                        {"x": 150, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        },
        ...
```

Bagian ini memecah setiap kata yang terdeteksi dalam gambar, termasuk kepercayaan diri dan lokasi di layar dalam gambar. Ini juga menandai baris mana kata itu, menggunakan`line_id`.

```
    "text_lines": [
        {
            "id": "line_1",
            "text": "lively party",
            "confidence": 0.9,
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 200,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 300, "y": 200},
                        {"x": 300, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        }
    ]
},
```

Di sini, kata-kata terdeteksi dalam garis kolektifnya, dengan skor kepercayaan diri dan kotak pembatas. 

```
"statistics": {
    "entity_count": 7,
    "object_count": 3,
    "line_count": 2,
    "word_count": 9
}
}
```

Akhirnya, kami memiliki statistik. Ini memecah semua konten dalam gambar, termasuk objek

# Video
<a name="bda-ouput-video"></a>

BDA menawarkan serangkaian output standar untuk memproses dan menghasilkan wawasan untuk video. Berikut adalah tampilan rinci pada setiap jenis operasi:

## Ringkasan Video Lengkap
<a name="video-summarization"></a>

Ringkasan video lengkap menghasilkan ringkasan keseluruhan dari seluruh video. Ini menyaring tema utama, peristiwa, dan informasi yang disajikan di seluruh video menjadi ringkasan singkat. Ringkasan video lengkap dioptimalkan untuk konten dengan dialog deskriptif seperti ikhtisar produk, pelatihan, pemeran berita, acara bincang-bincang, dan dokumenter. BDA akan mencoba memberikan nama untuk setiap pembicara unik berdasarkan sinyal audio (misalnya, pembicara memperkenalkan dirinya sendiri) atau sinyal visual (misalnya, slide presentasi menunjukkan nama pembicara) dalam ringkasan video lengkap dan ringkasan adegan. Ketika nama pembicara unik tidak diselesaikan, mereka akan diwakili oleh nomor unik (misalnya, speaker\$10).

## Ringkasan Bab
<a name="video-scene-summarization"></a>

Ringkasan Bab Video memberikan ringkasan deskriptif untuk masing-masing adegan dalam video. Bab video adalah urutan pengambilan gambar yang membentuk unit aksi atau narasi yang koheren dalam video. Fitur ini memecah video menjadi segmen yang bermakna berdasarkan isyarat visual dan suara, menyediakan stempel waktu untuk segmen tersebut, dan merangkum masing-masing. 

## Taksonomi IAB
<a name="video-iab-classification"></a>

Klasifikasi Interactive Advertising Bureau (IAB) menerapkan taksonomi iklan standar untuk mengklasifikasikan adegan video berdasarkan elemen visual dan audio. Untuk Pratinjau, BDA akan mendukung 24 kategori tingkat atas (L1) dan 85 kategori tingkat kedua (L2). [Untuk mengunduh daftar kategori IAB yang didukung oleh BDA, klik di sini.](samples/iab-taxonomy.zip)

## Transkrip Audio Lengkap
<a name="full-audio-transcript"></a>

Fitur transkrip audio lengkap menyediakan representasi teks lengkap dari semua ucapan dalam file audio. Ini menggunakan teknologi pengenalan suara canggih untuk secara akurat mentranskripsikan dialog, narasi, dan elemen audio lainnya. Transkripsi mencakup identifikasi speaker, sehingga mudah untuk menavigasi dan mencari melalui konten audio berdasarkan speaker.

## Teks dalam Video
<a name="text-in-video"></a>

Fitur ini mendeteksi dan mengekstrak teks yang muncul secara visual dalam video. Ini dapat mengidentifikasi teks statis (seperti judul atau keterangan) dan teks dinamis (seperti teks bergerak dalam grafik). Mirip dengan deteksi teks gambar, ini menyediakan informasi kotak pembatas untuk setiap elemen teks yang terdeteksi, memungkinkan pelokalan yang tepat dalam bingkai video.

## Deteksi Logo
<a name="video-logo-detection"></a>

Fitur ini mengidentifikasi logo dalam video dan memberikan informasi kotak pembatas, yang menunjukkan koordinat setiap logo yang terdeteksi dalam bingkai video, dan skor kepercayaan. Fitur ini tidak diaktifkan secara default.

## Moderasi Konten
<a name="video-content-moderation"></a>

Moderasi konten mendeteksi konten yang tidak pantas, tidak diinginkan, atau menyinggung dalam video. BDA mendukung 7 kategori moderasi: Eksplisit, Ketelanjangan Non-Eksplisit dari bagian Intim dan Ciuman, Pakaian Renang atau Pakaian Dalam, Kekerasan, Narkoba & Tembakau, Alkohol, Simbol kebencian. Teks eksplisit dalam video tidak ditandai.

Kotak pembatas dan skor kepercayaan terkait dapat diaktifkan atau dinonaktifkan untuk fitur yang relevan seperti deteksi teks, untuk menyediakan koordinat lokasi dan stempel waktu dalam file video. Secara default, ringkasan video lengkap, ringkasan adegan, dan deteksi teks video diaktifkan.

**catatan**  
 Hanya satu trek audio per video yang didukung. Format file subtitle (misalnya, SRT, VTT, dll.) Tidak didukung. 

## Output Standar Video
<a name="video-standard-output"></a>

Berikut ini adalah contoh output standar untuk video yang diproses melalui BDA:

```
{
"metadata": {
    "asset_id": "0",
    "semantic_modality": "VIDEO",
    "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1",
    "s3_key": "demo-assets/Video/MakingTheCut.mp4",
    "format": "QuickTime / MOV",
    "frame_rate": 30,
    "codec": "h264",
    "duration_millis": 378233,
    "frame_width": 852,
    "frame_height": 480
  },
```

Bagian awal ini membahas informasi metadata mengenai video. Ini termasuk lokasi bucket, format, frame rate, dan informasi penting lainnya.

```
"shots": [ ...

    {
      "shot_index": 3,
      "start_timecode_smpte": "00:00:08:19",
      "end_timecode_smpte": "00:00:09:25",
      "start_timestamp_millis": 8633,
      "end_timestamp_millis": 9833,
      "start_frame_index": 259,
      "end_frame_index": 295,
      "duration_smpte": "00:00:01:06",
      "duration_millis": 1200,
      "duration_frames": 36,
      "confidence": 0.9956437242589935,
      "chapter_indices": [
        1
      ]
    },
```

Ini adalah contoh elemen tembakan dalam respons. Tembakan mewakili bagian kecil dari video, biasanya dikaitkan dengan mengedit atau memotong video. Tembakan berisi elemen awal dan akhir, dan juga elemen chapter\$1indicies. Elemen ini menunjukkan bagian video mana yang lebih besar, yang disebut chapter, bidikan adalah bagian dari.

```
"chapters": [
    {
      "start_timecode_smpte": "00:00:00:00",
      "end_timecode_smpte": "00:00:08:18",
      "start_timestamp_millis": 0,
      "end_timestamp_millis": 8600,
      "start_frame_index": 0,
      "end_frame_index": 258,
      "duration_millis": 8600,
      "shot_indices": [
        0,
        1,
        2
      ],
      "summary": "At an elegant outdoor venue, a man in a suit and a woman in a patterned dress stand on a raised platform overlooking a reflective pool. The setting is adorned with palm trees and lush greenery, creating a tropical atmosphere. The man initiates the event by asking if they should begin, to which the woman responds affirmatively. As the scene progresses, the focus shifts to a woman wearing a distinctive black and white patterned coat, her hair styled in a bun. She stands alone in a dimly lit room, facing away from the camera. The narrative then moves to a formal setting where a man in a dark suit stands before a curtain backdrop, suggesting he may be about to address an audience or perform. The scene concludes with a view of the entire venue, showcasing its tropical charm with a swimming pool surrounded by palm trees and decorative lighting, indicating it's prepared for a special occasion.",
```

Bab adalah bagian video yang lebih besar. Kemudian berisi informasi awal dan akhir seperti tembakan, dan elemen shot\$1indicies. shot\$1indicies memberi tahu Anda bidikan mana yang ada dalam satu chapter. Akhirnya, elemen ringkasan, memberikan ringkasan yang dihasilkan dari konten chapter.

```
 "frames": [...
         {
          "timecode_smpte": "00:00:03:15",
          "timestamp_millis": 3500,
          "frame_index": 105,
          "content_moderation": [],
          "text_words": [
            {
              "id": "266db64a-a7dc-463c-b710-7a178a2cc4cc",
              "type": "TEXT_WORD",
              "confidence": 0.99844897,
              "text": "ANDREA",
              "locations": [
                {
                  "bounding_box": {
                    "left": 0.1056338,
                    "top": 0.7363281,
                    "width": 0.19806337,
                    "height": 0.068359375
                  },
                  "polygon": [
                    {
                      "x": 0.1056338,
                      "y": 0.7363281
                    },
                    {
                      "x": 0.30369717,
                      "y": 0.7363281
                    },
                    {
                      "x": 0.30369717,
                      "y": 0.8046875
                    },
                    {
                      "x": 0.1056338,
                      "y": 0.8046875
                    }
                  ]
                }
              ],
              "line_id": "57b760fc-c410-418e-aee3-7c7ba58a71c2"
            },
```

Granularitas terkecil dari sebuah video adalah bingkai, mewakili satu gambar dalam video. Frame memiliki dua elemen respons, content\$1moderation dan text\$1words. Yang pertama, content\$1moderation memberi Anda informasi berdasarkan katalog moderasi konten tentang konten bingkai jika ada yang terdeteksi. Yang kedua, text\$1words, memberi Anda lokasi dan informasi tentang teks apa pun yang muncul dalam video, seperti teks tertutup.

```
    "statistics": {
    "shot_count": 148,
    "chapter_count": 11,
    "speaker_count": 11
  }
}
```

Akhirnya, statistik memberikan rincian informasi tentang deteksi, seperti berapa banyak bidikan, speaker, dan chapter dalam video tertentu.

# Audio
<a name="audio-processing"></a>

Fitur Amazon Bedrock Data Automation (BDA) menawarkan serangkaian output standar untuk memproses dan menghasilkan wawasan untuk file audio. Berikut adalah tampilan rinci pada setiap jenis operasi:

## Ringkasan Audio Lengkap
<a name="audio-audio-summarization"></a>

Ringkasan audio lengkap menghasilkan ringkasan keseluruhan dari seluruh file audio. Ini menyaring tema utama, peristiwa, dan informasi yang disajikan di seluruh audio menjadi ringkasan singkat.

## Transkrip Audio Lengkap
<a name="audio-audio-transcript"></a>

Fitur transkrip audio lengkap menyediakan representasi teks lengkap dari semua konten lisan dalam audio. Ini menggunakan teknologi pengenalan suara canggih untuk secara akurat menyalin dialog, narasi, dan elemen audio lainnya. Transkripsi mencakup stamping waktu, sehingga mudah dinavigasi dan mencari melalui konten audio berdasarkan kata-kata yang diucapkan.

### Speaker dan Pelabelan Saluran
<a name="w2aac28b8c11c13b5b3b7"></a>

Untuk transkrip yang dihasilkan, Anda dapat mengaktifkan pelabelan and/or speaker saluran. Ini akan memberi setiap saluran atau pembicara nomor, dan kemudian menunjukkan dalam transkrip ketika saluran sedang digunakan dan pembicara tertentu berbicara. Label ini muncul dalam respons sebagai “spk\$1” diikuti dengan nomor unik untuk setiap pembicara, hingga 30 speaker. Pembicara pertama adalah “spk\$10", “spk\$11" dan seterusnya. Saluran audio ditunjukkan sama dengan saluran pertama berlabel “ch\$10", tetapi hanya dapat diberi label dua saluran.

## Ringkasan Topik
<a name="audio-topic-summary"></a>

Ringkasan topik audio memisahkan file audio menjadi beberapa bagian yang disebut topik, dan meringkasnya untuk memberikan informasi penting. Topik-topik ini diberikan stempel waktu untuk membantu menempatkannya dalam file audio secara keseluruhan. Fitur ini tidak diaktifkan secara default.

## Moderasi Konten
<a name="audio-content-moderation"></a>

Moderasi konten menggunakan isyarat berbasis audio dan teks untuk mengidentifikasi dan mengklasifikasikan konten beracun berbasis suara ke dalam tujuh kategori berbeda: 
+ Kata-kata ****kotor****: Pidato yang berisi kata-kata, frasa, atau akronim yang tidak sopan, vulgar, atau menyinggung.
+ ****Ucapan kebencian:**** Pidato yang mengkritik, menghina, mencela, atau merendahkan seseorang atau kelompok berdasarkan identitas (seperti ras, etnis, jenis kelamin, agama, orientasi seksual, kemampuan, dan asal kebangsaan).
+  ****Seksual:**** Pidato yang menunjukkan minat seksual, aktivitas, atau gairah menggunakan referensi langsung atau tidak langsung ke bagian tubuh, sifat fisik, atau jenis kelamin.
+ ****Penghinaan:**** Pidato yang mencakup bahasa yang merendahkan, mempermalukan, mengejek, menghina, atau meremehkan. Jenis bahasa ini juga diberi label sebagai bullying
+ ****Kekerasan atau ancaman:**** Pidato yang mencakup ancaman yang berusaha menimbulkan rasa sakit, cedera, atau permusuhan terhadap seseorang atau kelompok.
+ ****Grafis:**** Pidato yang menggunakan citra visual deskriptif dan jelas yang tidak menyenangkan. Jenis bahasa ini sering sengaja bertele-tele untuk memperkuat ketidaknyamanan penerima.
+ ****Pelecehan atau pelecehan:**** Pidato dimaksudkan untuk memengaruhi kesejahteraan psikologis penerima, termasuk istilah yang merendahkan dan mengobjektifikasi. Jenis bahasa ini juga diberi label sebagai pelecehan.

## Output Standar Audio
<a name="audio-standard-output-example"></a>

Bagian ini berfokus pada objek respons berbeda yang Anda terima dari menjalankan operasi API InvokeDataAutomation pada file audio. Di bawah ini kita akan memecah setiap bagian dari objek respons dan kemudian melihat respons penuh dan terisi untuk dokumen contoh. Bagian pertama yang akan kami terima adalah`metadata`.

```
 "metadata": {
    "asset_id": "0",
    "semantic_modality": "AUDIO",
    "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1",
    "s3_key": "demo-assets/Audio/AWS_TCA-Call-Recording-2.wav",
    "sample_rate": 8000,
    "bitrate": 256000,
    "number_of_channels": 2,
    "codec": "pcm_s16le",
    "duration_millis": 237560,
    "format": "wav",
    "dominant_asset_language": "EN",
    "generative_output_language": "DEFAULT/EN"
  }
```

Bagian ini memecah informasi tentang file seperti lokasi s3, bitrate, saluran audio, dan formatnya. Selanjutnya kita lihat`audio_items`.

`dominant_asset_language`menunjukkan bahasa apa yang paling hadir dalam sepotong audio berdasarkan panjang dalam hitungan detik. `generative_output_language`menunjukkan bahasa mana output respons akan masuk. Ketika diatur ke “DEFAULT” itu akan menggunakan bahasa dominan.

```
"audio_items": [
    {
      "item_index": 0,
      "audio_segment_index": 0,
      "content": "Auto",
      "start_timestamp_millis": 9,
      "end_timestamp_millis": 119
    },
    ...
]
```

Bagian item mencakup rincian file audio berdasarkan suara demi suara. Setiap item biasanya tentang panjang kata. Item\$1index menunjukkan tempat item dalam indisi audio\$1items, dan audio\$1segment\$1index menunjukkan di mana ia berada dalam indeks segmen yang akan kita bahas selanjutnya.

```
"audio_segments": [
    {
      "start_timestamp_millis": 0,
      "end_timestamp_millis": 1970,
      "segment_index": 0,
      "type": "TRANSCRIPT",
      "text": "Auto sales, Cherry speaking. How can I help you?",
      "speaker": {
        "speaker_label": "spk_0"
      },
      "channel": {
        "channel_label": "ch_0"
      },
      "audio_item_indices": [
        0,
        1,
        2,
        3,
        4,
        5,
        6,
        7,
        8,
        9,
        10,
        11
      ],
      "language": "EN"
    },
    ...
]
```

Di sini kita mendapatkan rincian file berdasarkan rentang waktu yang lebih lama, dengan setiap segmen sama dengan kira-kira satu kalimat. Ini memberi tahu kita item audio mana yang termasuk dalam segmen dan teks segmen itu sendiri. Selanjutnya mari kita lihat moderasi konten.

Dengan pelabelan speaker dan saluran diaktifkan, Anda dapat melihat `speaker_label` dan `channel_label` bagian yang menunjukkan speaker dan saluran mana yang ada di segmen ini.

```
"content_moderation": [
      {
        "id": "93068e72-290d-4aad-8717-a2cd0e02b0d0",
        "type": "AUDIO_MODERATION",
        "confidence": 0.0476,
        "start_timestamp_millis": 0,
        "end_timestamp_millis": 1970,
        "moderation_categories": [
          {
            "category": "profanity",
            "confidence": 0.1582
          },
          ...
        ]
      },
      ...
]
```

Bagian moderasi konten melewati setiap segmen individu dan menganalisisnya untuk salah satu dari tujuh kategori moderasi, memberikan skor kepercayaan untuk setiap bagian. Bagian selanjutnya adalah topik.

```
"topics": [
    {
      "topic_index": 0,
      "start_timestamp_millis": 0,
      "end_timestamp_millis": 36790,
      "summary": "As follows:\n\nSuzanne, a customer, recently had her Hyundai serviced at the auto sales shop where Carrie works. Suzanne had a 3 p.m. appointment and got her car serviced, which included an oil change and filter changes. However, when Suzanne left the shop, her oil light was still on, which she found concerning. Carrie acknowledged that this sometimes happens, even after a service visit, and assured Suzanne that she would look into the issue further.",
      "transcript": {
        "representation": {
          "text": "Auto sales, Cherry speaking. How can I help you? Yeah, hi Carrie, um, my name is Suzanne. I literally just left your shop. Um, I just went in and got my Hyundai service. Um, it just was, it just needed like filter error changes oil change and all that kind of stuff, um, but. When I left and my oil light is still on and I don't know why. Got it. You just got it serviced here, but when you drove off the light was still on. Is that what happened? Yeah, yeah, yeah, like I literally like I had a 3 p.m. appointment and I just got it, you know, believe it or not, this, this happens."
        }
      },
      "audio_segment_indices": [
        0,
        1,
        2,
        3,
        4,
        5,
        6,
        7,
        8,
        9,
        10
      ]
    },
    ...
]
```

Bagian topik adalah tingkat granularitas berikutnya dari segmen. Ini adalah pengelompokan segmen yang dipecah secara kasar berdasarkan konsep. Setiap topik dilengkapi dengan ringkasan topik yang dihasilkan, dan tes topik yang tepat. Bagian terakhir dari tanggapan kami adalah statistik.

```
 "statistics": {
    "word_count": 749,
    "topic_count": 4
  }
```

Bagian ini merangkum informasi tentang file audio. Ini termasuk jumlah kata dan topik total.