

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Cara kerja Otomasi Data Batuan Dasar
<a name="bda-how-it-works"></a>

Bedrock Data Automation (BDA) memungkinkan Anda mengonfigurasi output berdasarkan kebutuhan pemrosesan Anda untuk tipe data tertentu: dokumen, gambar, video, atau audio. BDA dapat menghasilkan output standar atau output khusus. Di bawah ini adalah beberapa konsep kunci untuk memahami cara kerja BDA. Jika Anda pengguna baru, mulailah dengan informasi tentang output standar.
+ Output standar — Mengirim file ke BDA tanpa informasi lain mengembalikan output standar default, yang terdiri dari informasi yang umumnya diperlukan yang didasarkan pada tipe data. Contohnya termasuk transkripsi audio, ringkasan adegan untuk video, dan ringkasan dokumen. Output ini dapat disetel ke kasus penggunaan Anda menggunakan proyek untuk memodifikasinya. Untuk informasi selengkapnya, lihat [Output standar dalam Otomasi Data Batuan Dasar](bda-standard-output.md).
+ Output khusus - Hanya untuk dokumen, audio, dan gambar. Pilih keluaran khusus untuk menentukan dengan tepat informasi apa yang ingin Anda ekstrak menggunakan cetak biru. Cetak biru terdiri dari daftar bidang yang diharapkan yang ingin Anda ambil dari file. Setiap bidang mewakili sepotong informasi yang perlu diekstraksi untuk memenuhi kasus penggunaan spesifik Anda. Anda dapat membuat cetak biru Anda sendiri, atau memilih cetak biru yang telah ditentukan dari katalog cetak biru BDA. Untuk informasi selengkapnya, lihat [Output kustom dan cetak biru](bda-custom-output-idp.md).
+ Proyek — Sebuah proyek adalah sumber daya BDA yang memungkinkan Anda untuk memodifikasi dan mengatur konfigurasi output. Setiap proyek dapat berisi konfigurasi output standar untuk dokumen, gambar, video, dan audio, serta cetak biru keluaran khusus untuk dokumen, audio, dan gambar. Proyek direferensikan dalam panggilan `InvokeDataAutomationAsync` API untuk menginstruksikan BDA tentang cara memproses file. Untuk informasi selengkapnya tentang proyek dan kasus penggunaannya, lihat[Proyek Otomasi Data Batuan Dasar](bda-projects.md).

# Proyek Otomasi Data Batuan Dasar
<a name="bda-projects"></a>

Salah satu cara untuk memproses file menggunakan otomatisasi data Amazon Bedrock (BDA) adalah dengan membuat proyek. Sebuah proyek adalah pengelompokan konfigurasi output standar dan kustom. Output standar diperlukan dalam proyek, tetapi output khusus bersifat opsional. Saat Anda memanggil `InvokeDataAutomationAsync` API dengan ARN proyek, file akan diproses secara otomatis menggunakan pengaturan konfigurasi yang ditentukan dalam proyek tersebut. Output kemudian dihasilkan berdasarkan konfigurasi proyek.

Sebuah proyek dapat diberikan panggung, baik `LIVE` atau`DEVELOPMENT`. Setiap tahap adalah versi proyek yang unik dan bisa berubah. Ini berarti Anda dapat mengedit atau menguji dengan `DEVELOPMENT` panggung, dan memproses permintaan pelanggan menggunakan `LIVE` panggung. `DEVELOPMENT`proyek tidak dapat diakses di konsol, dan harus diubah dan dipanggil melalui API.

Sebuah proyek memungkinkan Anda untuk menggunakan sumber daya tunggal untuk beberapa jenis file. Misalnya, file audio yang dikirim ke BDA menggunakan nama proyek ABC akan diproses menggunakan konfigurasi output standar audio proyek ABC. Dokumen yang dikirim ke BDA menggunakan nama proyek ABC akan diproses menggunakan konfigurasi output standar dokumen proyek ABC.

Proyek memberi Anda fleksibilitas yang lebih besar saat menyiapkan output standar. Setiap output standar memiliki kumpulan opsi yang dapat dikonfigurasi sendiri, seperti transkrip atau ringkasan, dan proyek memungkinkan Anda mengubah opsi tersebut agar lebih sesuai dengan kasus penggunaan Anda. Anda juga dapat mengonfigurasi proyek dengan Blueprints untuk dokumen, audio, dan gambar untuk menentukan output kustom. Sebuah proyek dikonfigurasi untuk menghasilkan output kustom juga akan menghasilkan output standar secara otomatis.

Bagian berikut akan membahas beberapa contoh penggunaan proyek.

## Menggunakan Proyek dengan Output Standar
<a name="bda-standard-example"></a>

Mari pertimbangkan kasus penggunaan di mana Anda hanya tertarik untuk mengekstrak ringkasan transkrip dari file audio dan video lengkap Anda. Secara default, saat Anda mengirim file audio dan video ke BDA, Anda menerima ringkasan transkrip bersama dengan transkrip lengkap, ringkasan tingkat adegan, teks yang terdeteksi, dan informasi lainnya. Untuk kasus penggunaan ini, Anda tidak ingin menghabiskan waktu dan sumber daya ekstra untuk mengumpulkan informasi yang tidak Anda butuhkan. Untuk kasus penggunaan ini, Anda dapat mengonfigurasi proyek keluaran standar untuk mengaktifkan hanya fitur ringkasan untuk file audio dan video.

Untuk melakukan ini menggunakan API atau konsol, buat proyek dan ubah pengaturan output standar untuk audio dan video. Untuk video, aktifkan **Ringkasan Video Lengkap** tetapi pastikan bahwa ekstraksi lain (misalnya, Transkrip Audio Lengkap, Ringkasan Adegan, Moderasi Konten, dll.) Dinonaktifkan. Ulangi konfigurasi ini untuk audio. Setelah Anda mengonfigurasi proyek untuk hanya menghasilkan ringkasan, simpan proyek dan catat Nama Sumber Daya Amazon (ARN) proyek. ARN ini dapat digunakan untuk `InvokeDataAutomationAsync` operasi untuk memproses file Anda dalam skala besar. Dengan meneruskan file audio atau video ke BDA dan menentukan ARN proyek ini, Anda akan menerima output hanya ringkasan untuk masing-masing file. Catatan, dalam contoh ini tidak ada konfigurasi yang dilakukan untuk dokumen atau gambar. Ini berarti bahwa jika Anda meneruskan gambar atau dokumen ke BDA menggunakan ARN proyek itu, Anda akan menerima output standar default untuk file-file tersebut.

## Menggunakan proyek dengan output khusus dan output standar
<a name="bda-mixed-example"></a>

Untuk kasus penggunaan ini, mari kita asumsikan bahwa Anda ingin menghasilkan ringkasan output standar untuk dokumen dan file audio, dan juga mengekstrak bidang kustom dari dokumen Anda. Setelah Anda membuat proyek, konfigurasikan output standar untuk audio untuk mengaktifkan **Ringkasan audio lengkap** dan pastikan ekstraksi lain tidak diaktifkan. Ulangi konfigurasi keluaran standar ini untuk dokumen. Anda kemudian dapat mengonfigurasi keluaran khusus untuk dokumen dengan menambahkan cetak biru baru atau cetak biru yang sudah ada sebelumnya dari katalog global BDA. Dokumen yang diteruskan ke BDA menggunakan ARN proyek ini akan menghasilkan ringkasan dokumen lengkap keluaran standar dan keluaran cetak biru untuk bidang kustom yang ditentukan. File audio yang diteruskan ke BDA menggunakan ARN proyek ini akan menghasilkan ringkasan lengkap.

Saat memproses dokumen, Anda mungkin ingin menggunakan beberapa cetak biru untuk berbagai jenis dokumen yang diteruskan ke proyek Anda. Sebuah proyek dapat memiliki hingga 40 cetak biru dokumen terlampir. BDA secara otomatis mencocokkan dokumen Anda dengan cetak biru yang sesuai yang dikonfigurasi dalam proyek Anda, dan menghasilkan output khusus menggunakan cetak biru itu. Selain itu, Anda mungkin ingin meneruskan dokumen dalam jumlah besar. Jika Anda meneruskan file yang berisi beberapa dokumen, Anda dapat memilih untuk membagi dokumen saat membuat proyek Anda. Jika Anda memilih untuk melakukan ini, BDA memindai file dan membaginya menjadi dokumen individual berdasarkan konteks. Dokumen-dokumen individual tersebut kemudian dicocokkan dengan cetak biru yang benar untuk diproses.

Saat ini, gambar hanya mendukung definisi cetak biru tunggal per proyek. Jenis file gambar JPG dan PNG dapat diperlakukan sebagai gambar atau sebagai dokumen yang dipindai berdasarkan isinya. Kami menyarankan Anda membuat cetak biru khusus untuk gambar saat Anda memproses output khusus untuk dokumen sehingga BDA memberikan output yang diinginkan untuk file gambar yang berisi teks.

File audio juga hanya mendukung definisi cetak biru tunggal per proyek.

# Memisahkan dokumen saat menggunakan proyek
<a name="bda-document-splitting"></a>

Amazon Bedrock Data Automation (BDA) mendukung pemisahan dokumen saat menggunakan API. Amazon Bedrock Saat diaktifkan, pemisahan memungkinkan BDA untuk mengambil PDF yang berisi beberapa dokumen logis dan membaginya menjadi dokumen terpisah untuk diproses. 

Setelah pemisahan selesai, setiap segmen dokumen split diproses secara independen. Ini berarti dokumen masukan dapat berisi berbagai jenis dokumen. Misalnya, jika Anda memiliki PDF yang berisi 3 laporan bank dan satu W2, pemisahan akan mencoba membaginya menjadi 4 dokumen terpisah yang akan diproses secara individual.

Pemisahan otomatis BDA mendukung file hingga 3000 halaman, dan mendukung dokumen individual masing-masing hingga 20 halaman.

Opsi untuk membagi dokumen tidak aktif secara default, tetapi dapat diaktifkan saat menggunakan API. Di bawah ini adalah contoh membuat proyek dengan splitter diaktifkan. Ellipsies mewakili cetak biru tambahan yang disediakan untuk proyek.

```
   response = client.create_data_automation_project(
    projectName=project_name,
    projectDescription="Provide a project description",
    projectStage='LIVE',
    standardOutputConfiguration=output_config,
    customOutputConfiguration={
    'blueprints': [
        {
        'blueprintArn': Blueprint ARN,
        'blueprintStage': 'LIVE'
        },
        ...
        ]
        },
         overrideConfiguration={'document': {'splitter': {'state': 'ENABLED'}}}
)
```

Bagian yang memungkinkan proses pemisahan adalah baris OverrideConfiguration. Baris ini mengatur splitter dan memungkinkan Anda untuk melewati beberapa dokumen dalam file yang sama.

Dokumen dibagi oleh batas-batas semantik dalam dokumen. 

Pemisahan dokumen terjadi secara independen dari penerapan cetak biru, dan dokumen yang dibagi akan dicocokkan dengan cetak biru terdekat. Untuk informasi lebih lanjut tentang bagaimana BDA cocok dengan cetak biru lihat. [Memahami pencocokan cetak biru](#bda-blueprint-matching)

## Memahami pencocokan cetak biru
<a name="bda-blueprint-matching"></a>

Pencocokan cetak biru didasarkan pada elemen-elemen berikut:
+  Nama cetak biru 
+  Deskripsi cetak biru 
+  Bidang cetak biru 

Saat memproses dokumen, Anda dapat memberikan beberapa cetak biru untuk dicocokkan. Ini memungkinkan pemrosesan berbagai jenis dokumen dengan cetak biru yang sesuai. Anda dapat memberikan beberapa cetak biru IDs saat menjalankan API otomatisasi data, dan BDA akan mencoba mencocokkan setiap dokumen dengan cetak biru yang paling sesuai. Ini memungkinkan pemrosesan jenis dokumen campuran dalam satu batch. Ini berguna ketika dokumen diharapkan dari berbagai jenis (misalnya laporan bank, faktur, paspor).

Jika Anda memerlukan cetak biru terpisah karena format dokumen sangat berbeda atau memerlukan petunjuk khusus, membuat satu cetak biru per jenis dokumen dapat membantu pencocokan. Untuk informasi selengkapnya tentang membuat cetak biru yang berguna, lihat. [Praktik terbaik untuk membuat cetak biru](#bda-blueprint-best-practices)

## Praktik terbaik untuk membuat cetak biru
<a name="bda-blueprint-best-practices"></a>

 Ikuti praktik terbaik berikut untuk mendapatkan hasil maksimal dari cetak biru Anda: 
+ Bersikaplah eksplisit dan terperinci dalam nama cetak biru dan deskripsi untuk membantu pencocokan 
+ Menyediakan beberapa cetak biru yang relevan memungkinkan BDA untuk memilih yang paling cocok. Buat cetak biru terpisah untuk format dokumen yang berbeda secara signifikan 
+ Pertimbangkan untuk membuat cetak biru khusus untuk setiap vendor/document sumber, jika Anda membutuhkan akurasi maksimum
+ Jangan sertakan dua cetak biru dari jenis yang sama dalam sebuah proyek (misalnya dua cetak biru W2). Informasi dari dokumen itu sendiri dan cetak biru digunakan untuk memproses dokumen, dan termasuk beberapa cetak biru dari jenis yang sama dalam suatu proyek akan menyebabkan kinerja yang lebih buruk. 

Dengan memanfaatkan pemisahan dokumen dan beberapa pencocokan cetak biru, BDA dapat lebih fleksibel menangani beragam set dokumen sambil menerapkan logika ekstraksi yang paling tepat untuk setiap dokumen.

# Menonaktifkan modalitas dan jenis file routing
<a name="bda-routing-enablement"></a>

Secara default, proyek dalam proses BDA mendukung jenis file, dengan mengurutkannya ke modalitas semantik yang berbeda. Saat membuat atau mengedit proyek Anda, Anda dapat memodifikasi modalitas apa yang akan diproses, dan jenis file mana yang akan dikirim ke modalitas mana. Pada bagian ini, kita akan melalui mengaktifkan dan menonaktifkan modalitas yang berbeda, merutekan file ke modalitas tertentu, dan prosedur perutean default untuk BDA.

## Menonaktifkan pemrosesan modalitas
<a name="bda-modality-enablement"></a>

Ketika Anda membuat proyek, Anda mungkin memiliki kasus penggunaan dalam pikiran yang tidak termasuk memproses semua jenis file. Misalnya, Anda mungkin ingin hanya memproses dokumen dan file audio. Jika itu masalahnya, Anda tidak ingin BDA mengirim JPEG untuk diproses sebagai gambar atau MP4 untuk diproses sebagai video. Pengaktifan modalitas memungkinkan Anda untuk mematikan modalitas tertentu dalam sebuah proyek, mengkurasi tanggapan dari pemrosesan BDA.

**Menonaktifkan modalitas dengan Konsol BDA**  
Saat menggunakan konsol BDA, pengaktifan modalitas ditangani oleh daftar periksa, di mana Anda cukup memilih atau membatalkan pilihan setiap modalitas saat mengedit atau membuat Proyek Anda. Opsi ini terletak di bawah tab Pengaturan lanjutan. Setidaknya satu Modalitas harus dipilih untuk sebuah proyek.

![\[Modality enablement options with checkboxes for document, image, video, and audio.\]](http://docs.aws.amazon.com/id_id/bedrock/latest/userguide/images/bda/modalityenableconsole.png)


**Menonaktifkan modalitas dengan BDA API**  
Saat menggunakan BDA API, pengaktifan modalitas ditangani oleh elemen `overrideConfiguration` permintaan, yang terletak di operasi. `CreateDataAutomation` Setiap modalitas memiliki bagian asosiasi di mana Anda dapat mendeklarasikan modalitas atau. `ENABLED` `DISABLED` Di bawah ini adalah contoh `overrideConfiguration` elemen dengan hanya modalitas dokumen dan audio yang diaktifkan. Flag `modalityProcessing` diatur secara default ke `ENABLED`.

```
"overrideConfiguration" : {
    "document": {
        "splitter": {
            "state": ENABLED
        },
        "modalityProcessing": {
            "state": ENABLED
        },
    },
    "image": {
        "modalityProcessing": {
            "state": DISABLED
        }
    },
    "video": {
        "modalityProcessing": {
            "state": DISABLED 
        }
    },
    "audio": {
        "modalityProcessing": {
            "state": ENABLED
        }
    },
    ...
}
```

Ellipsies di akhir bagian ini menunjukkan penghapusan `modalityRouting` elemen, yang akan kita bahas lebih lanjut di bagian selanjutnya.

## Merutekan file ke jenis pemrosesan tertentu
<a name="bda-modality-routing"></a>

Jenis file tertentu dapat diarahkan ke modalitas yang berbeda, berdasarkan berbagai faktor. Dengan perutean modalitas, Anda dapat mengatur jenis file tertentu untuk merutekan ke pemrosesan modalitas tertentu secara manual. JPEGs dan PNGs dapat dialihkan ke pemrosesan dokumen atau gambar. MP4s dan MOVs dapat dialihkan ke pemrosesan video atau audio.

**Routing dengan Konsol BDA**  
Saat berada di tab Pengaturan lanjutan saat membuat atau mengedit cetak biru, Anda dapat memilih untuk menambahkan perutean modalitas manual baru. Ini memungkinkan Anda memilih salah satu dari 4 jenis file yang tersedia dan kemudian modalitas pemrosesan mana yang akan diarahkan. Di bawah ini adalah tangkapan layar konsol, dengan perutean modalitas manual yang mengirimkan file PNG ke modalitas pemrosesan dokumen.

**catatan**  
Pengaturan untuk file JPEG berlaku untuk file “.jpeg” dan “.jpg”. Pengaturan untuk MP4 pengaturan berlaku untuk kedua file “.mp4" “.m4v”.

![\[Gambar dari konsol AWS, menampilkan sepasang menu tarik-turun berlabel jenis file dan tujuan modalitas, dipilih sebagai PNG dan Dokumen.\]](http://docs.aws.amazon.com/id_id/bedrock/latest/userguide/images/bda/manualrouting.png)


**Routing dengan BDA API**  
Mirip dengan pengaktifan modalitas, perutean modalitas ditangani melalui elemen permintaan. `overrideConfiguration` Di bawah ini adalah contoh `modalityRouting` bagian dari`overrideConfiguration`. Contoh ini mengasumsikan semua modalitas diaktifkan, dan rute file JPEG dan PNG ke modalitas dokumen, dan MP4 dan file MOV ke modalitas audio.

```
...
   "modalityRouting": {
        "jpeg": DOCUMENT, 
        "png": DOCUMENT,  
        "mp4": AUDIO,     
        "mov": AUDIO      
    }
}
```

Ellipsies di awal contoh menunjukkan penghapusan sisa`overrideConfiguration`, yang dibahas lebih lanjut di bagian tentang pemberdayaan modalitas dan fungsionalitas pembagi dokumen.

## Perutean standar untuk API InvokeDataAutomationAsync
<a name="bda-standard-routing-async"></a>

Tanpa menyiapkan prosedur perutean Anda sendiri, BDA menggunakan serangkaian prosedur standar berdasarkan jenis file untuk menentukan modalitas apa yang akan dilalui BDA. Prosedur default tercantum dalam tabel di bawah ini.

PNGs dan JPEGs daftar Semantic Classifer sebagai perilaku default. Ini berarti bahwa BDA akan melihat indikator apakah file yang dikirimkan adalah gambar atau dokumen yang menggunakan model internal dan melakukan routing secara otomatis.


| Jenis File | Perilaku Perutean Default | 
| --- | --- | 
|  PNG  |  Pengklasifikasi Semantik; Baik Gambar atau Dokumen  | 
|  JPEG  |  Pengklasifikasi Semantik; Baik Gambar atau Dokumen  | 
|  PDF, TIFF  |  Dokumen  | 
|  MP4, MOV  |  Video  | 
|  AMR, FLAC, M4A, OGG, WEBM MP3, WAV  |  Audio  | 

## Perutean standar untuk API InvokeDataAutomation
<a name="bda-standard-routing-sync"></a>

[InvokeDataAutomation](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_data-automation-runtime_InvokeDataAutomation.html)API juga akan melihat indikator apakah file PNG atau JPEG yang dikirimkan adalah gambar atau dokumen yang menggunakan model internal dan melakukan routing secara otomatis. Prosedur default tercantum dalam tabel di bawah ini.

PNGs dan JPEGs daftar Semantic Classifier sebagai perilaku default. Ini berarti bahwa BDA akan melihat indikator apakah file yang dikirimkan adalah gambar atau dokumen yang menggunakan model internal dan melakukan routing secara otomatis. File PDF dan TIFF akan dialihkan ke modalitas Dokumen untuk diproses. InvokeDataAutomation API saat ini tidak mendukung file Audio dan Video.


| Jenis File | Perilaku Perutean Default | 
| --- | --- | 
|  PNG  |  Pengklasifikasi Semantik; Baik Gambar atau Dokumen  | 
|  JPEG  |  Pengklasifikasi Semantik; Baik Gambar atau Dokumen  | 
|  PDF, TIFF  |  Dokumen  | 