

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Pemahaman visi mendorong praktik terbaik
<a name="prompting-video-understanding"></a>

**catatan**  
Dokumentasi ini untuk Amazon Nova Versi 1. Untuk informasi tentang cara meminta pemahaman multimodal di Amazon Nova 2, kunjungi [Meminta input multimodal](https://docs.aws.amazon.com/nova/latest/nova2-userguide/prompting-multimodal.html).

Keluarga model Amazon Nova dilengkapi dengan kemampuan visi baru yang memungkinkan model untuk memahami dan menganalisis gambar dan video, sehingga membuka peluang menarik untuk interaksi multimodal. Bagian berikut menguraikan pedoman untuk bekerja dengan gambar dan video di Amazon Nova. Ini termasuk praktik terbaik, contoh kode, dan batasan yang relevan untuk dipertimbangkan.

Semakin tinggi kualitas gambar atau video yang Anda berikan, semakin besar kemungkinan model akan secara akurat memahami informasi dalam file media. Pastikan gambar atau video jelas dan bebas dari keburaman atau pikselasi yang berlebihan untuk menjamin hasil yang lebih akurat. Jika bingkai gambar atau video berisi informasi teks penting, verifikasi bahwa teks dapat dibaca dan tidak terlalu kecil. Hindari memotong konteks visual utama hanya untuk memperbesar teks.

Model Amazon Nova memungkinkan Anda untuk menyertakan satu video dalam payload, yang dapat disediakan baik dalam format base64 atau melalui URI Amazon S3. Saat menggunakan metode base64, ukuran muatan keseluruhan harus kurang dari 25 MB. Namun, Anda dapat menentukan URI Amazon S3 untuk pemahaman gambar, video, dan dokumen. Menggunakan Amazon S3 memungkinkan Anda memanfaatkan model untuk file yang lebih besar dan beberapa file media, tanpa dibatasi oleh batasan ukuran muatan keseluruhan. Amazon Nova dapat menganalisis video input dan menjawab pertanyaan, mengklasifikasikan video, dan meringkas informasi dalam video berdasarkan instruksi yang diberikan.

Model Amazon Nova memungkinkan Anda untuk memasukkan beberapa gambar dalam payload. Ukuran muatan total tidak boleh melebihi 25 MB. Model Amazon Nova dapat menganalisis gambar yang dilewatkan dan menjawab pertanyaan, mengklasifikasikan gambar, dan meringkas gambar berdasarkan instruksi yang diberikan.


**Informasi gambar**  

| Jenis File Media | Format File yang didukung | Metode Masukan | 
| --- |--- |--- |
| Citra | PNG, JPG, JPEG, GIF, WEBP | URI Base64 dan Amazon S3 | 


**Informasi video**  

| Format | Tipe MIME | Pengkodean Video | 
| --- |--- |--- |
| MKV | Video/x-matroska | H.264 | 
| MOV | video/quicktime |  H.264 H.265 ProRes  | 
| MP4 | Video/mp4 |  DIVX/XVID H.264 H.265 J2K () JPEG2000 MPEG-2 MPEG-4 Bagian 2 VP9  | 
| WEBM | Video/Webm |  VP8 VP9  | 
| FLV | Video/x-flv | FLV1 | 
| MPEG | Video/mpeg | MPEG-1 | 
| MPG | Video/mpg | MPEG-1 | 
| WMV | Video/wmv | MSMPEG4v3 (MP43) | 
| 3GPP | Video/3gpp | H.264 | 

Tidak ada perbedaan dalam jumlah token input video, terlepas dari apakah video diteruskan sebagai base64 (asalkan sesuai dengan batasan ukuran) atau melalui lokasi Amazon S3.

Perhatikan bahwa untuk format file 3gp, bidang “format” yang diteruskan dalam permintaan API harus dalam format “three\$1gp”.

Saat menggunakan Amazon S3, pastikan metadata “Content-Type” Anda disetel ke tipe MIME yang benar untuk video

**Topics**
+ [Video gerak panjang dan tinggi](#prompting-video-motion)
+ [Latensi](#prompting-video-latency)
+ [Teknik pendorong pemahaman visi](prompting-vision-prompting.md)

## Video gerak panjang dan tinggi
<a name="prompting-video-motion"></a>

Model ini melakukan pemahaman video dengan mengambil sampel bingkai video pada basis 1 frame per detik (FPS). Ini adalah keseimbangan antara menangkap detail dalam video dan mengkonsumsi token input yang digunakan, yang memengaruhi biaya, latensi, dan panjang video maksimum. Sementara pengambilan sampel satu peristiwa setiap detik harus cukup untuk kasus penggunaan umum, beberapa kasus penggunaan pada video gerak tinggi seperti video olahraga mungkin tidak berkinerja baik.

Untuk menangani video yang lebih panjang, laju pengambilan sampel dikurangi pada video lebih dari 16 menit menjadi 960 frame tetap, berjarak di sepanjang video untuk Amazon Nova Lite dan Amazon Nova Pro. Ini berarti bahwa, karena video semakin lama dari 16 menit, semakin rendah FPS dan lebih sedikit detail yang akan ditangkap. Hal ini memungkinkan untuk kasus penggunaan seperti meringkas video yang lebih panjang, tetapi memperburuk masalah dengan video gerak tinggi di mana detailnya penting. Untuk Amazon Nova Premier, laju pengambilan sampel 1 FPS diterapkan hingga batas 3.200 frame.

Dalam banyak kasus, Anda bisa mendapatkan sampling 1 FPS pada video yang lebih panjang dengan menggunakan langkah-langkah pra-pemrosesan dan beberapa panggilan. Video dapat dibagi menjadi segmen yang lebih kecil, kemudian setiap segmen dianalisis menggunakan kemampuan multi-model model. Tanggapan dikumpulkan dan langkah terakhir menggunakan text-to-text menghasilkan jawaban akhir. Perhatikan bahwa mungkin ada kehilangan konteks saat menyegmentasikan video dengan cara ini. Ini mirip dengan pengorbanan dalam chunking untuk kasus penggunaan RAG dan banyak teknik mitigasi yang sama mentransfer dengan baik, seperti jendela geser.

Perhatikan bahwa segmentasi video juga dapat mengurangi latensi karena analisis dilakukan secara paralel, tetapi dapat menghasilkan lebih banyak token input secara signifikan, yang memengaruhi biaya.

## Latensi
<a name="prompting-video-latency"></a>

Video bisa berukuran besar. Meskipun kami menyediakan sarana untuk menangani file hingga 1 GB dengan mengunggahnya ke Amazon S3, membuat muatan pemanggilan sangat ramping, model masih perlu memproses sejumlah besar token yang berpotensi besar. Jika Anda menggunakan Amazon Bedrock panggilan sinkron seperti Invoke atau Converse, pastikan SDK Anda dikonfigurasi dengan batas waktu yang sesuai.

Terlepas dari itu, Amazon S3 URI adalah cara yang lebih disukai ketika latensi adalah faktor. Segmentasi video seperti yang dijelaskan di bagian sebelumnya adalah strategi lain. Pra-pemrosesan video resolusi tinggi dan kecepatan bingkai tinggi ke bawah juga dapat menghemat bandwidth dan pemrosesan pada ukuran layanan, menurunkan latensi.

# Teknik pendorong pemahaman visi
<a name="prompting-vision-prompting"></a>

**catatan**  
Dokumentasi ini untuk Amazon Nova Versi 1. Untuk informasi tentang cara meminta pemahaman multimodal di Amazon Nova 2, kunjungi [Meminta input multimodal](https://docs.aws.amazon.com/nova/latest/nova2-userguide/prompting-multimodal.html).

Teknik bimbingan visi berikut akan membantu Anda membuat petunjuk yang lebih baik untuk Amazon Nova.

**Topics**
+ [Penempatan penting](#prompting-video-placement)
+ [Beberapa file media dengan komponen penglihatan](#prompting-video-vision-components)
+ [Gunakan instruksi pengguna untuk instruksi yang lebih baik berikut untuk tugas pemahaman visi](#prompting-video-instructions)
+ [Beberapa contoh tembakan](#prompting-video-exemplars)
+ [Deteksi kotak pembatas](#prompting-video-bounding)
+ [Output atau gaya yang lebih kaya](#prompting-video-richer-output)
+ [Ekstrak isi dokumen ke Markdown](#prompting-video-markdown)
+ [Pengaturan parameter inferensi untuk pemahaman visi](#prompting-video-parameters)
+ [Klasifikasi video](#prompting-video-classification)

## Penempatan penting
<a name="prompting-video-placement"></a>

Kami menyarankan Anda menempatkan file media (seperti gambar atau video) sebelum menambahkan dokumen apa pun, diikuti dengan teks instruksional Anda atau petunjuk untuk memandu model. Sementara gambar yang ditempatkan setelah teks atau diselingi dengan teks akan tetap berkinerja memadai, jika kasus penggunaan memungkinkan, struktur *\$1media\$1file\$1 -then- \$1text\$1* adalah pendekatan yang lebih disukai.

Template berikut dapat digunakan untuk menempatkan file media sebelum teks saat melakukan pemahaman visi.

```
{
      "role": "user",
      "content": [
        {
          "image": "..."
        },
        {
          "video": "..."
        },
        {
          "document": "..."
        },
        {
          "text": "..."
        }
      ]
}
```

### Contoh: Media sebelum teks
<a name="vision-collapsible"></a>


|  | **Tidak terstruktur diikuti** | Prompt yang Dioptimalkan | 
| --- |--- |--- |
| Pengguna | Jelaskan apa yang terjadi pada gambar [Image1.png] |  [Image1.png] Jelaskan apa yang terjadi pada gambar?  | 

## Beberapa file media dengan komponen penglihatan
<a name="prompting-video-vision-components"></a>

Dalam situasi di mana Anda menyediakan beberapa file media secara bergantian, perkenalkan setiap gambar dengan label bernomor. Misalnya, jika Anda menggunakan dua gambar, beri label `Image 1:` dan`Image 2:`. Jika Anda menggunakan tiga video, beri label`Video 1:`,` Video 2:`, dan`Video 3:`. Anda tidak perlu baris baru antara gambar atau antara gambar dan prompt.

Template berikut dapat digunakan untuk menempatkan beberapa file media:

```
messages = [
        {
            "role": "user",
            "content": [
                {"text":"Image 1:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_1_base64}}},
                {"text":"Image 2:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_2_base64}}},
                {"text":"Image 3:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_3_base64}}},
                {"text":"Image 4:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_4_base64}}},
                {"text":"Image 5:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_5_base64}}},
                {"text":user_prompt},
            ],
        }
    ]
```


| Prompt Tidak Dioptimalkan | Prompt yang Dioptimalkan | 
| --- |--- |
|  Jelaskan apa yang Anda lihat di gambar kedua. [Image1.png] [Image2.png]  |  [Image1.png] [Image2.png] Jelaskan apa yang Anda lihat di gambar kedua.  | 
|  Apakah gambar kedua dijelaskan dalam dokumen yang disertakan? [Image1.png] [Image2.png] [Document1.pdf]  |  [Image1.png] [Image2.png] [Document1.pdf] Apakah gambar kedua dijelaskan dalam dokumen yang disertakan?  | 

Karena token konteks panjang dari jenis file media, prompt sistem yang ditunjukkan di awal prompt mungkin tidak dihormati dalam kesempatan tertentu. Pada kesempatan ini, kami menyarankan Anda memindahkan instruksi sistem apa pun ke giliran pengguna dan mengikuti panduan umum *\$1media\$1file\$1 -then- \$1text\$1*. Ini tidak memengaruhi permintaan sistem dengan RAG, agen, atau penggunaan alat.

## Gunakan instruksi pengguna untuk instruksi yang lebih baik berikut untuk tugas pemahaman visi
<a name="prompting-video-instructions"></a>

Untuk pemahaman video, jumlah token dalam konteks membuat rekomendasi menjadi [Penempatan penting](#prompting-video-placement) sangat penting. Gunakan prompt sistem untuk hal-hal yang lebih umum seperti nada dan gaya. Kami menyarankan agar Anda menyimpan instruksi terkait video sebagai bagian dari permintaan pengguna untuk kinerja yang lebih baik.

Template berikut dapat digunakan untuk instruksi yang lebih baik:

```
{
    "role": "user",
    "content": [
       {
           "video": {
                "format": "mp4",
                "source": { ... }
           }
       },
       {
           "text": "You are an expert in recipe videos. Describe this video in less than 200 words following these guidelines: ..."
       }
    ]
}
```

Sama seperti teks, kami merekomendasikan chain-of-thought untuk menerapkan gambar dan video untuk mendapatkan kinerja yang lebih baik. Kami juga menyarankan agar Anda menempatkan chain-of-thought arahan dalam prompt sistem, sambil menyimpan instruksi lain di prompt pengguna.

**penting**  
Model Amazon Nova Premier adalah model kecerdasan yang lebih tinggi dalam keluarga Amazon Nova, mampu menangani tugas yang lebih kompleks. Jika tugas Anda memerlukan chain-of-thought pemikiran lanjutan, kami sarankan Anda menggunakan template prompt yang disediakan di [Berikan Amazon Nova waktu untuk berpikir (chain-of-thought)](https://docs.aws.amazon.com/nova/latest/userguide/prompting-chain-of-thought.html). Pendekatan ini dapat membantu meningkatkan kemampuan analitis dan pemecahan masalah model.

## Beberapa contoh tembakan
<a name="prompting-video-exemplars"></a>

Sama seperti untuk model teks, kami menyarankan Anda memberikan contoh gambar untuk meningkatkan kinerja pemahaman gambar (contoh video tidak dapat disediakan, karena keterbatasan). single-video-per-inference Kami menyarankan Anda menempatkan contoh di prompt pengguna, setelah file media, sebagai lawan menyediakannya di prompt sistem.


|  | 0-Tembakan | 2-Tembakan | 
| --- |--- |--- |
| Pengguna |  | [Gambar 1] | 
| Asisten |  | Gambar 1 deskripsi | 
| Pengguna |  | [Gambar 2] | 
| Asisten |  | Gambar 2 deskripsi | 
| Pengguna | [Gambar 3] Jelaskan apa yang terjadi pada gambar | [Gambar 3] Jelaskan apa yang terjadi pada gambar | 

## Deteksi kotak pembatas
<a name="prompting-video-bounding"></a>

Jika Anda perlu mengidentifikasi koordinat kotak pembatas untuk suatu objek, Anda dapat menggunakan model Amazon Nova untuk mengeluarkan kotak pembatas pada skala [0, 1000). Setelah Anda memperoleh koordinat ini, Anda kemudian dapat mengubah ukurannya berdasarkan dimensi gambar sebagai langkah pasca-pemrosesan. Untuk informasi lebih rinci tentang cara mencapai langkah pasca-pemrosesan ini, silakan merujuk ke notebook [Amazon Nova Image Grounding](https://github.com/aws-samples/amazon-nova-samples/blob/main/multimodal-understanding/repeatable-patterns/13-image-grounding/image_grounding.ipynb).

Berikut ini adalah contoh prompt untuk deteksi kotak pembatas:

```
Detect bounding box of objects in the image, only detect {item_name} category objects with high confidence, output in a list of bounding box format.
Output example:
[
    {"{item_name}": [x1, y1, x2, y2]},
    ...
]

Result:
```

## Output atau gaya yang lebih kaya
<a name="prompting-video-richer-output"></a>

Output pemahaman video bisa sangat singkat. Jika Anda menginginkan output yang lebih lama, kami sarankan untuk membuat persona untuk model tersebut. Anda dapat mengarahkan persona ini untuk merespons dengan cara yang Anda inginkan, seperti memanfaatkan peran sistem.

Modifikasi lebih lanjut terhadap respons dapat dicapai dengan teknik [one-shot dan few-shot](prompting-examples.md). Berikan contoh tentang apa respons yang baik seharusnya dan model dapat meniru aspek-aspeknya sambil menghasilkan jawaban.

## Ekstrak isi dokumen ke Markdown
<a name="prompting-video-markdown"></a>

Amazon Nova Premier menunjukkan kemampuan yang ditingkatkan untuk memahami bagan yang tertanam dalam dokumen dan kemampuan untuk membaca dan memahami konten dari domain kompleks seperti makalah ilmiah. Selain itu, Amazon Nova Premier menunjukkan peningkatan kinerja saat mengekstraksi konten dokumen dan dapat menampilkan informasi ini ke dalam format Markdown Table dan Lateks.

Contoh berikut menyediakan tabel dalam gambar, bersama dengan prompt untuk Amazon Nova Premier mengonversi konten gambar ke tabel Markdown. Setelah Markdown (atau Representasi Lateks) dibuat, Anda dapat menggunakan alat untuk mengonversi konten menjadi JSON atau output terstruktur lainnya.

```
Make a table representation in Markdown of the image provided.
```

![\[Tabel data yang disediakan sebagai gambar, bukan sebagai dokumen\]](http://docs.aws.amazon.com/id_id/nova/latest/userguide/images/tableInImage.png)


Berikut adalah output yang disediakan oleh model:

```
| No. | DATE       | DESCRIPTION | AMOUNT |
|-----|------------|-------------|--------|
| 1   | 2021-04-19 | Guest room  | $180   |
| 2   | 2021-04-19 | Breakfast   | $30    |
| 3   | 2021-04-20 | Guest room  | $180   |
| 4   | 2021-04-20 | Laundry     | $15    |
| 5   | 2021-04-20 | Dinner      | $70    |
| 6   | 2021-04-20 | Breakfast   | $30    |
| 7   | 2021-04-21 | Guest room  | $180   |
| 8   | 2021-04-21 | Breakfast   | $30    |
| 9   | 2021-04-21 | Dinner      | $70    |
| 10  | 2021-04-21 | Laundry     | $15    |
|     |            | Subtotal    | $800   |
|     |            | Discounts   | $24    |
|     |            | Taxes       | $68.9  |
|     |            | Total       | $844.9 |
```

Output ini menggunakan notasi tabel kustom di mana `||` digunakan sebagai pemisah kolom dan `&&` digunakan sebagai pemisah baris.

## Pengaturan parameter inferensi untuk pemahaman visi
<a name="prompting-video-parameters"></a>

Untuk kasus penggunaan pemahaman visi, kami menyarankan Anda memulai dengan parameter inferensi yang `temperature` disetel **0** dan `topK` disetel ke**1**. Setelah mengamati keluaran model, Anda kemudian dapat menyesuaikan parameter inferensi berdasarkan kasus penggunaan. Nilai-nilai ini biasanya tergantung pada tugas dan varians yang diperlukan, meningkatkan pengaturan suhu untuk menginduksi lebih banyak variasi dalam jawaban.

## Klasifikasi video
<a name="prompting-video-classification"></a>

Untuk mengurutkan konten video secara efektif ke dalam kategori yang sesuai, berikan kategori yang dapat digunakan model untuk klasifikasi. Pertimbangkan contoh prompt berikut:

```
[Video]

Which category would best fit this video? Choose an option from the list below:
\Education\Film & Animation\Sports\Comedy\News & Politics\Travel & Events\Entertainment\Trailers\How-to & Style\Pets & Animals\Gaming\Nonprofits & Activism\People & Blogs\Music\Science & Technology\Autos & Vehicles
```

**Menandai video**  
Amazon Nova Premier menampilkan fungsionalitas yang ditingkatkan untuk membuat tag video. Untuk hasil terbaik, gunakan instruksi berikut yang meminta tag dipisahkan koma, “Gunakan koma untuk memisahkan setiap tag”. Berikut adalah contoh prompt:

```
[video]

"Can you list the relevant tags for this video? Use commas to separate each tag."
```

**Teks Video yang Padat**  
Amazon Nova Premier menunjukkan kemampuan yang ditingkatkan untuk memberikan teks padat - deskripsi tekstual terperinci yang dihasilkan untuk beberapa segmen dalam video. Berikut adalah contoh prompt:

```
[Video]

Generate a comprehensive caption that covers all major events and visual elements in the video.
```