# 視覚理解のプロンプト手法
<a name="prompting-vision-prompting"></a>

**注記**  
このドキュメントは Amazon Nova バージョン 1 を対象としています。Amazon Nova 2 でマルチモーダルの理解のプロンプトを行う方法については、「[マルチモーダル入力のプロンプト（Prompting multimodal inputs）](https://docs.aws.amazon.com/nova/latest/nova2-userguide/prompting-multimodal.html)」を参照してください。

次の視覚プロンプト手法は、Amazon Nova のより良いプロンプトを作成するのに役立ちます。

**Topics**
+ [配置が重要](#prompting-video-placement)
+ [視覚コンポーネントを含む複数のメディアファイル](#prompting-video-vision-components)
+ [ビジョン理解タスクに従った指示を改善するためのユーザー指示を使用する](#prompting-video-instructions)
+ [Few-Shot サンプル](#prompting-video-exemplars)
+ [境界ボックスの検出](#prompting-video-bounding)
+ [充実した出力またはスタイル](#prompting-video-richer-output)
+ [ドキュメントコンテンツを Markdown に抽出する](#prompting-video-markdown)
+ [視覚理解の推論パラメータ設定](#prompting-video-parameters)
+ [動画分類](#prompting-video-classification)

## 配置が重要
<a name="prompting-video-placement"></a>

ドキュメントを追加する前にメディアファイル (イメージや動画など) を配置し、その後に指示テキストやプロンプトを付けてモデルをガイドすることをお勧めします。テキストの後に配置されたイメージやテキストが散在したイメージは引き続き適切に動作しますが、ユースケースで許可されている場合は、*\$1media\$1file\$1の後に\$1text\$1* 構造が推奨されます。

次のテンプレートを使用して、視覚理解を実行するときに、テキストの前にメディアファイルを配置できます。

```
{
      "role": "user",
      "content": [
        {
          "image": "..."
        },
        {
          "video": "..."
        },
        {
          "document": "..."
        },
        {
          "text": "..."
        }
      ]
}
```

### 例: テキスト前のメディア
<a name="vision-collapsible"></a>


|  | **構造化されていない** | 最適化されたプロンプト | 
| --- |--- |--- |
| ユーザー | イメージ [Image1.png] で何が起こっているか説明してください |  [Image1.png] イメージで何が起こっているかを説明してください。  | 

## 視覚コンポーネントを含む複数のメディアファイル
<a name="prompting-video-vision-components"></a>

ターン間で複数のメディアファイルを提供する場合は、各イメージに番号付きのラベルを付けます。たとえば、2 つのイメージを使用する場合は、`Image 1:` と `Image 2:` のラベルを付けます。3 つの動画を使用する場合は、`Video 1:`、` Video 2:`、`Video 3:` のラベルを付けます。イメージ間、またはイメージとプロンプト間の改行は必要ありません。

次のテンプレートを使用して、複数のメディアファイルを配置できます。

```
messages = [
        {
            "role": "user",
            "content": [
                {"text":"Image 1:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_1_base64}}},
                {"text":"Image 2:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_2_base64}}},
                {"text":"Image 3:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_3_base64}}},
                {"text":"Image 4:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_4_base64}}},
                {"text":"Image 5:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_5_base64}}},
                {"text":user_prompt},
            ],
        }
    ]
```


| 最適化されていないプロンプト | 最適化されたプロンプト | 
| --- |--- |
|  2 番目のイメージに写っているものを説明してください。 [Image1.png] [Image2.png]  |  [Image1.png] [Image2.png] 2 番目のイメージに写っているものを説明してください。  | 
|  2 番目のイメージは、含まれているドキュメントに記載されていますか。 [Image1.png] [Image2.png] [Document1.pdf]  |  [Image1.png] [Image2.png] [Document1.pdf] 2 番目のイメージは、含まれているドキュメントに記載されていますか。  | 

メディアファイルタイプのコンテキストトークンが長いため、プロンプトの先頭に示されているシステムプロンプトは、場合によっては反映されないことがあります。今回は、システム指示をユーザーターンに移動し、*\$1media\$1file\$1の後に\$1text\$1* の一般的なガイダンスに従うことをお勧めします。これは、RAG、エージェント、またはツールの使用に関するシステムプロンプトには影響しません。

## ビジョン理解タスクに従った指示を改善するためのユーザー指示を使用する
<a name="prompting-video-instructions"></a>

動画理解においては、コンテキスト内のトークンの数により、[配置が重要](#prompting-video-placement) の推奨事項が非常に重要になります。トーンやスタイルなど、より一般的な場合は、システムプロンプトを使用します。パフォーマンスを向上させるために、ユーザープロンプトの一部として動画関連の指示を維持することをお勧めします。

次のテンプレートを使用して指示を改善できます。

```
{
    "role": "user",
    "content": [
       {
           "video": {
                "format": "mp4",
                "source": { ... }
           }
       },
       {
           "text": "You are an expert in recipe videos. Describe this video in less than 200 words following these guidelines: ..."
       }
    ]
}
```

テキストと同様に、画像や動画に思考連鎖を適用してパフォーマンスを向上させることをお勧めします。また、システムプロンプトには思考連鎖ディレクティブを配置し、ユーザープロンプトには他の指示を保持することをお勧めします。

**重要**  
Amazon Nova Premier モデルは、Amazon Nova ファミリーの高度なインテリジェンスモデルであり、より複雑なタスクを処理できます。タスクで高度な思考連鎖の思考が必要な場合は、「[Amazon Nova に思考時間を与える (思考連鎖)](https://docs.aws.amazon.com/nova/latest/userguide/prompting-chain-of-thought.html)」で提供されているプロンプトテンプレートを使用することをお勧めします。このアプローチは、モデルの分析能力と問題解決能力を強化するのに役立ちます。

## Few-Shot サンプル
<a name="prompting-video-exemplars"></a>

テキストモデルと同様に、イメージの理解パフォーマンスを向上させるためにイメージの例を提供することをお勧めします (single-video-per-inference の制限のため、動画の例は提供できません）。システムプロンプトで提供するのではなく、メディアファイルの後に例をユーザープロンプトに配置することをお勧めします。


|  | 0-Shot | 2-Shot | 
| --- |--- |--- |
| User |  | [Image 1] | 
| Assistant |  | The image 1 description | 
| User |  | [Image 2] | 
| Assistant |  | The image 2 description | 
| User | [イメージ 3] イメージで何が起こっているかを説明する | [イメージ 3] イメージで何が起こっているかを説明する | 

## 境界ボックスの検出
<a name="prompting-video-bounding"></a>

オブジェクトの境界ボックス座標を識別する必要がある場合は、Amazon Nova モデルを使用して、[0, 1000] のスケールで境界ボックスを出力できます。これらの座標を取得したら、後処理ステップとしてイメージサイズに基づいてサイズを変更できます。この後処理ステップを実行する方法の詳細については、「[Amazon Nova Image Grounding notebook](https://github.com/aws-samples/amazon-nova-samples/blob/main/multimodal-understanding/repeatable-patterns/13-image-grounding/image_grounding.ipynb)」を参照してください。

境界ボックス検出のサンプルプロンプトを次に示します。

```
Detect bounding box of objects in the image, only detect {item_name} category objects with high confidence, output in a list of bounding box format.
Output example:
[
    {"{item_name}": [x1, y1, x2, y2]},
    ...
]

Result:
```

## 充実した出力またはスタイル
<a name="prompting-video-richer-output"></a>

動画理解の出力は非常に短い場合があります。より長い出力が必要な場合は、モデルのペルソナを作成することをお勧めします。このペルソナは、システムロールの使用と同様に、希望する方法で応答するように指示できます。

レスポンスをさらに変更するには、[ワンショットと数ショットの手法](prompting-examples.md)を使用します。良いレスポンスとは何かの例を示し、モデルはその形式を模倣しながら回答を生成できます。

## ドキュメントコンテンツを Markdown に抽出する
<a name="prompting-video-markdown"></a>

Amazon Nova Premier は、ドキュメントに埋め込まれたグラフを理解する拡張機能と、科学論文などの複雑なドメインからコンテンツを読み取って理解する機能を示しています。さらに、Amazon Nova Premier はドキュメントコンテンツを抽出する際のパフォーマンスが向上し、この情報を Markdown Table 形式と Latex 形式で出力できます。

次の例は、イメージ内のテーブルと、Amazon Nova Premier がイメージの内容を Markdown テーブルに変換するためのプロンプトを示しています。Markdown (または Latex Representation) を作成したら、ツールを使用してコンテンツを JSON またはその他の構造化出力に変換できます。

```
Make a table representation in Markdown of the image provided.
```

![\[ドキュメントとしてではなくイメージとして提供されるデータテーブル\]](http://docs.aws.amazon.com/ja_jp/nova/latest/userguide/images/tableInImage.png)


モデルによって提供される出力は次のとおりです。

```
| No. | DATE       | DESCRIPTION | AMOUNT |
|-----|------------|-------------|--------|
| 1   | 2021-04-19 | Guest room  | $180   |
| 2   | 2021-04-19 | Breakfast   | $30    |
| 3   | 2021-04-20 | Guest room  | $180   |
| 4   | 2021-04-20 | Laundry     | $15    |
| 5   | 2021-04-20 | Dinner      | $70    |
| 6   | 2021-04-20 | Breakfast   | $30    |
| 7   | 2021-04-21 | Guest room  | $180   |
| 8   | 2021-04-21 | Breakfast   | $30    |
| 9   | 2021-04-21 | Dinner      | $70    |
| 10  | 2021-04-21 | Laundry     | $15    |
|     |            | Subtotal    | $800   |
|     |            | Discounts   | $24    |
|     |            | Taxes       | $68.9  |
|     |            | Total       | $844.9 |
```

この出力では、`||` が列区切り文字として、`&&` が行区切り文字として使用されるカスタムテーブル表記を使用します。

## 視覚理解の推論パラメータ設定
<a name="prompting-video-parameters"></a>

視覚理解のユースケースについては、推論パラメータ `temperature` を **0** に、`topK` を **1** に設定して開始することをお勧めします。モデルの出力を確認したら、ユースケースに基づいて推論パラメータを調整できます。これらの値は通常、必要なタスクと分散により異なり、回答のバリエーションを誘導するために温度設定を増やします。

## 動画分類
<a name="prompting-video-classification"></a>

動画コンテンツを適切なカテゴリに効果的にソートするには、モデルが分類に使用できるカテゴリを指定します。次のサンプルプロンプトを検討してください。

```
[Video]

Which category would best fit this video? Choose an option from the list below:
\Education\Film & Animation\Sports\Comedy\News & Politics\Travel & Events\Entertainment\Trailers\How-to & Style\Pets & Animals\Gaming\Nonprofits & Activism\People & Blogs\Music\Science & Technology\Autos & Vehicles
```

**動画のタグ付け**  
Amazon Nova Premier では、動画タグを作成するための改善された機能を紹介しています。最良の結果を得るには、カンマ区切りタグを要求する以下の手順 [カンマを使用して各タグを区切る] を使用します。プロンプトの例を次に示します。

```
[video]

"Can you list the relevant tags for this video? Use commas to separate each tag."
```

**動画の高密度キャプション**  
Amazon Nova Premier は、高密度キャプションを提供する拡張機能をデモンストレーションします。これは、動画内の複数のセグメントに対して生成された詳細なテキスト説明です。プロンプトの例を次に示します。

```
[Video]

Generate a comprehensive caption that covers all major events and visual elements in the video.
```