

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Bonnes pratiques en matière de compréhension visuelle
<a name="prompting-video-understanding"></a>

**Note**  
Cette documentation concerne la version 1 d'Amazon Nova. Pour plus d'informations sur la manière de favoriser la compréhension multimodale dans Amazon Nova 2, consultez [Proposer des entrées multimodales](https://docs.aws.amazon.com/nova/latest/nova2-userguide/prompting-multimodal.html).

La famille de modèles Amazon Nova est dotée de nouvelles capacités visuelles qui lui permettent de comprendre et d’analyser des images et des vidéos, ouvrant ainsi de nouvelles perspectives pour l’interaction multimodale. Les sections suivantes présentent des directives pour travailler avec des images et des vidéos dans Amazon Nova. Elles comprennent les bonnes pratiques, des exemples de code et les limitations pertinentes à prendre en compte.

Plus les images ou les vidéos que vous fournissez sont de haute qualité, plus les modèles auront de chances de comprendre avec précision les informations contenues dans le fichier multimédia. Assurez-vous que les images ou les vidéos sont claires et exemptes de flou ou de pixellisation excessive afin de garantir des résultats plus précis. Si les images ou les vidéos contiennent des informations textuelles importantes, vérifiez que le texte est lisible et pas trop petit. Évitez de recadrer le contexte visuel clé uniquement pour agrandir le texte.

Les modèles Amazon Nova vous permettent d’inclure une seule vidéo dans les données utiles, qui peut être fournie au format base64 ou via une URI Amazon S3. Lorsque vous utilisez la méthode base64, la taille totale des données utiles doit être inférieure à 25 Mo. Cependant, vous pouvez spécifier une URI Amazon S3 pour la compréhension des images, des vidéos et des documents. L’utilisation d’Amazon S3 vous permet d’exploiter le modèle pour des fichiers plus volumineux et plusieurs fichiers multimédias, sans être limité par la taille globale des données utiles. Amazon Nova peut analyser la vidéo d’entrée et répondre à des questions, classer une vidéo et résumer les informations contenues dans la vidéo en fonction des instructions fournies.

Les modèles Amazon Nova vous permettent d’inclure plusieurs images dans les données utiles. La taille totale des données utiles ne peut pas dépasser 25 Mo. Les modèles Amazon Nova peuvent analyser les images transmises et répondre à des questions, classer une image et résumer des images en fonction des instructions fournies.


**Informations sur l’image**  

| Type de fichier multimédia | Formats de fichier pris en charge | Méthode de saisie | 
| --- |--- |--- |
| Image | PNG, JPG, JPEG, GIF, WebP | Base64 et URI Amazon S3 | 


**Informations sur la vidéo**  

| Format | Type MIME | Encodage vidéo | 
| --- |--- |--- |
| MKV | video/x-matroska | H.264 | 
| MOV | video/quicktime |  H.264 H.265 ProRES  | 
| MP4 | video/mp4 |  DIVX/XVID H.264 H.265 J2K () JPEG2000 MPEG-2 MPEG-4 Part 2 VP9  | 
| WEBM | video/webm |  VP8 VP9  | 
| FLV | video/x-flv | FLV1 | 
| MPEG | video/mpeg | MPEG-1 | 
| MPG | video/mpg | MPEG-1 | 
| WMV | video/wmv | MSMPEG4v3 (MP43) | 
| 3GPP | video/3gpp | H.264 | 

Il n’y a aucune différence dans le nombre de jetons d’entrée vidéo, que la vidéo soit transmise au format base64 (à condition qu’elle respecte les contraintes de taille) ou via un emplacement Amazon S3.

Veuillez noter que pour le format de fichier 3gp, le champ « format » transmis dans la demande API doit être au format « three\$1gp ».

Lorsque vous utilisez Amazon S3, assurez-vous que vos métadonnées « Content-Type » sont définies sur le type MIME correct pour la vidéo

**Topics**
+ [Vidéos longues et à mouvement rapide](#prompting-video-motion)
+ [Latence](#prompting-video-latency)
+ [Techniques d’invite de compréhension visuelle](prompting-vision-prompting.md)

## Vidéos longues et à mouvement rapide
<a name="prompting-video-motion"></a>

Le modèle comprend la vidéo en échantillonnant les images vidéo à une fréquence de base de 1 image par seconde (FPS). Il s’agit d’un équilibre entre la capture des détails dans la vidéo et la consommation des jetons d’entrée utilisés, ce qui a une incidence sur le coût, la latence et la durée maximale de la vidéo. Bien que l’échantillonnage d’un événement par seconde devrait suffire pour les cas d’utilisation généraux, certains cas d’utilisation sur des vidéos à mouvement rapide, telles que les vidéos sportives, peuvent ne pas fonctionner correctement.

Afin de traiter des vidéos plus longues, le taux d’échantillonnage est réduit pour les vidéos de plus de 16 minutes à un nombre fixe de 960 images, espacées sur toute la durée de la vidéo pour Amazon Nova Lite et Amazon Nova Pro. Cela signifie que plus une vidéo dépasse 16 minutes, plus le nombre d’images par seconde est faible et moins les détails sont capturés. Cela permet des cas d’utilisation tels que le résumé de vidéos plus longues, mais aggrave les problèmes liés aux vidéos à mouvement rapide où les détails sont importants. Pour Amazon Nova Premier, le taux d’échantillonnage de 1 FPS est appliqué jusqu’à une limite de 3 200 images.

Dans de nombreux cas, vous pouvez obtenir un échantillonnage de 1 image par seconde sur des vidéos plus longues en utilisant des étapes de prétraitement et plusieurs appels. La vidéo peut être divisée en segments plus petits, puis chaque segment est analysé à l’aide des capacités multi-modèles du modèle. Les réponses sont agrégées et une dernière étape d'utilisation text-to-text génère une réponse finale. Veuillez noter qu’il peut y avoir une perte de contexte lorsque les vidéos sont segmentées de cette manière. Cela s’apparente aux compromis liés au découpage en morceaux pour les cas d’utilisation RAG et bon nombre des mêmes techniques d’atténuation s’appliquent bien, comme la fenêtre glissante.

Veuillez noter que la segmentation de la vidéo peut également réduire la latence, car l’analyse est effectuée en parallèle, mais elle peut générer un nombre beaucoup plus important de jetons d’entrée, ce qui a une incidence sur le coût.

## Latence
<a name="prompting-video-latency"></a>

Les vidéos peuvent être de grande taille. Bien que nous fournissions des moyens de traiter des fichiers pouvant atteindre 1 Go en les chargeant sur Amazon S3, ce qui rend les données utiles d’invocation très légères, les modèles doivent tout de même traiter un nombre potentiellement important de jetons. Si vous utilisez des appels Amazon Bedrock synchrones tels que Invoquer ou Converse, assurez-vous que votre kit SDK est configuré avec un délai d’expiration approprié.

Quoi qu’il en soit, l’URI Amazon S3 est la méthode préférée lorsque la latence est un facteur important. La segmentation des vidéos comme décrit dans la section précédente est une autre stratégie. Le prétraitement des vidéos haute résolution et à fréquence d’images élevée peut également permettre d’économiser de la bande passante et de réduire le traitement sur la taille du service, ce qui diminue la latence.

# Techniques d’invite de compréhension visuelle
<a name="prompting-vision-prompting"></a>

**Note**  
Cette documentation concerne la version 1 d'Amazon Nova. Pour plus d'informations sur la manière de favoriser la compréhension multimodale dans Amazon Nova 2, consultez [Proposer des entrées multimodales](https://docs.aws.amazon.com/nova/latest/nova2-userguide/prompting-multimodal.html).

Les techniques d’invite visuelle suivantes vous aideront à créer de meilleures invites pour Amazon Nova.

**Topics**
+ [L’emplacement est important](#prompting-video-placement)
+ [Plusieurs fichiers multimédias avec des composants visuels](#prompting-video-vision-components)
+ [Utilisez les instructions utilisateur pour améliorer le suivi des instructions pour les tâches de compréhension visuelle](#prompting-video-instructions)
+ [Quelques exemples de plans](#prompting-video-exemplars)
+ [Détection des cadres](#prompting-video-bounding)
+ [Sorties ou style plus riches](#prompting-video-richer-output)
+ [Extraire le contenu d’un document dans Markdown](#prompting-video-markdown)
+ [Paramètres d’inférence pour la compréhension visuelle](#prompting-video-parameters)
+ [Classification des vidéos](#prompting-video-classification)

## L’emplacement est important
<a name="prompting-video-placement"></a>

Nous vous recommandons de placer les fichiers multimédias (tels que les images ou les vidéos) avant d’ajouter des documents, puis votre texte d’instructions ou vos invites pour guider le modèle. Bien que les images placées après le texte ou intercalées avec le texte fonctionnent toujours correctement, si le cas d’utilisation le permet, la structure *\$1media\$1file\$1-then-\$1text\$1* est l’approche préférée.

Le modèle suivant peut être utilisé pour placer les fichiers multimédias avant le texte lors de la compréhension visuelle.

```
{
      "role": "user",
      "content": [
        {
          "image": "..."
        },
        {
          "video": "..."
        },
        {
          "document": "..."
        },
        {
          "text": "..."
        }
      ]
}
```

### Exemple : fichier multimédia avant le texte
<a name="vision-collapsible"></a>


|  | **Pas de structure suivie** | Invite optimisée | 
| --- |--- |--- |
| Utilisateur | Expliquez ce qui se passe dans l’image [Image1.png] |  [Image1.png] Expliquez ce qui se passe dans l’image ?  | 

## Plusieurs fichiers multimédias avec des composants visuels
<a name="prompting-video-vision-components"></a>

Dans les situations où vous fournissez plusieurs fichiers multimédias au fil des tours, présentez chaque image avec une étiquette numérotée. Par exemple, si vous utilisez deux images, étiquetez-les `Image 1:` et `Image 2:`. Si vous utilisez trois vidéos, étiquetez-les `Video 1:`, ` Video 2:` et `Video 3:`. Vous n’avez pas besoin d’ajouter de sauts de ligne entre les images ou entre les images et l’invite.

Le modèle suivant peut être utilisé pour placer plusieurs fichiers multimédias :

```
messages = [
        {
            "role": "user",
            "content": [
                {"text":"Image 1:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_1_base64}}},
                {"text":"Image 2:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_2_base64}}},
                {"text":"Image 3:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_3_base64}}},
                {"text":"Image 4:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_4_base64}}},
                {"text":"Image 5:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_5_base64}}},
                {"text":user_prompt},
            ],
        }
    ]
```


| Invite non optimisée | Invite optimisée | 
| --- |--- |
|  Décrivez ce que vous voyez dans la deuxième image. [Image1.png] [Image2.png]  |  [Image1.png] [Image2.png] Décrivez ce que vous voyez dans la deuxième image.  | 
|  La deuxième image est-elle décrite dans le document joint ? [Image1.png] [Image2.png] [Document1.pdf]  |  [Image1.png] [Image2.png] [Document1.pdf] La deuxième image est-elle décrite dans le document joint ?  | 

En raison de la longueur des jetons de contexte des types de fichiers multimédias, l’invite système indiquée au début de l’invite peut ne pas être respectée dans certains cas. Dans ce cas, nous vous recommandons de déplacer toutes les instructions système vers les tours de l’utilisateur et de suivre les conseils généraux de *\$1media\$1file\$1-then-\$1text\$1*. Cela n’a aucune incidence sur les invites système avec RAG, les agents ou l’utilisation des outils.

## Utilisez les instructions utilisateur pour améliorer le suivi des instructions pour les tâches de compréhension visuelle
<a name="prompting-video-instructions"></a>

Pour la compréhension vidéo, le nombre de jetons dans le contexte rend les recommandations dans [L’emplacement est important](#prompting-video-placement) très importantes. Utilisez l’invite système pour des éléments plus généraux tels que le ton et le style. Nous vous recommandons de conserver les instructions relatives à la vidéo dans l’invite utilisateur pour de meilleures performances.

Le modèle suivant peut être utilisé pour améliorer les instructions :

```
{
    "role": "user",
    "content": [
       {
           "video": {
                "format": "mp4",
                "source": { ... }
           }
       },
       {
           "text": "You are an expert in recipe videos. Describe this video in less than 200 words following these guidelines: ..."
       }
    ]
}
```

Tout comme pour le texte, nous vous recommandons d' chain-of-thoughtutiliser des images et des vidéos pour améliorer les performances. Nous vous recommandons également de placer les chain-of-thought directives dans l'invite du système, tout en conservant les autres instructions dans l'invite de l'utilisateur.

**Important**  
Le modèle Amazon Nova Premier est un modèle d’intelligence supérieure de la famille Amazon Nova, capable de traiter des tâches plus complexes. Si vos tâches nécessitent une chain-of-thought réflexion approfondie, nous vous recommandons d'utiliser le modèle d'invite fourni dans [Give Amazon Nova time to think (chain-of-thought)](https://docs.aws.amazon.com/nova/latest/userguide/prompting-chain-of-thought.html). Cette approche peut contribuer à améliorer les capacités d’analyse et de résolution de problèmes du modèle.

## Quelques exemples de plans
<a name="prompting-video-exemplars"></a>

Tout comme pour les modèles de texte, nous vous recommandons de fournir des exemples d'images pour améliorer les performances de compréhension des images (les exemples de vidéos ne peuvent pas être fournis en raison des single-video-per-inference limites). Nous vous recommandons de placer les exemples dans l’invite utilisateur, après le fichier multimédia, plutôt que de les fournir dans l’invite système.


|  | 0-Shot | 2 coups | 
| --- |--- |--- |
| Utilisateur |  | [Image 1] | 
| Assistant |  | Description de l'image 1 | 
| Utilisateur |  | [Image 2] | 
| Assistant |  | Description de l'image 2 | 
| Utilisateur | [Image 3] Expliquez ce qui se passe dans l’image | [Image 3] Expliquez ce qui se passe dans l’image | 

## Détection des cadres
<a name="prompting-video-bounding"></a>

Si vous devez identifier les coordonnées du cadre de sélection d’un objet, vous pouvez utiliser le modèle Amazon Nova pour générer des cadres de sélection à l’échelle [0, 1000). Une fois ces coordonnées obtenues, vous pouvez les redimensionner en fonction des dimensions de l’image dans le cadre d’une étape de post-traitement. Pour plus d’informations sur la manière de réaliser cette étape de post-traitement, veuillez vous reporter au [bloc-notes Amazon Nova Image Grounding](https://github.com/aws-samples/amazon-nova-samples/blob/main/multimodal-understanding/repeatable-patterns/13-image-grounding/image_grounding.ipynb).

Voici un exemple d’invite pour la détection de cadres de sélection :

```
Detect bounding box of objects in the image, only detect {item_name} category objects with high confidence, output in a list of bounding box format.
Output example:
[
    {"{item_name}": [x1, y1, x2, y2]},
    ...
]

Result:
```

## Sorties ou style plus riches
<a name="prompting-video-richer-output"></a>

La sortie de compréhension vidéo peut être très courte. Si vous voulez des résultats plus longs, nous vous recommandons de créer un persona pour le modèle. Vous pouvez demander à ce persona de répondre de la manière souhaitée, comme si vous utilisiez le rôle système.

D’autres modifications des réponses peuvent être apportées à l’aide des [techniques one-shot et few-shot](prompting-examples.md). Fournissez des exemples de ce que devrait être une bonne réponse et le modèle pourra en imiter certains aspects lors de la génération des réponses.

## Extraire le contenu d’un document dans Markdown
<a name="prompting-video-markdown"></a>

Amazon Nova Premier démontre des capacités améliorées pour comprendre les graphiques intégrés dans les documents et la capacité de lire et de comprendre le contenu de domaines complexes tels que les articles scientifiques. De plus, Amazon Nova Premier affiche des performances améliorées lors de l’extraction du contenu des documents et peut produire ces informations aux formats Markdown Table et Latex.

L’exemple suivant fournit un tableau dans une image, ainsi qu’une invite pour qu’Amazon Nova Premier convertisse le contenu de l’image en un tableau Markdown. Une fois le Markdown (ou la représentation Latex) créé, vous pouvez utiliser des outils pour convertir le contenu en JSON ou en une autre sortie structurée.

```
Make a table representation in Markdown of the image provided.
```

![\[Tableau de données fourni sous forme d’image plutôt que de document\]](http://docs.aws.amazon.com/fr_fr/nova/latest/userguide/images/tableInImage.png)


Voici la sortie fournie par le modèle :

```
| No. | DATE       | DESCRIPTION | AMOUNT |
|-----|------------|-------------|--------|
| 1   | 2021-04-19 | Guest room  | $180   |
| 2   | 2021-04-19 | Breakfast   | $30    |
| 3   | 2021-04-20 | Guest room  | $180   |
| 4   | 2021-04-20 | Laundry     | $15    |
| 5   | 2021-04-20 | Dinner      | $70    |
| 6   | 2021-04-20 | Breakfast   | $30    |
| 7   | 2021-04-21 | Guest room  | $180   |
| 8   | 2021-04-21 | Breakfast   | $30    |
| 9   | 2021-04-21 | Dinner      | $70    |
| 10  | 2021-04-21 | Laundry     | $15    |
|     |            | Subtotal    | $800   |
|     |            | Discounts   | $24    |
|     |            | Taxes       | $68.9  |
|     |            | Total       | $844.9 |
```

Cette sortie utilise une notation de tableau personnalisée où `||` est utilisé comme séparateur de colonnes et `&&` comme séparateur de lignes.

## Paramètres d’inférence pour la compréhension visuelle
<a name="prompting-video-parameters"></a>

Pour les cas d’utilisation liés à la compréhension visuelle, nous vous recommandons de commencer avec les paramètres d’inférence `temperature` définis sur **0** et `topK` définis sur **1**. Après avoir observé la sortie du modèle, vous pouvez ajuster les paramètres d’inférence en fonction du cas d’utilisation. Ces valeurs dépendent généralement de la tâche et de la variance requise. Augmentez le paramètre de température pour induire davantage de variations dans les réponses.

## Classification des vidéos
<a name="prompting-video-classification"></a>

Pour trier efficacement le contenu vidéo dans les catégories appropriées, fournissez des catégories que le modèle peut utiliser pour la classification. Veuillez considérer l’exemple d’invite suivant :

```
[Video]

Which category would best fit this video? Choose an option from the list below:
\Education\Film & Animation\Sports\Comedy\News & Politics\Travel & Events\Entertainment\Trailers\How-to & Style\Pets & Animals\Gaming\Nonprofits & Activism\People & Blogs\Music\Science & Technology\Autos & Vehicles
```

**Balisage des vidéos**  
Amazon Nova Premier présente des fonctionnalités améliorées pour la création de balises vidéo. Pour obtenir les meilleurs résultats, veuillez utiliser l’instruction suivante demandant des balises séparées par des virgules : « Utilisez des virgules pour séparer chaque balise ». Voici un exemple d’invite :

```
[video]

"Can you list the relevant tags for this video? Use commas to separate each tag."
```

**Sous-titrage dense des vidéos**  
Amazon Nova Premier présente des capacités améliorées pour fournir des sous-titres denses, c’est-à-dire des descriptions textuelles détaillées générées pour plusieurs segments de la vidéo. Voici un exemple d’invite :

```
[Video]

Generate a comprehensive caption that covers all major events and visual elements in the video.
```