

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Fonctionnement de l’automatisation des données Bedrock
<a name="bda-how-it-works"></a>

L’automatisation des données Amazon Bedrock (BDA) vous permet de configurer la sortie en fonction de vos besoins de traitement pour un type de données spécifique : documents, images, vidéos ou fichiers audio. BDA peut générer une sortie standard ou personnalisée. Vous trouverez ci-dessous quelques concepts clés pour comprendre le fonctionnement de BDA. Si vous êtes un(e) nouvel(le) utilisateur/utilisatrice, commencez par les informations sur la sortie standard.
+ Sortie standard : l’envoi d’un fichier à BDA sans autre information renvoie la sortie standard par défaut, qui consiste en des informations couramment requises basées sur le type de données. Exemples : transcriptions audio, récapitulatifs de scènes pour des vidéos et récapitulatifs de documents. Ces sorties peuvent être adaptées à votre cas d’utilisation en les modifiant à l’aide de projets. Pour plus d’informations, consultez [Sortie standard dans l’automatisation des données Bedrock](bda-standard-output.md).
+ Sortie personnalisée : pour les documents, les fichiers audio et les images uniquement. Choisissez une sortie personnalisée pour définir exactement les informations que vous souhaitez extraire à l’aide d’un plan. Un plan consiste en une liste de champs attendus que vous souhaitez récupérer à partir d’un fichier. Chaque champ représente une information à extraire pour prendre en charge votre cas d’utilisation spécifique. Vous pouvez créer vos propres plans ou sélectionner des plans prédéfinis dans le catalogue de plans BDA. Pour plus d’informations, consultez [Sortie personnalisée et plans](bda-custom-output-idp.md).
+ Projets : un projet est une ressource BDA qui vous permet de modifier et d’organiser les configurations de sortie. Chaque projet peut contenir des configurations de sortie standard pour les documents, les images, les vidéos et les fichiers audio, ainsi que des plans de sortie personnalisés pour les documents, les fichiers audio et les images. Les projets sont référencés dans l’appel d’API `InvokeDataAutomationAsync` pour indiquer à BDA comment traiter les fichiers. Pour plus d’informations sur les projets et leurs cas d’utilisation, consultez [Projets d’automatisation des données Bedrock](bda-projects.md).

# Projets d’automatisation des données Bedrock
<a name="bda-projects"></a>

Pour traiter des fichiers à l’aide de l’automatisation des données Amazon Bedrock (BDA), vous pouvez créer un projet. Un projet est un regroupement de configurations de sorties standard et personnalisées. Les sorties standard sont requises dans les projets, mais les sorties personnalisées sont facultatives. Lorsque vous appelez l’API `InvokeDataAutomationAsync` avec un ARN de projet, le fichier est automatiquement traité à l’aide des paramètres de configuration définis dans ce projet. La sortie est ensuite générée en fonction de la configuration du projet.

Un projet peut se voir affecter une phase : `LIVE` ou `DEVELOPMENT`. Chaque phase est une version unique et modifiable du projet. Autrement dit, vous pouvez modifier ou effectuer des tests avec la phase `DEVELOPMENT`, et traiter les demandes client à l’aide de la phase `LIVE`. Les projets à la phase `DEVELOPMENT` ne sont pas accessibles dans la console et doivent être modifiés et invoqués au moyen de l’API.

Un projet vous permet d’utiliser une seule ressource pour plusieurs types de fichiers. Par exemple, un fichier audio envoyé à BDA sous le nom de projet ABC est traité à l’aide de la configuration de sortie audio standard du projet ABC. Un document envoyé à BDA sous le nom de projet ABC est traité à l’aide de la configuration de sortie de document standard du projet ABC.

Les projets vous offrent une plus grande flexibilité lors de la configuration des sorties standard. Chaque sortie standard possède son propre ensemble d’options configurables, comme des transcriptions ou des récapitulatifs, et les projets vous permettent de modifier ces options pour mieux les adapter à votre cas d’utilisation. Vous pouvez également configurer un projet avec des plans pour les documents, le son et les images afin de définir une sortie personnalisée. Un projet configuré pour générer une sortie personnalisée génère également une sortie standard automatiquement.

Les sections suivantes présentent quelques exemples d’utilisation de projets.

## Utilisation de projets avec sortie standard
<a name="bda-standard-example"></a>

Imaginons un cas d’utilisation dans lequel vous souhaitez uniquement extraire des récapitulatifs des transcriptions de vos fichiers audio et vidéo complets. Par défaut, lorsque vous envoyez des fichiers audio et vidéo à BDA, vous recevez les récapitulatifs des transcriptions ainsi que les transcriptions complètes, les récapitulatifs des scènes, le texte détecté et d’autres informations. Dans ce cas d’utilisation, vous ne souhaitez pas consacrer du temps et des ressources supplémentaires à recueillir des informations dont vous n’avez pas besoin. Dans ce cas d’utilisation, vous pouvez configurer un projet de sortie standard pour activer uniquement la fonctionnalité de récapitulatif pour les fichiers audio et vidéo.

Pour y parvenir à l’aide de l’API ou la console, créez un projet et modifiez les paramètres de sortie standard pour les fichiers audio et les vidéos. Pour les vidéos, activez l’option **Récapitulatif vidéo complet**, mais assurez-vous que les autres extractions (par ex. Transcription audio complète, Récapitulatifs des scènes, Modération de contenu, etc.) sont désactivées. Répétez cette configuration pour le son. Après avoir configuré le projet pour générer uniquement des récapitulatifs, enregistrez le projet et notez l’Amazon Resource Name (ARN) du projet. Cet ARN peut être utilisé pour l’opération `InvokeDataAutomationAsync` afin de traiter vos fichiers à grande échelle. En transmettant un fichier audio ou vidéo à BDA et en spécifiant cet ARN de projet, vous ne recevez en sortie que les récapitulatifs de chacun des fichiers. Notez que dans cet exemple, aucune configuration n’a été effectuée pour les documents ou les images. Autrement dit, si vous transmettez une image ou un document à BDA à l’aide de cet ARN de projet, vous recevez la sortie standard par défaut pour ces fichiers.

## Utilisation de projets avec sortie personnalisée et sortie standard
<a name="bda-mixed-example"></a>

Pour ce cas d’utilisation, supposons que vous souhaitez générer des récapitulatifs de sortie standard pour les documents et les fichiers audio, et extraire des champs personnalisés de vos documents. Après avoir créé un projet, configurez la sortie audio standard pour activer l’option **Récapitulatif audio complet** et assurez-vous que les autres extractions ne sont pas activées. Répétez cette configuration de sortie standard pour les documents. Vous pouvez ensuite configurer une sortie personnalisée pour les documents en ajoutant un nouveau plan ou un plan préexistant issu du catalogue global BDA. Les documents transmis à BDA à l’aide de cet ARN de projet génèrent alors les récapitulatifs complets des documents en sortie standard et la sortie de plan pour les champs personnalisés définis. Les fichiers audio transmis à BDA à l’aide de cet ARN de projet génèrent alors des récapitulatifs complets.

Lorsque vous traitez des documents, vous pouvez utiliser plusieurs plans pour les différents types de documents transmis à votre projet. Un projet peut compter jusqu’à 40 plans de documents attachés. BDA associe automatiquement vos documents au plan approprié configuré dans votre projet et génère une sortie personnalisée à l’aide de ce plan. De plus, vous pouvez transmettre des documents en masse. Si vous transmettez un fichier contenant plusieurs documents, vous pouvez choisir de fractionner le document lors de la création de votre projet. Si vous choisissez de le faire, BDA analyse le fichier et le fractionne en documents individuels en fonction du contexte. Ces documents individuels sont ensuite associés au plan approprié à des fins de traitement.

À l’heure actuelle, les images ne prennent en charge qu’une seule définition de plan par projet. Les types de fichiers image JPG et PNG peuvent être traités comme des images ou comme des documents analysés en fonction de leur contenu. Nous vous recommandons de créer un plan personnalisé pour les images lorsque vous traitez une sortie personnalisée pour des documents, afin que BDA fournisse la sortie souhaitée pour les fichiers image contenant du texte.

Les fichiers audio ne prennent également en charge qu’une seule définition de plan par projet.

# Fractionnement de documents en cas d’utilisation de projets
<a name="bda-document-splitting"></a>

Amazon Bedrock Data Automation (BDA) prend en charge le fractionnement de documents lors de l'utilisation de l' Amazon Bedrock API. Lorsque cette option est activée, le fractionnement permet à BDA de prendre un fichier PDF contenant plusieurs documents logiques et de le fractionner en documents distincts à des fins de traitement. 

Une fois le fractionnement terminé, chaque segment du document fractionné est traité indépendamment. Autrement dit, un document d’entrée peut contenir différents types de documents. Par exemple, si vous avez un fichier PDF contenant 3 relevés bancaires et un formulaire W2, le fractionnement tente de le diviser en 4 documents distincts traités individuellement.

Le fractionnement automatique BDA prend en charge les fichiers de 3 000 pages maximum et les documents individuels de 20 pages maximum chacun.

L’option de fractionnement des documents est désactivée par défaut, mais elle peut être activée lorsque vous utilisez l’API. Voici un exemple de création d’un projet avec l’utilitaire de fractionnement activé. Les points de suspension représentent des plans supplémentaires fournis au projet.

```
   response = client.create_data_automation_project(
    projectName=project_name,
    projectDescription="Provide a project description",
    projectStage='LIVE',
    standardOutputConfiguration=output_config,
    customOutputConfiguration={
    'blueprints': [
        {
        'blueprintArn': Blueprint ARN,
        'blueprintStage': 'LIVE'
        },
        ...
        ]
        },
         overrideConfiguration={'document': {'splitter': {'state': 'ENABLED'}}}
)
```

La partie qui active le processus de fractionnement est la ligne overrideConfiguration. Cette ligne configure l’utilitaire de fractionnement et vous permet de transmettre plusieurs documents dans le même fichier.

Les documents sont fractionnés selon les limites sémantiques du document. 

Le fractionnement des documents s’effectue indépendamment de l’application de plans, et les documents fractionnés sont mis en correspondance avec le plan le plus proche. Pour plus d’informations sur la manière dont BDA met en correspondance des plans, consultez [Présentation de la mise en correspondance de plans](#bda-blueprint-matching).

## Présentation de la mise en correspondance de plans
<a name="bda-blueprint-matching"></a>

La mise en correspondance de plans est basée sur les éléments suivants :
+  Nom du plan 
+  Description du plan 
+  Champs du plan 

Lorsque vous traitez des documents, vous pouvez fournir plusieurs plans à des fins de mise en correspondance. Cela permet de traiter différents types de documents avec des plans appropriés. Vous pouvez fournir plusieurs plans IDs lorsque vous appelez l'API d'automatisation des données, et BDA essaiera de faire correspondre chaque document au plan le mieux adapté. Cela permet de traiter des types de documents variés dans un seul lot. Cela est utile lorsque les documents sont censés être de différents types (par ex. relevés bancaires, factures, passeports).

Si vous avez besoin de plans distincts parce que les formats de documents sont très différents ou nécessitent des invites spécialisées, la création d’un plan par type de document peut faciliter la mise en correspondance. Pour plus d’informations sur la création de plans utiles, consultez [Bonnes pratiques relatives à la création de plans](#bda-blueprint-best-practices).

## Bonnes pratiques relatives à la création de plans
<a name="bda-blueprint-best-practices"></a>

 Suivez les bonnes pratiques suivantes pour tirer le meilleur parti de vos plans : 
+ Soyez explicite et détaillé(e) dans les noms et descriptions de plan pour faciliter la mise en correspondance 
+ La fourniture de plusieurs plans pertinents permet à BDA de sélectionner la meilleure correspondance. Créez des plans distincts pour des formats de documents très différents 
+ Envisagez de créer des plans spécialisés pour chaque vendor/document source, si vous avez besoin d'une précision maximale
+ N’incluez pas deux plans du même type dans un projet (par ex. deux plans W2). Les informations provenant du document lui-même et du plan permettent de traiter les documents, et l’inclusion de plusieurs plans du même type dans un projet nuit aux performances. 

En tirant parti du fractionnement de documents et de la mise en correspondance de plusieurs plans, BDA peut gérer de manière plus flexible des ensembles de documents variés, tout en appliquant la logique d’extraction la plus appropriée à chaque document.

# Modalités de désactivation et types de fichiers de routage
<a name="bda-routing-enablement"></a>

Par défaut, les projets de BDA traitent les types de fichiers pris en charge, en les triant selon différentes modalités sémantiques. Lorsque vous créez ou modifiez votre projet, vous pouvez modifier les modalités qui seront traitées et quels types de fichiers seront envoyés vers quelles modalités. Dans cette section, nous allons passer en revue l’activation et la désactivation de différentes modalités, le routage des fichiers vers des modalités spécifiques et la procédure de routage par défaut pour BDA.

## Désactivation du traitement des modalités
<a name="bda-modality-enablement"></a>

Lorsque vous créez un projet, vous pensez peut-être à un cas d’utilisation qui n’inclut pas le traitement de toutes sortes de fichiers. Par exemple, vous pouvez traiter uniquement les documents et les fichiers audio. Si tel est le cas, vous ne voulez pas que BDA envoie un JPEG pour qu'il soit traité comme une image ou qu'il soit traité comme une vidéo. MP4 L’activation des modalités vous permet de désactiver certaines modalités d’un projet, en sélectionnant les réponses issues du traitement de BDA.

**Désactivation des modalités avec la console BDA**  
Lorsque vous utilisez la console BDA, l’activation des modalités est gérée par une liste de contrôle, dans laquelle vous pouvez simplement sélectionner ou désélectionner chaque modalité lors de la modification ou de la création de votre projet. Ces options se trouvent sous l’onglet Paramètres avancés. Au moins une modalité doit être sélectionnée pour un projet.

![\[Modality enablement options with checkboxes for document, image, video, and audio.\]](http://docs.aws.amazon.com/fr_fr/bedrock/latest/userguide/images/bda/modalityenableconsole.png)


**Désactivation des modalités avec l’API BDA**  
Lors de l’utilisation de l’API BDA, l’activation des modalités est gérée par l’élément de demande `overrideConfiguration`, situé dans l’opération `CreateDataAutomation`. Chaque modalité possède une section associée dans laquelle vous pouvez déclarer la modalité `ENABLED` ou `DISABLED`. Vous trouverez ci-dessous un exemple d’élément `overrideConfiguration` pour lequel seules les modalités de fichier audio et de document sont activées. L’indicateur `modalityProcessing` est défini par défaut sur `ENABLED`.

```
"overrideConfiguration" : {
    "document": {
        "splitter": {
            "state": ENABLED
        },
        "modalityProcessing": {
            "state": ENABLED
        },
    },
    "image": {
        "modalityProcessing": {
            "state": DISABLED
        }
    },
    "video": {
        "modalityProcessing": {
            "state": DISABLED 
        }
    },
    "audio": {
        "modalityProcessing": {
            "state": ENABLED
        }
    },
    ...
}
```

Les points de suspension à la fin de cette section indiquent la suppression de l’élément `modalityRouting`, que nous examinerons plus en détail dans la section suivante.

## Routage des fichiers vers certains types de traitements
<a name="bda-modality-routing"></a>

Certains types de fichiers peuvent être routés vers différentes modalités, en fonction de divers facteurs. Avec le routage par modalité, vous pouvez définir certains types de fichiers pour qu'ils soient acheminés manuellement vers certaines modalités de traitement. JPEGs et PNGs peut être acheminé vers le traitement de documents ou d'images. MP4s et MOVs peut être acheminé vers le traitement vidéo ou audio.

**Routage avec la console BDA**  
Dans l’onglet Paramètres avancés, lors de la création ou de la modification d’un plan, vous pouvez choisir d’ajouter un nouveau routage par modalité manuel. Ainsi, vous pouvez sélectionner l’un des 4 types de fichiers disponibles, puis la modalité de traitement vers laquelle ils seront routés. Vous trouverez ci-dessous une capture d’écran de la console, avec un routage par modalité manuel qui envoie des fichiers PNG vers la modalité de traitement des documents.

**Note**  
Les paramètres des fichiers JPEG s’appliquent aux fichiers « .jpeg » et « .jpg ». Les paramètres des MP4 paramètres s'appliquent aux deux fichiers « .mp4 » et « .m4v ».

![\[Image provenant de la console AWS, montrant deux menus déroulants intitulés Type de fichier et Destination de la modalité et définis sur les options PNG et Document.\]](http://docs.aws.amazon.com/fr_fr/bedrock/latest/userguide/images/bda/manualrouting.png)


**Routage avec l’API BDA**  
À l’instar de l’activation des modalités, le routage des modalités est géré au moyen de l’élément de demande `overrideConfiguration`. Vous trouverez ci-dessous un exemple de la partie `modalityRouting` de l’élément de demande `overrideConfiguration`. Cet exemple suppose que toutes les modalités sont activées et achemine les fichiers JPEG et PNG vers la modalité document, MP4 et les fichiers MOV vers la modalité audio.

```
...
   "modalityRouting": {
        "jpeg": DOCUMENT, 
        "png": DOCUMENT,  
        "mp4": AUDIO,     
        "mov": AUDIO      
    }
}
```

Les points de suspension au début de l’exemple indiquent la suppression du reste de l’élément de demande `overrideConfiguration`, un sujet abordé plus en détail dans la section sur l’activation des modalités et la fonctionnalité de fractionnement de documents.

## Routage standard pour l' InvokeDataAutomationAsync API
<a name="bda-standard-routing-async"></a>

Sans configurer vos propres procédures de routage, BDA détermine la modalité vers laquelle il effectuera le routage à l’aide d’un ensemble de procédures standard basé sur le type de fichier. Les procédures par défaut sont répertoriées dans le tableau ci-dessous.

PNGs et JPEGs indiquez Semantic Classifer comme comportement par défaut. Autrement dit, BDA examine les indicateurs permettant de déterminer si un fichier soumis est une image ou un document à l’aide de modèles internes, puis effectue le routage automatiquement.


| Types de fichiers | Comportement de routage par défaut | 
| --- | --- | 
|  PNG  |  Classificateur sémantique ; image ou document  | 
|  JPEG  |  Classificateur sémantique ; image ou document  | 
|  PDF, TIFF  |  Document  | 
|  MP4, MOV  |  Vidéo  | 
|  AMR, FLAC, M4A, OGG, WEBM MP3, WAV  |  Audio  | 

## Routage standard pour l' InvokeDataAutomation API
<a name="bda-standard-routing-sync"></a>

L'[InvokeDataAutomation](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_data-automation-runtime_InvokeDataAutomation.html)API examinera également les indicateurs permettant de déterminer si un fichier PNG ou JPEG soumis est une image ou un document à l'aide de modèles internes et effectuera le routage automatiquement. Les procédures par défaut sont répertoriées dans le tableau ci-dessous.

PNGs et JPEGs indiquez Semantic Classifier comme comportement par défaut. Autrement dit, BDA examine les indicateurs permettant de déterminer si un fichier soumis est une image ou un document à l’aide de modèles internes, puis effectue le routage automatiquement. Les fichiers PDF et TIFF seront acheminés vers la modalité Documents pour être traités. InvokeDataAutomation L'API ne prend actuellement pas en charge les fichiers audio et vidéo.


| Types de fichiers | Comportement de routage par défaut | 
| --- | --- | 
|  PNG  |  Classificateur sémantique ; image ou document  | 
|  JPEG  |  Classificateur sémantique ; image ou document  | 
|  PDF, TIFF  |  Document  | 