Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Création d'un identifiant de données personnalisé
<a name="cdis-create"></a>

Un *identifiant de données personnalisé* est un ensemble de critères que vous définissez pour détecter les données sensibles dans les objets Amazon Simple Storage Service (Amazon S3). Lorsque vous créez un identifiant de données personnalisé, vous spécifiez une expression régulière (*regex*) qui définit un modèle de texte à associer à un objet S3. Vous pouvez également définir des séquences de caractères et une règle de proximité pour affiner les résultats. Les séquences de caractères peuvent être : des mots *clés*, qui sont des mots ou des phrases qui doivent se trouver à proximité du texte correspondant à l'expression régulière, ou des *mots ignorés*, qui sont des mots ou des phrases à exclure des résultats. En utilisant des identifiants de données personnalisés, vous pouvez compléter les [identifiants de données gérés](managed-data-identifiers.md) fournis par Amazon Macie et détecter les données sensibles qui reflètent les scénarios, la propriété intellectuelle ou les données propriétaires propres à votre entreprise.

Par exemple, de nombreuses entreprises ont une syntaxe spécifique pour les employés IDs. L'une de ces syntaxes pourrait être : une majuscule indiquant si un employé est un employé à temps plein (*F*) ou à temps partiel (*P*), suivie d'un trait d'union (—), suivie d'une séquence de huit chiffres identifiant l'employé. Les exemples sont : *F—12345678* pour un employé à temps plein, et *P—87654321* pour un employé à temps partiel. Pour détecter les employés IDs qui utilisent cette syntaxe, vous pouvez créer un identifiant de données personnalisé qui spécifie l'expression régulière suivante :`[A-Z]-\d{8}`. Pour affiner l'analyse et éviter les faux positifs, vous pouvez également configurer l'identifiant pour qu'il utilise des mots clés (`employee`et`employee ID`) et une distance de correspondance maximale de 20 caractères. Avec ces critères, les résultats incluent du texte correspondant à l'expression régulière si le texte apparaît après le mot clé *employé ou *ID* d'employé* et que tout le texte se trouve à moins de 20 caractères de l'un de ces mots clés.

Pour découvrir comment les mots clés peuvent vous aider à trouver des données sensibles et à éviter les faux positifs, regardez la vidéo suivante :


Outre les critères de détection, vous pouvez éventuellement définir des paramètres de gravité personnalisés pour les résultats produits par un identifiant de données personnalisé. La gravité peut être basée sur le nombre d'occurrences de texte correspondant aux critères de détection de l'identifiant. Si vous ne spécifiez pas ces paramètres, Macie attribue automatiquement le niveau de gravité *moyen* à tous les résultats produits par l'identifiant. La gravité ne change pas en fonction du nombre d'occurrences de texte correspondant aux critères de détection de l'identifiant.

Pour obtenir des informations détaillées sur ces paramètres et sur d'autres paramètres, consultez[Options de configuration pour les identificateurs de données personnalisés](cdis-options.md).

**Pour créer un identificateur de données personnalisé**  
Vous pouvez créer un identifiant de données personnalisé à l'aide de la console Amazon Macie ou de l'API Amazon Macie.

------
#### [ Console ]

Suivez ces étapes pour créer un identifiant de données personnalisé à l'aide de la console Amazon Macie.

**Pour créer un identificateur de données personnalisé**

1. Ouvrez la console Amazon Macie à l'adresse. [https://console.aws.amazon.com/macie/](https://console.aws.amazon.com/macie/)

1. Dans le volet de navigation, sous **Settings (Paramètres)**, choisissez **Custom data identifiers (Identificateurs de données personnalisés)**.

1. Choisissez **Créer**.

1. Dans la zone **Nom**, saisissez un nom pour l'identificateur de données personnalisé. Le nom peut contenir jusqu'à 128 caractères.

1. Dans **Description**, entrez éventuellement une brève description de l'identifiant de données personnalisé. La description peut contenir jusqu'à 512 caractères.
**Note**  
Évitez d'inclure des données sensibles dans le nom ou la description d'un identifiant de données personnalisé. Les autres utilisateurs de votre compte peuvent accéder au nom ou à la description, en fonction des actions qu'ils sont autorisés à effectuer dans Macie.

1. Pour **Expression régulière**, entrez l'expression régulière (*regex*) qui définit le modèle de texte à correspondre. L'expression régulière peut contenir jusqu'à 512 caractères.

   Macie prend en charge un sous-ensemble de la syntaxe des modèles fournie par la bibliothèque [Perl Compatible Regular Expressions (PCRE)](https://www.pcre.org/). Pour plus de détails et de conseils, consultez la section [Critères de détection pour les identificateurs de données personnalisés](cdis-options.md#cdis-detection-criteria).

1. Pour les **mots clés**, entrez éventuellement jusqu'à 50 séquences de caractères (séparées par des virgules) pour définir un texte spécifique qui doit se trouver à proximité du texte correspondant au modèle regex.

   Macie inclut une occurrence dans les résultats uniquement si le texte correspond au modèle regex et s'il se trouve dans la distance de correspondance maximale de l'un de ces mots clés. Chaque mot clé peut contenir de 3 à 90 caractères UTF-8. Les mots-clés ne sont pas sensibles à la casse.

1. Pour **Ignorer les mots**, entrez éventuellement jusqu'à 10 séquences de caractères (séparées par des virgules) qui définissent le texte spécifique à exclure des résultats.

   Macie exclut une occurrence des résultats si le texte correspond au modèle regex mais qu'il contient l'un de ces mots ignorés. Chaque mot ignoré peut contenir de 4 à 90 caractères UTF-8. Les mots ignorés sont sensibles à la casse.

1. Pour **Distance de correspondance maximale**, entrez éventuellement le nombre maximum de caractères pouvant exister entre la fin d'un mot clé et la fin du texte correspondant au modèle regex.

   Macie inclut une occurrence dans les résultats uniquement si le texte correspond au modèle regex et s'il se trouve à cette distance d'un mot clé complet. La distance peut être comprise entre 1 et 300 caractères. La distance par défaut est de 50 caractères.

1. Dans le **champ** Sévérité, choisissez le mode de détermination de la gravité des données sensibles détectées par l'identifiant de données personnalisé :
   + Pour attribuer automatiquement la gravité *moyenne* à tous les résultats, choisissez **Utiliser une gravité moyenne pour un nombre quelconque de correspondances (par défaut)**. Avec cette option, Macie attribue automatiquement le niveau de gravité *moyen* à un résultat si l'objet S3 concerné contient une ou plusieurs occurrences de texte correspondant aux critères de détection.
   + Pour attribuer la gravité en fonction des seuils d'occurrence que vous spécifiez, choisissez **Utiliser des paramètres personnalisés pour déterminer la gravité**. Utilisez ensuite les options **Seuil d'occurrences** et **Niveau de gravité** pour spécifier le nombre minimum de correspondances qui doivent exister dans un objet S3 pour produire un résultat avec une gravité sélectionnée.

     Vous pouvez spécifier jusqu'à trois seuils d'occurrence, un pour chaque niveau de gravité pris en charge par Macie : *faible* (le moins grave), *moyen* ou *élevé* (le plus sévère). Si vous en spécifiez plusieurs, les seuils doivent être classés par ordre croissant de gravité, en passant de *faible* à *élevé*. Si un objet S3 contient moins d'occurrences que le seuil le plus bas, Macie ne crée pas de résultat.

1. (Facultatif) Pour les **balises**, choisissez **Ajouter une balise**, puis entrez jusqu'à 50 balises à attribuer à l'identifiant de données personnalisé.

   Un *tag* est un label que vous définissez et attribuez à certains types de AWS ressources. Chaque balise se compose d’une clé de balise obligatoire et d’une valeur de balise facultative. Les balises peuvent vous aider à identifier, classer et gérer ces types de ressources de différentes façons, notamment par objectif, par propriétaire, par environnement ou selon d’autres critères. Pour en savoir plus, veuillez consulter la section [Marquer les ressources de Macie](tagging-resources.md).

1. (Facultatif) Pour **Evaluer**, entrez jusqu'à 1 000 caractères dans la zone **Exemple de données**, puis choisissez **Test** pour tester les critères de détection. Macie évalue les exemples de données et indique le nombre d'occurrences de texte correspondant aux critères. Vous pouvez répéter cette étape autant de fois que vous le souhaitez pour affiner et optimiser les critères.
**Note**  
Nous vous recommandons vivement de tester et d'affiner les critères de détection à l'aide d'échantillons de données. Les identificateurs de données personnalisés étant utilisés par les tâches de découverte de données sensibles, vous ne pouvez pas modifier un identifiant de données personnalisé après l'avoir créé. Cela permet de vous assurer que vous disposez d’un historique immuable des découvertes de données sensibles et des résultats de découverte.  
Macie appliquant une logique supplémentaire lors du traitement des enregistrements structurés, le nombre de correspondances renvoyé par la case **Evaluer** peut différer dans certains cas des résultats produits par les jobs.

1. Lorsque vous avez terminé, choisissez **Submit (Soumettre)**.

Macie teste les paramètres et vérifie qu'il peut compiler l'expression régulière. En cas de problème avec un paramètre ou l'expression régulière, Macie affiche une erreur décrivant le problème. Une fois les problèmes résolus, vous pouvez enregistrer l'identifiant de données personnalisé.

------
#### [ API ]

Pour créer un identifiant de données personnalisé par programmation, utilisez l'[CreateCustomDataIdentifier](https://docs.aws.amazon.com/macie/latest/APIReference/custom-data-identifiers.html)API Amazon Macie. Ou, si vous utilisez le AWS Command Line Interface (AWS CLI), exécutez la [create-custom-data-identifier](https://docs.aws.amazon.com/cli/latest/reference/macie2/create-custom-data-identifier.html)commande.

**Note**  
Avant de créer un identifiant de données personnalisé, nous vous recommandons vivement de tester et d'affiner ses critères de détection à l'aide d'échantillons de données. Les identificateurs de données personnalisés étant utilisés par les tâches de découverte de données sensibles, vous ne pouvez pas modifier un identifiant de données personnalisé après l'avoir créé. Cela permet de vous assurer que vous disposez d’un historique immuable des découvertes de données sensibles et des résultats de découverte.  
Pour tester les critères par programmation, vous pouvez utiliser le [TestCustomDataIdentifier](https://docs.aws.amazon.com/macie/latest/APIReference/custom-data-identifiers-test.html)fonctionnement de l'API Amazon Macie. Cette opération fournit un environnement permettant d'évaluer des échantillons de données à l'aide de critères de détection. Si vous utilisez le AWS CLI, vous pouvez exécuter la [test-custom-data-identifier](https://docs.aws.amazon.com/cli/latest/reference/macie2/test-custom-data-identifier.html)commande pour tester les critères.

Lorsque vous êtes prêt à créer l'identifiant de données personnalisé, utilisez les paramètres suivants pour définir ses critères de détection :
+ `regex`— Spécifiez l'expression régulière (*regex*) qui définit le modèle de texte à correspondre. L'expression régulière peut contenir jusqu'à 512 caractères.

  Macie prend en charge un sous-ensemble de la syntaxe des modèles fournie par la bibliothèque [Perl Compatible Regular Expressions (PCRE)](https://www.pcre.org/). Pour plus de détails et de conseils, consultez la section [Critères de détection pour les identificateurs de données personnalisés](cdis-options.md#cdis-detection-criteria).
+ `keywords`— Spécifiez éventuellement des séquences de 1 à 50 caractères (*mots clés*) qui doivent se trouver à proximité du texte correspondant au modèle d'expression régulière.

  Macie inclut une occurrence dans les résultats uniquement si le texte correspond au modèle regex et s'il se trouve dans la distance de correspondance maximale de l'un de ces mots clés. Chaque mot clé peut contenir de 3 à 90 caractères UTF-8. Les mots-clés ne sont pas sensibles à la casse.
+ `maximumMatchDistance`— Spécifiez éventuellement le nombre maximum de caractères pouvant exister entre la fin d'un mot clé et la fin du texte correspondant au modèle regex. Si vous utilisez le AWS CLI, utilisez le `maximum-match-distance` paramètre pour spécifier cette valeur.

  Macie inclut une occurrence dans les résultats uniquement si le texte correspond au modèle regex et s'il se trouve à cette distance d'un mot clé complet. La distance peut être comprise entre 1 et 300 caractères. La distance par défaut est de 50 caractères.
+ `ignoreWords`— Spécifiez éventuellement des séquences de 1 à 10 caractères (*ignorez les mots*) à exclure des résultats. Si vous utilisez le AWS CLI, utilisez le `ignore-words` paramètre pour spécifier ces séquences de caractères.

  Macie exclut une occurrence des résultats si le texte correspond au modèle regex mais qu'il contient l'un de ces mots ignorés. Chaque mot ignoré peut contenir de 4 à 90 caractères UTF-8. Les mots ignorés sont sensibles à la casse.

Pour spécifier la gravité des résultats relatifs aux données sensibles produits par l'identifiant de données personnalisé, utilisez le `severityLevels` paramètre ou, si vous utilisez le AWS CLI, le `severity-levels` paramètre :
+ Pour attribuer automatiquement la `MEDIUM` gravité à tous les résultats, omettez ce paramètre. Macie utilise ensuite le paramètre par défaut. Par défaut, Macie attribue la `MEDIUM` sévérité à un résultat si l'objet S3 concerné contient une ou plusieurs occurrences de texte correspondant aux critères de détection.
+ Pour attribuer la gravité en fonction des seuils d'occurrence que vous spécifiez, spécifiez le nombre minimum de correspondances qui doivent exister dans un objet S3 pour produire un résultat d'une gravité spécifiée.

  Vous pouvez spécifier jusqu'à trois seuils d'occurrence, un pour chaque niveau de gravité pris en charge par Macie : `LOW` (le moins grave) ou `HIGH` (le plus sévère). `MEDIUM` Si vous en spécifiez plusieurs, les seuils doivent être classés par ordre croissant de gravité, en allant de `LOW` à`HIGH`. Si un objet S3 contient moins d'occurrences que le seuil le plus bas, Macie ne crée pas de résultat.

Utilisez des paramètres supplémentaires pour spécifier un nom et d'autres paramètres, tels que des balises, pour l'identifiant de données personnalisé. Évitez d'inclure des données sensibles dans ces paramètres. Les autres utilisateurs de votre compte peuvent peut-être accéder à ces valeurs, en fonction des actions qu'ils sont autorisés à effectuer dans Macie.

Lorsque vous soumettez votre demande, Macie teste les paramètres et vérifie qu'il peut compiler l'expression régulière. En cas de problème avec un paramètre ou une expression régulière, la demande échoue et Macie renvoie un message décrivant le problème. Si la demande aboutit, vous recevez un résultat similaire à ce qui suit :

```
{
    "customDataIdentifierId": "393950aa-82ea-4bdc-8f7b-e5be3example"
}
```

Where `customDataIdentifierId` indique l'identifiant unique (ID) pour l'identifiant de données personnalisé créé.

Pour récupérer et vérifier ultérieurement les paramètres de l'identifiant de données personnalisé, utilisez l'[GetCustomDataIdentifier](https://docs.aws.amazon.com/macie/latest/APIReference/custom-data-identifiers-id.html)opération ou, si vous utilisez le AWS CLI, exécutez la [get-custom-data-identifier](https://docs.aws.amazon.com/cli/latest/reference/macie2/get-custom-data-identifier.html)commande. Pour le `id` paramètre, spécifiez l'ID de l'identifiant de données personnalisé.

Les exemples suivants montrent comment utiliser le AWS CLI pour créer un identifiant de données personnalisé. Les exemples créent un identifiant de données personnalisé conçu pour détecter les employés IDs qui utilisent une syntaxe spécifique et se trouvent à proximité d'un mot clé spécifié. Les exemples définissent également des paramètres de gravité personnalisés pour les résultats produits par l'identifiant.

Cet exemple est formaté pour Linux, macOS ou Unix et utilise le caractère de continuation de ligne barre oblique inverse (\\) pour améliorer la lisibilité.

```
$ aws macie2 create-custom-data-identifier \
--name "{{EmployeeIDs}}" \
--regex "{{[A-Z]-\d{8}}}" \
--keywords '[{{"employee","employee ID"}}]' \
--maximum-match-distance {{20}} \
--severity-levels '[{"occurrencesThreshold":{{1}},"severity":"{{LOW}}"},{"occurrencesThreshold":{{50}},"severity":"{{MEDIUM}}"},{"occurrencesThreshold":{{100}},"severity":"{{HIGH}}"}]' \
--description "{{Detects employee IDs in proximity of a keyword.}}" \
--tags '{"{{Stack}}":"{{Production}}"}'
```

Cet exemple est formaté pour Microsoft Windows et utilise le caractère de continuation de ligne caret (^) pour améliorer la lisibilité.

```
C:\> aws macie2 create-custom-data-identifier ^
--name "{{EmployeeIDs}}" ^
--regex "{{[A-Z]-\d{8}}}" ^
--keywords "[\"{{employee}}\",\"{{employee ID}}\"]" ^
--maximum-match-distance {{20}} ^
--severity-levels "[{\"occurrencesThreshold\":{{1}},\"severity\":\"{{LOW}}\"},{\"occurrencesThreshold\":{{50}},\"severity\":\"{{MEDIUM}}\"},{\"occurrencesThreshold\":{{100}},\"severity\":\"{{HIGH}}\"}]" ^
--description "{{Detects employee IDs in proximity of a keyword.}}" ^
--tags={\"{{Stack}}\":\"{{Production}}\"}
```

Où :
+ `{{EmployeeIDs}}`est le nom de l'identifiant de données personnalisé.
+ `{{[A-Z]-\d{8}}}`est l'expression régulière du modèle de texte à correspondre.
+ `{{employee}}`et `{{employee ID}}` sont des mots clés qui doivent se trouver à proximité d'un texte correspondant au modèle regex.
+ `{{20}}`est le nombre maximum de caractères pouvant exister entre la fin d'un mot clé et la fin d'un texte correspondant au modèle regex.
+ `description`spécifie une brève description de l'identifiant de données personnalisé.
+ `severity-levels`définit des seuils d'occurrence personnalisés pour la gravité des constatations produites par l'identifiant de données personnalisé : `{{LOW}}` pour 1 à 49 occurrences, `{{MEDIUM}}` pour 50 à 99 occurrences et `{{HIGH}}` pour 100 occurrences ou plus.
+ `{{Stack}}`est la clé de balise de la balise à attribuer à l'identifiant de données personnalisé. `{{Production}}`est la valeur de balise pour la clé de balise spécifiée.

------

Après avoir créé l'identifiant de données personnalisé, vous pouvez [créer et configurer des tâches de découverte de données sensibles](discovery-jobs-create.md) pour l'utiliser, ou [l'ajouter à vos paramètres pour la découverte automatique de données sensibles](discovery-asdd-account-configure.md).