View a markdown version of this page

Expurgation des PII (données d’identification personnelle) dans votre tâche par lots - Amazon Transcribe

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Expurgation des PII (données d’identification personnelle) dans votre tâche par lots

Lorsque vous supprimez des informations personnelles identifiables (PII) d'une transcription lors d'un travail de transcription par lots, remplacez Amazon Transcribe chaque instance identifiée de PII par le corps du texte principal de votre transcription. [PII] Vous pouvez également afficher le type de PII qui est expurgé dans la partie mot pour mot de la sortie de transcription. Pour un exemple de sortie, consultez la section Exemple de sortie expurgée (lot).

La rédaction avec transcriptions par lots est disponible en dialecte anglais : États-Unis (en-US) ; dialecte espagnol : États-Unis (es-US) ; dialectes français : français ()fr-FR, Canada () ; dialectes allemands : Allemagne (fr-CA), suisse (de-DE) ; dialecte italien : Italie () de-CH it-IT ; et dialectes portugais : Portugal (), Brésil (). pt-PT pt-BR L’expurgation n’est pas compatible avec l’identification des langues.

Les transcriptions expurgées et non expurgées sont stockées dans le même compartiment de sortie. Amazon S3 Amazon Transcribe les stocke dans un compartiment que vous spécifiez ou dans le Amazon S3 compartiment par défaut géré par le service.

Types de PII Amazon Transcribe peut reconnaître les transcriptions par lots
Type de PII Description
ADDRESS

Adresse physique, telle que 100 Main Street, Anytown, États-Unis ou Suite n°12, bâtiment 123. Une adresse peut inclure une rue, un bâtiment, un emplacement, une ville, un état, un pays, un comté, un code postal, une circonscription, un quartier, etc.

AGE

Âge d’une personne. Par exemple, dans la phrase « J'ai 40 ans », Amazon Transcribe reconnaît « 40 ans » comme un âge.

ALL

Expurgez ou identifiez tous les types de PII répertoriés dans ce tableau.

AWS_ACCESS_KEY

Identifiant unique associé à une clé d'accès secrète ; vous utilisez l'ID de clé d'accès et la clé d'accès secrète pour signer des demandes AWS programmatiques de manière cryptographique.

AWS_SECRET_KEY

Identifiant unique associé à une clé d’accès. Vous utilisez l'ID de clé d'accès et la clé d'accès secrète pour signer les demandes AWS programmatiques de manière cryptographique.

BANK_ACCOUNT_NUMBER

Numéro du compte bancaire aux États-Unis. Il s’agit généralement d’un numéro composé de 10 à 12 chiffres, mais Amazon Transcribe reconnaît également les numéros de compte bancaire lorsque seuls les 4 derniers chiffres sont présents.

BANK_ROUTING

Numéro d’acheminement du compte bancaire aux États-Unis. Il s’agit généralement d’un numéro à 9 chiffres, mais Amazon Transcribe reconnaît également les numéros de routage lorsque seuls les 4 derniers chiffres sont présents.

CA_HEALTH_NUMBER

Un numéro du service de santé canadien est un identifiant unique à dix chiffres, requis pour que les personnes aient accès aux prestations de santé.

CA_SOCIAL_INSURANCE_NUMBER

Le numéro d'assurance sociale (SIN) canadien est un identifiant unique à 9 chiffres, requis pour accéder aux programmes et aux prestations du gouvernement.

CREDIT_DEBIT_CVV

Code de vérification de carte (CVV) à 3 chiffres présent sur les cartes de crédit et de débit VISA et Discover. MasterCard Sur les cartes de crédit ou de débit American Express, il s’agit d’un code numérique à 4 chiffres.

CREDIT_DEBIT_EXPIRY

Date d’expiration d’une carte de crédit ou de débit. Ce numéro comporte généralement 4 chiffres et est formaté comme month/year ou MM/YY. Par exemple, Amazon Transcribe peut reconnaître des dates d'expiration telles que 01/2101/2021, et janvier 2021.

CREDIT_DEBIT_NUMBER

Numéro de carte de crédit ou de débit. La longueur de ces numéros peut varier de 13 à 16 chiffres, mais ils reconnaissent Amazon Transcribe également les numéros de carte de crédit ou de débit lorsque seuls les 4 derniers chiffres sont présents.

DATE_TIME

Une date peut inclure une année, un mois, un jour, un jour de la semaine ou une heure de la journée. Par exemple, Amazon Transcribe reconnaît le « 19 janvier 2020 » ou « 11 h » comme des dates. Amazon Transcribe reconnaîtra les dates partielles, les plages de dates et les intervalles de dates. Il reconnaîtra également des décennies, telles que « les années 1990 ».

DRIVER_ID

Le numéro attribué à un permis de conduire, qui est un document officiel permettant à une personne de conduire un ou plusieurs véhicules motorisés sur la voie publique. Un numéro de permis de conduire est composé de caractères alphanumériques.

EMAIL

Adresse e-mail, telle que efua.owusu@email.com.

INTERNATIONAL_BANK_ACCOUNT_NUMBER

Un numéro de compte bancaire international présente des formats spécifiques dans chaque pays. Pour plus d'informations, consultez le site www.iban. com/structure.

IP_ADDRESS

Adresse IPv4, telle que 198.51.100.0.

LICENSE_PLATE

La plaque d’immatriculation d’un véhicule est délivrée par l’État ou le pays où le véhicule est immatriculé. Le format des véhicules de tourisme est généralement composé de cinq à huit caractères, composés de lettres majuscules et de chiffres. Le format varie en fonction de la localisation de l’État ou du pays émetteur.

MAC_ADDRESS

Une adresse Media Access Control (MAC) est un identifiant unique attribué à une carte réseau.

NAME

Nom d’une personne. Ce type d'entité n'inclut pas les titres, tels que M., Mme, Miss ou Dr. Il Amazon Transcribe n'applique pas ce type d'entité aux noms qui font partie d'organisations ou d'adresses. Par exemple, Amazon Transcribe reconnaît l'organisation John Doe en tant qu'organisation et Jane Doe Street en tant qu'adresse.

PASSPORT_NUMBER

Identifiant unique attribué au passeport d'un individu. Le format comprend généralement une combinaison de lettres et de chiffres et varie selon les pays.

PASSWORD

Chaîne alphanumérique utilisée comme mot de passe, telle que « *very20special#pass* ».

PHONE

Numéro de téléphone. Ce type d’entité inclut également les numéros de télécopieur et de pager.

PIN

Numéro d’identification personnel (PIN) à 4 chiffres qui permet à une personne d’accéder aux informations de son compte bancaire.

SSN

Un numéro de sécurité sociale (SSN) est un numéro à 9 chiffres délivré aux citoyens américains, aux résidents permanents et aux résidents actifs temporaires. Amazon Transcribe reconnaît également les numéros de sécurité sociale lorsque seuls les 4 derniers chiffres sont présents.

SWIFT_CODE

Un code SWIFT est un format standard d’identifiant bancaire (BIC) utilisé pour spécifier une banque ou une succursale en particulier. Les banques utilisent ces codes pour les transferts d’argent tels que les virements internationaux. Les codes SWIFT sont composés de 8 ou 11 caractères. Les codes à 11 chiffres font référence à des succursales spécifiques, tandis que les codes à 8 chiffres (ou les codes à 11 chiffres se terminant par « XXX ») font référence au siège social ou au bureau principal.

URL

Une adresse Web, telle que www.exemple.com.

US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER

Un numéro d'identification de contribuable individuel (ITIN) américain est un numéro à 9 chiffres commençant par un « 9 » et contenant un « 7 » ou un « 8 » comme quatrième chiffre. Un ITIN peut être formaté avec un espace ou un tiret après les troisième et quatrième chiffres.

USERNAME

Nom d’utilisateur qui identifie un compte, tel qu’un nom de connexion, un pseudonyme ou un surnom.

VEHICLE_IDENTIFICATION_NUMBER

Un numéro d’identification de véhicule (VIN) identifie un véhicule de manière unique. Le contenu et le format du VIN sont définis dans la spécification ISO 3779. Chaque pays possède des codes et des formats spécifiques pour les VIN.

Vous pouvez démarrer une tâche de transcription par lots à l'aide du AWS Management Console ou du AWS SDK. AWS CLI

  1. Connectez-vous à la AWS Management Console.

  2. Dans le volet de navigation, choisissez Tâches de transcription, puis sélectionnez Créer une tâche (en haut à droite). La page Spécifier les détails de la tâche s’ouvre.

  3. Après avoir rempli les champs souhaités sur la page Spécifier les détails de la tâche, sélectionnez Suivant pour accéder à la page Configurer la tâche - facultatif. Vous y trouverez le volet Suppression de contenu avec le bouton à bascule Expurgation des PII.

    Amazon Transcribe capture d'écran de la console : le « volet de suppression de contenu » sur la page « configurer le travail ».
  4. Une fois que vous avez sélectionné Expurgation des PII, vous pouvez sélectionner tous les types de PII que vous souhaitez expurger. Vous pouvez également choisir d’avoir une transcription non expurgée si vous sélectionnez la zone Inclure la transcription non expurgée dans la sortie de la tâche.

    Amazon Transcribe capture d'écran de la console : le volet « suppression de contenu » affichant les options PII.
  5. Sélectionnez Créer une tâche pour exécuter votre tâche de transcription.

Cet exemple utilise la commande start-transcription-job et le paramètre content-redaction. Pour plus d’informations, consultez StartTranscriptionJob et ContentRedaction.

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac \ --output-bucket-name amzn-s3-demo-bucket \ --output-key my-output-files/ \ --language-code en-US \ --content-redaction RedactionType=PII,RedactionOutput=redacted,PiiEntityTypes=NAME,ADDRESS,BANK_ACCOUNT_NUMBER

Voici un autre exemple d’utilisation de la méthode start-transcription-job, et de corps de requête avec les PII expurgées pour cette tâche.

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://filepath/my-first-redaction-job.json

Le fichier my-first-redaction-job.json contient le corps de requête suivant.

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" }, "OutputBucketName": "amzn-s3-demo-bucket", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "ContentRedaction": { "RedactionOutput":"redacted", "RedactionType":"PII", "PiiEntityTypes": [ "NAME", "ADDRESS", "BANK_ACCOUNT_NUMBER" ] } }

Cet exemple utilise le AWS SDK pour Python (Boto3) pour supprimer du contenu à l'aide de l'ContentRedactionargument de la méthode start_transcription_job. Pour plus d’informations, consultez StartTranscriptionJob et ContentRedaction.

Pour d'autres exemples d'utilisation AWS des SDK, notamment des exemples spécifiques aux fonctionnalités, des scénarios et des exemples multiservices, reportez-vous au chapitre. Exemples de code pour Amazon Transcribe à l'aide de AWS Kits SDK

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'amzn-s3-demo-bucket', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ContentRedaction = { 'RedactionOutput':'redacted', 'RedactionType':'PII', 'PiiEntityTypes': [ 'NAME','ADDRESS','BANK_ACCOUNT_NUMBER' ] } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
Note

La rédaction d'informations personnelles pour les jobs par lots n'est prise en charge que dans les pays suivants Régions AWS : Asie-Pacifique (Hong Kong), Asie-Pacifique (Mumbai), Asie-Pacifique (Séoul), Asie-Pacifique (Sydney), Asie-Pacifique (Tokyo), (), Canada (Centre GovCloud )US-West, UE (Francfort), UE (Irlande), UE (Londres), UE (Paris), Moyen-Orient (Bahreïn), Amérique du Sud (Sao Paulo), USA Est (Virginie du Nord), USA Est (Ohio), USA Ouest (Oregon) et USA Ouest (Californie du Nord).