Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Expurgation des PII (données d’identification personnelle) dans votre tâche par lots
Lorsque vous supprimez des informations personnelles identifiables (PII) d'une transcription lors d'un travail de transcription par lots, remplacez Amazon Transcribe chaque instance identifiée de PII par le corps du texte principal de votre transcription. [PII] Vous pouvez également afficher le type de PII qui est expurgé dans la partie mot pour mot de la sortie de transcription. Pour un exemple de sortie, consultez la section Exemple de sortie expurgée (lot).
La rédaction avec transcriptions par lots est disponible en dialecte anglais : États-Unis (en-US) ; dialecte espagnol : États-Unis (es-US) ; dialectes français : français ()fr-FR, Canada () ; dialectes allemands : Allemagne (fr-CA), suisse (de-DE) ; dialecte italien : Italie () de-CH it-IT ; et dialectes portugais : Portugal (), Brésil (). pt-PT pt-BR L’expurgation n’est pas compatible avec l’identification des langues.
Les transcriptions expurgées et non expurgées sont stockées dans le même compartiment de sortie. Amazon S3 Amazon Transcribe les stocke dans un compartiment que vous spécifiez ou dans le Amazon S3 compartiment par défaut géré par le service.
| Type de PII | Description |
|---|---|
ADDRESS |
Adresse physique, telle que 100 Main Street, Anytown, États-Unis ou Suite n°12, bâtiment 123. Une adresse peut inclure une rue, un bâtiment, un emplacement, une ville, un état, un pays, un comté, un code postal, une circonscription, un quartier, etc. |
AGE |
Âge d’une personne. Par exemple, dans la phrase « J'ai 40 ans », Amazon Transcribe reconnaît « 40 ans » comme un âge. |
ALL |
Expurgez ou identifiez tous les types de PII répertoriés dans ce tableau. |
AWS_ACCESS_KEY |
Identifiant unique associé à une clé d'accès secrète ; vous utilisez l'ID de clé d'accès et la clé d'accès secrète pour signer des demandes AWS programmatiques de manière cryptographique. |
AWS_SECRET_KEY |
Identifiant unique associé à une clé d’accès. Vous utilisez l'ID de clé d'accès et la clé d'accès secrète pour signer les demandes AWS programmatiques de manière cryptographique. |
BANK_ACCOUNT_NUMBER |
Numéro du compte bancaire aux États-Unis. Il s’agit généralement d’un numéro composé de 10 à 12 chiffres, mais Amazon Transcribe reconnaît également les numéros de compte bancaire lorsque seuls les 4 derniers chiffres sont présents. |
BANK_ROUTING |
Numéro d’acheminement du compte bancaire aux États-Unis. Il s’agit généralement d’un numéro à 9 chiffres, mais Amazon Transcribe reconnaît également les numéros de routage lorsque seuls les 4 derniers chiffres sont présents. |
CA_HEALTH_NUMBER |
Un numéro du service de santé canadien est un identifiant unique à dix chiffres, requis pour que les personnes aient accès aux prestations de santé. |
CA_SOCIAL_INSURANCE_NUMBER |
Le numéro d'assurance sociale (SIN) canadien est un identifiant unique à 9 chiffres, requis pour accéder aux programmes et aux prestations du gouvernement. |
CREDIT_DEBIT_CVV |
Code de vérification de carte (CVV) à 3 chiffres présent sur les cartes de crédit et de débit VISA et Discover. MasterCard Sur les cartes de crédit ou de débit American Express, il s’agit d’un code numérique à 4 chiffres. |
CREDIT_DEBIT_EXPIRY |
Date d’expiration d’une carte de crédit ou de débit. Ce numéro comporte généralement 4 chiffres et est formaté comme month/year ou MM/YY. Par exemple, Amazon Transcribe peut reconnaître des dates d'expiration telles que 01/2101/2021, et janvier 2021. |
CREDIT_DEBIT_NUMBER |
Numéro de carte de crédit ou de débit. La longueur de ces numéros peut varier de 13 à 16 chiffres, mais ils reconnaissent Amazon Transcribe également les numéros de carte de crédit ou de débit lorsque seuls les 4 derniers chiffres sont présents. |
DATE_TIME |
Une date peut inclure une année, un mois, un jour, un jour de la semaine ou une heure de la journée. Par exemple, Amazon Transcribe reconnaît le « 19 janvier 2020 » ou « 11 h » comme des dates. Amazon Transcribe reconnaîtra les dates partielles, les plages de dates et les intervalles de dates. Il reconnaîtra également des décennies, telles que « les années 1990 ». |
DRIVER_ID |
Le numéro attribué à un permis de conduire, qui est un document officiel permettant à une personne de conduire un ou plusieurs véhicules motorisés sur la voie publique. Un numéro de permis de conduire est composé de caractères alphanumériques. |
EMAIL |
Adresse e-mail, telle que efua.owusu@email.com. |
INTERNATIONAL_BANK_ACCOUNT_NUMBER |
Un numéro de compte bancaire international présente des formats spécifiques dans chaque pays. Pour plus d'informations, consultez le site www.iban. com/structure. |
IP_ADDRESS |
Adresse IPv4, telle que 198.51.100.0. |
LICENSE_PLATE |
La plaque d’immatriculation d’un véhicule est délivrée par l’État ou le pays où le véhicule est immatriculé. Le format des véhicules de tourisme est généralement composé de cinq à huit caractères, composés de lettres majuscules et de chiffres. Le format varie en fonction de la localisation de l’État ou du pays émetteur. |
MAC_ADDRESS |
Une adresse Media Access Control (MAC) est un identifiant unique attribué à une carte réseau. |
NAME |
Nom d’une personne. Ce type d'entité n'inclut pas les titres, tels que M., Mme, Miss ou Dr. Il Amazon Transcribe n'applique pas ce type d'entité aux noms qui font partie d'organisations ou d'adresses. Par exemple, Amazon Transcribe reconnaît l'organisation John Doe en tant qu'organisation et Jane Doe Street en tant qu'adresse. |
PASSPORT_NUMBER |
Identifiant unique attribué au passeport d'un individu. Le format comprend généralement une combinaison de lettres et de chiffres et varie selon les pays. |
PASSWORD |
Chaîne alphanumérique utilisée comme mot de passe, telle que « *very20special#pass* ». |
PHONE |
Numéro de téléphone. Ce type d’entité inclut également les numéros de télécopieur et de pager. |
PIN |
Numéro d’identification personnel (PIN) à 4 chiffres qui permet à une personne d’accéder aux informations de son compte bancaire. |
SSN |
Un numéro de sécurité sociale (SSN) est un numéro à 9 chiffres délivré aux citoyens américains, aux résidents permanents et aux résidents actifs temporaires. Amazon Transcribe reconnaît également les numéros de sécurité sociale lorsque seuls les 4 derniers chiffres sont présents. |
SWIFT_CODE |
Un code SWIFT est un format standard d’identifiant bancaire (BIC) utilisé pour spécifier une banque ou une succursale en particulier. Les banques utilisent ces codes pour les transferts d’argent tels que les virements internationaux. Les codes SWIFT sont composés de 8 ou 11 caractères. Les codes à 11 chiffres font référence à des succursales spécifiques, tandis que les codes à 8 chiffres (ou les codes à 11 chiffres se terminant par « XXX ») font référence au siège social ou au bureau principal. |
URL |
Une adresse Web, telle que www.exemple.com. |
US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER |
Un numéro d'identification de contribuable individuel (ITIN) américain est un numéro à 9 chiffres commençant par un « 9 » et contenant un « 7 » ou un « 8 » comme quatrième chiffre. Un ITIN peut être formaté avec un espace ou un tiret après les troisième et quatrième chiffres. |
USERNAME |
Nom d’utilisateur qui identifie un compte, tel qu’un nom de connexion, un pseudonyme ou un surnom. |
VEHICLE_IDENTIFICATION_NUMBER |
Un numéro d’identification de véhicule (VIN) identifie un véhicule de manière unique. Le contenu et le format du VIN sont définis dans la spécification ISO 3779. Chaque pays possède des codes et des formats spécifiques pour les VIN. |
Vous pouvez démarrer une tâche de transcription par lots à l'aide du AWS Management Console ou du AWS SDK. AWS CLI
-
Connectez-vous à la AWS Management Console
. -
Dans le volet de navigation, choisissez Tâches de transcription, puis sélectionnez Créer une tâche (en haut à droite). La page Spécifier les détails de la tâche s’ouvre.
-
Après avoir rempli les champs souhaités sur la page Spécifier les détails de la tâche, sélectionnez Suivant pour accéder à la page Configurer la tâche - facultatif. Vous y trouverez le volet Suppression de contenu avec le bouton à bascule Expurgation des PII.
-
Une fois que vous avez sélectionné Expurgation des PII, vous pouvez sélectionner tous les types de PII que vous souhaitez expurger. Vous pouvez également choisir d’avoir une transcription non expurgée si vous sélectionnez la zone Inclure la transcription non expurgée dans la sortie de la tâche.
-
Sélectionnez Créer une tâche pour exécuter votre tâche de transcription.
Cet exemple utilise la commande start-transcription-jobcontent-redaction. Pour plus d’informations, consultez StartTranscriptionJob et ContentRedaction.
aws transcribe start-transcription-job \ --regionus-west-2\ --transcription-job-namemy-first-transcription-job\ --media MediaFileUri=s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac\ --output-bucket-nameamzn-s3-demo-bucket\ --output-keymy-output-files/ \ --language-codeen-US\ --content-redaction RedactionType=PII,RedactionOutput=redacted,PiiEntityTypes=NAME,ADDRESS,BANK_ACCOUNT_NUMBER
Voici un autre exemple d’utilisation de la méthode start-transcription-job
aws transcribe start-transcription-job \ --regionus-west-2\ --cli-input-json file://filepath/my-first-redaction-job.json
Le fichier my-first-redaction-job.json contient le corps de requête suivant.
{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" }, "OutputBucketName": "amzn-s3-demo-bucket", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "ContentRedaction": { "RedactionOutput":"redacted", "RedactionType":"PII", "PiiEntityTypes": [ "NAME", "ADDRESS", "BANK_ACCOUNT_NUMBER" ] } }
Cet exemple utilise le AWS SDK pour Python (Boto3) pour supprimer du contenu à l'aide de l'ContentRedactionargument de la méthode start_transcription_jobStartTranscriptionJob et ContentRedaction.
Pour d'autres exemples d'utilisation AWS des SDK, notamment des exemples spécifiques aux fonctionnalités, des scénarios et des exemples multiservices, reportez-vous au chapitre. Exemples de code pour Amazon Transcribe à l'aide de AWS Kits SDK
from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'amzn-s3-demo-bucket', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ContentRedaction = { 'RedactionOutput':'redacted', 'RedactionType':'PII', 'PiiEntityTypes': [ 'NAME','ADDRESS','BANK_ACCOUNT_NUMBER' ] } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
Note
La rédaction d'informations personnelles pour les jobs par lots n'est prise en charge que dans les pays suivants Régions AWS : Asie-Pacifique (Hong Kong), Asie-Pacifique (Mumbai), Asie-Pacifique (Séoul), Asie-Pacifique (Sydney), Asie-Pacifique (Tokyo), (), Canada (Centre GovCloud )US-West, UE (Francfort), UE (Irlande), UE (Londres), UE (Paris), Moyen-Orient (Bahreïn), Amérique du Sud (Sao Paulo), USA Est (Virginie du Nord), USA Est (Ohio), USA Ouest (Oregon) et USA Ouest (Californie du Nord).