Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Redacción de la PII en su trabajo por lotes
Al redactar información de identificación personal (PII) de una transcripción durante un trabajo de transcripción por lotes, Amazon Transcribe reemplaza cada instancia identificada de PII por una [PII] en el cuerpo del texto principal de la transcripción. También puede ver el tipo de PII que está redactada en la parte palabra por palabra del resultado de la transcripción. Para un ejemplo de salida, consulte Ejemplo de salida redactada (por lotes).
La redacción con transcripciones por lotes está disponible en dialecto inglés: EE. UU. (en-US); dialecto español: EE. UU. (es-US); dialectos franceses: francés ()fr-FR, Canadá ()fr-CA; dialectos alemanes: Alemania (), suizo (de-DE); dialecto italiano: Italia ()de-CH; y dialectos portugueses: Portugal ()it-IT, Brasil (). pt-PT pt-BR La redacción no es compatible con la identificación del idioma.
Tanto las transcripciones redactadas como las no redactadas se almacenan en el mismo depósito de salida. Amazon S3 Amazon Transcribe las almacena en un depósito que usted especifique o en el Amazon S3 depósito predeterminado que administra el servicio.
| Tipo de PII | Description (Descripción) |
|---|---|
ADDRESS |
Una dirección física, como, por ejemplo: 100 Main Street, Anytown, EE. UU. o Suite n.º 12, Building 123. Una dirección puede la calle, el edificio, la ubicación, la ciudad, el estado, el país, el condado, el código postal, el distrito y el barrio. |
AGE |
La edad de una persona, incluidas la cantidad y la unidad de tiempo. Por ejemplo, en la frase «Tengo 40 años», Amazon Transcribe reconoce «40 años» como una edad. |
ALL |
Redacte o identifique todos los tipos de PII que aparecen en esta tabla. |
AWS_ACCESS_KEY |
Un identificador único que se asocia a una clave de acceso secreta; se utilizan el ID de la clave de acceso y la clave de acceso secreta para firmar criptográficamente las solicitudes programáticas de AWS. |
AWS_SECRET_KEY |
Se trata de un identificador único que está asociado a una clave de acceso. Utiliza el ID de la clave de acceso y la clave de acceso secreta para firmar criptográficamente las solicitudes programáticas de AWS. |
BANK_ACCOUNT_NUMBER |
Número de cuenta bancaria en EE. UU. Suelen tener entre 10 y 12 dígitos, pero Amazon Transcribe también reconoce los números de las cuentas bancarias cuando sólo están presentes los últimos 4 dígitos. |
BANK_ROUTING |
número de ruta de la cuenta bancaria en EE. UU Suelen tener 9 dígitos, pero Amazon Transcribe también reconoce los números de las cuentas bancarias cuando sólo están presentes los últimos 4 dígitos. |
CA_HEALTH_NUMBER |
El número del Servicio de Salud de Canadá es un identificador único de 10 dígitos que se requiere para que las personas accedan a los beneficios de atención médica. |
CA_SOCIAL_INSURANCE_NUMBER |
El número de seguro social (SIN) canadiense es un identificador único de 9 dígitos que las personas necesitan para acceder a los programas y beneficios del gobierno. |
CREDIT_DEBIT_CVV |
Un código de verificación de tarjeta (CVV) de 3 dígitos que está presente en las tarjetas de crédito y débito VISA y Discover. MasterCard En el caso de las tarjetas de crédito o débito American Express, el CVV es un código numérico de 4 dígitos. |
CREDIT_DEBIT_EXPIRY |
Fecha de caducidad de la tarjeta de crédito o débito Este número suele tener 4 dígitos y su formato es o. month/year MM/YY Por ejemplo, Amazon Transcribe puede reconocer fechas de caducidad como 01/2101/2021, y enero de 2021. |
CREDIT_DEBIT_NUMBER |
Número de una tarjeta de crédito o débito. Estos números pueden variar de 13 a 16 dígitos, pero Amazon Transcribe también reconocen los números de las tarjetas de crédito o débito cuando solo están presentes los últimos 4 dígitos. |
DATE_TIME |
Una fecha puede incluir un año, un mes, un día, un día de la semana o una hora del día. Por ejemplo, Amazon Transcribe reconoce como fechas «19 de enero de 2020» o «11 a. m.». Amazon Transcribe reconocerá fechas parciales, rangos de fechas e intervalos de fechas. También reconocerá décadas, como “la década de 1990”. |
DRIVER_ID |
Se trata del número asignado a la licencia de conducir, que es un documento oficial que permite a una persona conducir uno o más vehículos motorizados en una vía pública. El número de licencia de conducir se compone de caracteres alfanuméricos. |
EMAIL |
Se trata de una dirección de correo electrónico, como efua.owusu@email.com. |
INTERNATIONAL_BANK_ACCOUNT_NUMBER |
Un número de cuenta bancaria internacional tiene formatos específicos en cada país. Para obtener más información, consulte www.iban. com/structure. |
IP_ADDRESS |
Se trata de una dirección IPv4, como 198.51.100.0. |
LICENSE_PLATE |
La matrícula de un vehículo es emitida por el estado o el país donde está registrado el vehículo. El formato de matrículas de los vehículos de pasajeros suele ser de cinco a ocho dígitos y consta de letras mayúsculas y números. El formato varía según la ubicación del estado o país emisor. |
MAC_ADDRESS |
Una dirección de control de acceso al medio (MAC) es un identificador único asignado a un controlador de interfaz de red (NIC). |
NAME |
El nombre de una persona. Este tipo de entidad no incluye cargos como Sr., Sra., Srta. o Dr. No Amazon Transcribe aplica este tipo de entidad a los nombres que forman parte de organizaciones o direcciones. Por ejemplo, Amazon Transcribe reconoce a la Organización John Doe como una organización y a Jane Doe Street como una dirección. |
PASSPORT_NUMBER |
Un identificador único asignado al pasaporte de una persona. El formato suele incluir una combinación de letras y números y varía según el país. |
PASSWORD |
Se trata de una cadena alfanumérica que se utiliza como contraseña, como, por ejemplo: “*seña#20muyespecial*”. |
PHONE |
número de teléfono Este tipo de entidad también incluye números de fax y buscapersonas. |
PIN |
Un número de identificación personal (PIN) de 4 dígitos que permite a una persona acceder a la información de su cuenta bancaria. |
SSN |
Un número de seguro social (SSN) es un número de 9 dígitos que se emite a los ciudadanos estadounidenses, los residentes permanentes y los residentes que trabajan temporalmente. Amazon Transcribe también reconoce los números de seguro social cuando solo están presentes los últimos 4 dígitos. |
SWIFT_CODE |
Un código SWIFT es un formato estándar del código de identificación bancaria (BIC) que se utiliza para especificar un banco o sucursal en particular. Los bancos utilizan estos códigos para las transferencias de dinero, como las transferencias bancarias internacionales. Los códigos SWIFT constan de 8 u 11 caracteres. Los códigos de 11 dígitos se refieren a sucursales específicas, mientras que los códigos de 8 dígitos (o los códigos de 11 dígitos que terminan en «XXX») se refieren a la oficina central o principal. |
URL |
Una dirección web, como www.ejemplo.com. |
US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER |
El número de identificación fiscal individual (ITIN) de los EE. UU. es un número de 9 dígitos que comienza con un «9» y contiene un «7» o un «8» como cuarto dígito. Se puede formatear un ITIN con un espacio o un guión después del tercer y cuarto dígito. |
USERNAME |
Se trata de nombre de usuario que identifica una cuenta, como un nombre de inicio de sesión, un nombre de usuario, un apodo o un identificador. |
VEHICLE_IDENTIFICATION_NUMBER |
Un número de identificación de vehículo (VIN) identifica de manera única a un vehículo. El contenido y el formato del VIN se definen en la especificación ISO 3779. Cada país tiene códigos y formatos específicos para los VIN. |
Puede iniciar un trabajo de transcripción por lotes utilizando el Consola de administración de AWS AWS CLI, o AWS el SDK.
-
Inicie sesión en la Consola de administración de AWS
. -
En el panel de navegación, seleccione Trabajos de transcripción y, a continuación, seleccione Crear trabajo (arriba a la derecha). Se abrirá la página Especificar los detalles del trabajo.
-
Tras rellenar los campos que desee en la página de Especificar los detalles del trabajo, seleccione Siguiente para ir a la página Configurar trabajo: opcional. Aparecerá el panel Eliminación de contenido con el botón Redacción de PII.
-
Una vez que seleccione la Redacción de PII, tiene la opción de seleccionar todos los tipos de PII que desee redactar. También puede optar por tener una transcripción sin editar si selecciona el cuadro para incluir la transcripción sin redactar en los resultados del trabajo.
-
Seleccione Crear trabajo para ejecutar su trabajo de transcripción.
En este ejemplo, se utilizan el comando start-transcription-jobcontent-redaction. Para obtener más información, consulte StartTranscriptionJob y ContentRedaction.
aws transcribe start-transcription-job \ --regionus-west-2\ --transcription-job-namemy-first-transcription-job\ --media MediaFileUri=s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac\ --output-bucket-nameamzn-s3-demo-bucket\ --output-keymy-output-files/ \ --language-codeen-US\ --content-redaction RedactionType=PII,RedactionOutput=redacted,PiiEntityTypes=NAME,ADDRESS,BANK_ACCOUNT_NUMBER
Este es otro ejemplo en el que se usa el método start-transcription-job
aws transcribe start-transcription-job \ --regionus-west-2\ --cli-input-json file://filepath/my-first-redaction-job.json
El archivo my-first-model-job.json contiene el siguiente cuerpo de la solicitud.
{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" }, "OutputBucketName": "amzn-s3-demo-bucket", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "ContentRedaction": { "RedactionOutput":"redacted", "RedactionType":"PII", "PiiEntityTypes": [ "NAME", "ADDRESS", "BANK_ACCOUNT_NUMBER" ] } }
En este ejemplo, se utiliza AWS SDK para Python (Boto3) para redactar el contenido mediante el ContentRedaction argumento del método start_transcription_job.StartTranscriptionJob y ContentRedaction.
Para ver ejemplos adicionales sobre el uso de los AWS SDK, incluidos ejemplos de funciones específicas, escenarios y servicios cruzados, consulta el capítulo. Ejemplos de código para Amazon Transcribe usando AWS SDK
from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'amzn-s3-demo-bucket', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ContentRedaction = { 'RedactionOutput':'redacted', 'RedactionType':'PII', 'PiiEntityTypes': [ 'NAME','ADDRESS','BANK_ACCOUNT_NUMBER' ] } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
nota
La redacción de la PII para trabajos por lotes solo se admite en los Regiones de AWS siguientes países: Asia Pacífico (Hong Kong), Asia Pacífico (Bombay), Asia Pacífico (Seúl), Asia Pacífico (Singapur), Asia Pacífico (Sídney), Asia Pacífico (Tokio), GovCloud ()US-West, Canadá (Central), UE (Fráncfort), UE (Irlanda), UE (Londres), UE (París), Oriente Medio (Baréin), Sudamérica (São Paulo), EE.UU. Este (Norte de Virginia), EE.UU. Este (Ohio), EE.UU. Oeste (Oregón) y EE.UU. Oeste (Norte de California).