As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Editar PII no trabalho em lote
Ao redigir informações de identificação pessoal (PII) de uma transcrição durante um trabalho de transcrição em lote, Amazon Transcribe substitui cada instância identificada de PII pelo corpo do texto principal da sua transcrição. [PII] Você também pode ver o tipo de PII que é editado na parte palavra por palavra da saída da transcrição. Para obter um exemplo de saída, consulte Exemplo de saída editada (lote).
A redação com transcrições em lote está disponível com dialeto inglês: EUA (en-US); dialeto espanhol: EUA (es-US); dialetos franceses: francês ()fr-FR, Canadá (); dialetos alemães: Alemanha ()de-DE, suíço ()fr-CA; dialeto italiano: Itália ()de-CH; it-IT e dialetos portugueses: Portugal (), Brasil (). pt-PT pt-BR A edição não é compatível com a identificação de idioma.
Tanto as transcrições editadas quanto as não editadas são armazenadas no mesmo bucket de saída. Amazon S3 Amazon Transcribe os armazena em um bucket especificado por você ou no Amazon S3 bucket padrão gerenciado pelo serviço.
| Tipo de PII | Description |
|---|---|
ADDRESS |
Um endereço físico, como 100 Main Street, Anytown, USA ou Suite #12, Building 123. Um endereço pode incluir rua, prédio, local, cidade, estado, país, condado, CEP, jurisdição, bairro e muito mais. |
AGE |
A idade de uma pessoa, incluindo a quantidade e a unidade de tempo. Por exemplo, na frase “Tenho 40 anos”, Amazon Transcribe reconhece “40 anos” como uma idade. |
ALL |
Reduza ou identifique todos os tipos de PII listados nesta tabela. |
AWS_ACCESS_KEY |
Um identificador exclusivo associado a uma chave de acesso secreta; você usa o ID da chave de acesso e a chave de acesso secreta para assinar solicitações programáticas da AWS de forma criptográfica. |
AWS_SECRET_KEY |
Um identificador exclusivo associado a uma chave de acesso. Você usa o ID da chave de acesso e a chave de acesso secreta para assinar solicitações programáticas da AWS de forma criptográfica. |
BANK_ACCOUNT_NUMBER |
Um número de conta bancária dos EUA. Normalmente, eles têm entre 10 e 12 dígitos, mas o Amazon Transcribe também reconhece números de contas bancárias quando somente os últimos quatro dígitos estão presentes. |
BANK_ROUTING |
Um número de roteamento de conta bancária dos EUA. Normalmente, eles têm nove dígitos, mas o Amazon Transcribe também reconhece números de roteamento quando apenas os últimos quatro dígitos estão presentes. |
CA_HEALTH_NUMBER |
O Canadian Health Service Number (Número do serviço de saúde canadense) é um identificador exclusivo de 10 dígitos, necessário para que as pessoas tenham acesso aos benefícios de saúde. |
CA_SOCIAL_INSURANCE_NUMBER |
O Número do Seguro Social Canadense (SIN) é um identificador exclusivo de 9 dígitos, necessário para que indivíduos acessem programas e benefícios governamentais. |
CREDIT_DEBIT_CVV |
Um código de verificação de cartão (CVV) de 3 dígitos que está presente nos cartões de crédito e débito VISA e Discover. MasterCard Nos cartões de crédito ou débito da American Express, é um código numérico de quatro dígitos. |
CREDIT_DEBIT_EXPIRY |
A data de validade do cartão de crédito ou de débito. Esse número geralmente tem 4 dígitos e está formatado como month/year ou. MM/YY Por exemplo, Amazon Transcribe pode reconhecer datas de vencimento como 01/2101/2021, e janeiro de 2021. |
CREDIT_DEBIT_NUMBER |
O número de um cartão de crédito ou de débito. Esses números podem variar de 13 a 16 dígitos, mas Amazon Transcribe também reconhecem números de cartão de crédito ou débito quando somente os últimos 4 dígitos estão presentes. |
DATE_TIME |
Uma data pode incluir um ano, mês, dia, dia da semana ou hora do dia. Por exemplo, Amazon Transcribe reconhece “19 de janeiro de 2020" ou “11h” como datas. Amazon Transcribe reconhecerá datas parciais, intervalos de datas e intervalos de datas. Também reconhecerá décadas, como “a década de 1990”. |
DRIVER_ID |
O número atribuído a uma carteira de motorista, que é um documento oficial que permite que uma pessoa opere um ou mais veículos motorizados em uma via pública. O número da carteira de motorista consiste em caracteres alfanuméricos. |
EMAIL |
Um endereço de e-mail, como efua.owusu@email.com. |
INTERNATIONAL_BANK_ACCOUNT_NUMBER |
Um número de conta bancária internacional tem formatos específicos em cada país. Para obter mais informações, consulte www.iban. com/structure. |
IP_ADDRESS |
Um endereço IPv4, como 198.51.100.0. |
LICENSE_PLATE |
A placa de um veículo emitida pelo estado ou país em que o veículo está registrado. O formato para veículos de passageiros normalmente tem de cinco a oito dígitos, consistindo em letras maiúsculas e números. O formato varia de acordo com a localização do estado ou do país emissor. |
MAC_ADDRESS |
Um endereço de controle de acesso à mídia (MAC) é um identificador exclusivo atribuído a um controlador de interface de rede (NIC). |
NAME |
O nome de uma pessoa. Esse tipo de entidade não inclui títulos, como Sr., Sra., Senhorita ou Dr.. Não Amazon Transcribe aplica esse tipo de entidade a nomes que fazem parte de organizações ou endereços. Por exemplo, Amazon Transcribe reconhece a John Doe Organization como uma organização e a Jane Doe Street como um endereço. |
PASSPORT_NUMBER |
Um identificador único atribuído ao passaporte de um indivíduo. O formato normalmente inclui uma combinação de letras e números e varia conforme o país. |
PASSWORD |
Uma string alfanumérica usada como senha, como “*very20special#pass*”. |
PHONE |
Um número de telefone. Esse tipo de entidade também inclui números de fax e de pager. |
PIN |
Um número de identificação pessoal (PIN) de quatro dígitos que permite que alguém acesse as informações da conta bancária. |
SSN |
Um Número de Seguro Social (SSN) é um número de 9 dígitos emitido para cidadãos dos EUA, residentes permanentes e residentes temporários que trabalham. Amazon Transcribe também reconhece números de previdência social quando apenas os últimos 4 dígitos estão presentes. |
SWIFT_CODE |
Um código SWIFT é um formato padrão do Código identificador bancário (BIC) usado para especificar um determinado banco ou agência. Os bancos usam esses códigos para transferências de dinheiro, como transferências eletrônicas internacionais. Os códigos SWIFT consistem em 8 ou 11 caracteres. Os códigos de 11 dígitos se referem a filiais específicas, enquanto os códigos de 8 dígitos (ou códigos de 11 dígitos terminados em 'XXX') se referem à sede ou ao escritório principal. |
URL |
Um endereço da web, como www.example.com. |
US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER |
Um Número de Identificação Fiscal Individual dos EUA (ITIN) é um número de 9 dígitos que começa com “9" e contém um “7" ou “8" como quarto dígito. Um ITIN pode ser formatado com um espaço ou um traço após o terceiro e o quarto dígitos. |
USERNAME |
Um nome de usuário que identifica uma conta, como um nome de login, nome de tela, apelido ou identificador. |
VEHICLE_IDENTIFICATION_NUMBER |
Um Número de identificação de veículo (VIN) identifica um veículo de forma exclusiva. O conteúdo e o formato do VIN são definidos na especificação ISO 3779. Cada país tem códigos e formatos específicos para VINs. |
Você pode iniciar um trabalho de transcrição em lote usando o Console de gerenciamento da AWS, AWS CLI, ou AWS SDK.
-
Faça login no Console de gerenciamento da AWS
. -
No painel de navegação, escolha Tarefas de transcrição e selecione Criar tarefa (no canto superior direito). Isso abrirá a página Especificar os detalhes da tarefa.
-
Depois de preencher os campos desejados na página Especificar os detalhes da tarefa, selecione Próximo para ir até a página Configurar tarefa - opcional. Ali você encontrará o painel de Remoção de conteúdo com o botão Edição de PII.
-
Depois de selecionar Edição de PII, você tem a opção de escolher todos os tipos de PII que deseja editar. Você também pode optar por ter uma transcrição não editada se selecionar a caixa Incluir transcrição sem ocultação na saída da tarefa.
-
Selecione Criar tarefa para executar a tarefa de transcrição.
Este exemplo usa o comando start-transcription-jobcontent-redaction. Para obter mais informações, consulte StartTranscriptionJob e ContentRedaction.
aws transcribe start-transcription-job \ --regionus-west-2\ --transcription-job-namemy-first-transcription-job\ --media MediaFileUri=s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac\ --output-bucket-nameamzn-s3-demo-bucket\ --output-keymy-output-files/ \ --language-codeen-US\ --content-redaction RedactionType=PII,RedactionOutput=redacted,PiiEntityTypes=NAME,ADDRESS,BANK_ACCOUNT_NUMBER
Veja a seguir outro exemplo usando o método start-transcription-job
aws transcribe start-transcription-job \ --regionus-west-2\ --cli-input-json file://filepath/my-first-redaction-job.json
O arquivo my-first-redaction-job.json contém o corpo de solicitação a seguir.
{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" }, "OutputBucketName": "amzn-s3-demo-bucket", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "ContentRedaction": { "RedactionOutput":"redacted", "RedactionType":"PII", "PiiEntityTypes": [ "NAME", "ADDRESS", "BANK_ACCOUNT_NUMBER" ] } }
Este exemplo usa o AWS SDK para Python (Boto3) para redigir conteúdo usando o ContentRedaction argumento do método start_transcription_jobStartTranscriptionJob e ContentRedaction.
Para ver exemplos adicionais de uso dos AWS SDKs, incluindo exemplos específicos de recursos, cenários e entre serviços, consulte o capítulo. Exemplos de código para o Amazon Transcribe usando AWS SDKs
from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'amzn-s3-demo-bucket', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ContentRedaction = { 'RedactionOutput':'redacted', 'RedactionType':'PII', 'PiiEntityTypes': [ 'NAME','ADDRESS','BANK_ACCOUNT_NUMBER' ] } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
nota
A redação de PII para trabalhos em lote só é suportada nestas áreas Regiões da AWS: Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Seul), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Tóquio), ( GovCloud )US-West, Canadá (Central), UE (Frankfurt), UE (Irlanda), UE (Londres), UE (Paris), Oriente Médio (Bahrein)), América do Sul (São Paulo), Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Oregon) e Oeste dos EUA (Norte da Califórnia).