View a markdown version of this page

Redazione delle PII nel processo in batch - Amazon Transcribe

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Redazione delle PII nel processo in batch

Quando si redigono informazioni di identificazione personale (PII) da una trascrizione durante un processo di trascrizione in batch, Amazon Transcribe sostituisce ogni istanza identificata di PII con [PII] nel corpo del testo principale della trascrizione. Puoi anche visualizzare il tipo di PII che viene redatto nella parte parola per parola dell'output della trascrizione. Per un esempio di output, vedi Esempio di output redatto (batch).

La redazione con trascrizioni in batch è disponibile con dialetto inglese: USA (en-US); dialetto spagnolo: USA (es-US); dialetti francesi: francese ()fr-FR, Canada ()fr-CA; dialetti tedeschi: Germania (), svizzero (de-DE); dialetto italiano: Italia () de-CHit-IT; e dialetti portoghesi: Portogallo (), Brasile (). pt-PT pt-BR La redazione non è compatibile con l'identificazione della lingua.

Sia le trascrizioni redatte che quelle non redatte vengono archiviate nello stesso bucket di output. Amazon S3 Amazon Transcribe le memorizza in un bucket specificato dall'utente o nel bucket predefinito gestito dal servizio. Amazon S3

Tipi di PII Amazon Transcribe è in grado di riconoscere le trascrizioni in batch
Tipo di PII Description
ADDRESS

Un indirizzo fisico, ad esempio 100 Main Street, Anytown, USA o Suite #12, Edificio 123. Un indirizzo può includere una via, un edificio, una posizione, una città, uno stato, una nazione, una contea, un CAP, un distretto, un quartiere e altro ancora.

AGE

Età di un individuo, inclusa la quantità e l’unità di tempo. Ad esempio, nella frase «Ho 40 anni», Amazon Transcribe riconosce «40 anni» come età.

ALL

Redigi o identifica tutti i tipi di PII elencati in questa tabella.

AWS_ACCESS_KEY

Un identificatore univoco associato a una chiave di accesso segreta; usi l'ID della chiave di accesso e la chiave di accesso segreta per firmare le richieste programmatiche AWS in modo crittografico.

AWS_SECRET_KEY

Identificatore univoco associato a una chiave di accesso. Utilizzi l'ID della chiave di accesso e la chiave di accesso segreta per firmare le richieste programmatiche AWS in modo crittografico.

BANK_ACCOUNT_NUMBER

Numero del conto bancario statunitense. In genere hanno una lunghezza compresa tra 10 e 12 cifre, ma Amazon Transcribe riconosce anche i numeri di conto bancario quando sono presenti solo le ultime 4 cifre.

BANK_ROUTING

Numero di routing del conto bancario statunitense. In genere hanno una lunghezza di 9 cifre, ma Amazon Transcribe riconosce anche i numeri di routing quando sono presenti solo le ultime 4 cifre.

CA_HEALTH_NUMBER

Numero del servizio sanitario canadese, ovvero un identificatore univoco di 10 cifre, necessario per consentire alle persone di accedere alle prestazioni sanitarie.

CA_SOCIAL_INSURANCE_NUMBER

Il Canadian Social Insurance Number (SIN) è un identificativo univoco a 9 cifre, necessario per consentire alle persone di accedere ai programmi e ai benefici governativi.

CREDIT_DEBIT_CVV

Un codice di verifica della carta a 3 cifre (CVV) presente sulle carte di credito e debito VISA e Discover MasterCard. Nelle carte di credito o debito American Express, è un codice numerico a 4 cifre.

CREDIT_DEBIT_EXPIRY

Data di scadenza della carta di credito o della carta di debito. Questo numero è in genere composto da 4 cifre e formattato come o. month/year MM/YY Ad esempio, Amazon Transcribe è in grado di riconoscere date di scadenza come 01/2101/2021, e gennaio 2021.

CREDIT_DEBIT_NUMBER

Numeri di carta di credito o di debito. Questi numeri possono variare da 13 a 16 cifre di lunghezza, ma riconoscono Amazon Transcribe anche i numeri delle carte di credito o di debito quando sono presenti solo le ultime 4 cifre.

DATE_TIME

Una data può includere un anno, un mese, un giorno, un giorno della settimana o un'ora del giorno. Ad esempio, Amazon Transcribe riconosce «19 gennaio 2020" o «11:00» come date. Amazon Transcribe riconoscerà date parziali, intervalli di date e intervalli di date. Riconoscerà anche decenni, come «gli anni '90".

DRIVER_ID

Numero assegnato alla patente di guida, ovvero un documento ufficiale che consente a una persona di guidare uno o più veicoli motorizzati su una strada pubblica. Il numero di patente di guida è composto da caratteri alfanumerici.

EMAIL

Un indirizzo e-mail, ad esempio efua.owusu@email.com.

INTERNATIONAL_BANK_ACCOUNT_NUMBER

Numero di conto bancario internazionale con formati specifici in ogni paese. Per ulteriori informazioni, vedere www.iban. com/structure.

IP_ADDRESS

Indirizzo IPv4, ad esempio 198.51.100.0.

LICENSE_PLATE

La targa di un veicolo viene emessa dal paese in cui il veicolo è immatricolato. Per i veicoli passeggeri sono in genere utilizzate da cinque a otto cifre, con lettere maiuscole e numeri. Il formato varia a seconda dell’ubicazione del paese di emissione.

MAC_ADDRESS

Un indirizzo MAC (Media Access Control) è un identificatore univoco assegnato a un controller di interfaccia di rete (NIC).

NAME

Nome di una persona. Questo tipo di entità non include titoli, ad esempio Mr., Mrs., Miss o Dr.. Amazon Transcribe Non si applica questo tipo di entità ai nomi che fanno parte di organizzazioni o indirizzi. Ad esempio, Amazon Transcribe riconosce la John Doe Organization come organizzazione e Jane Doe Street come indirizzo.

PASSPORT_NUMBER

Un identificatore univoco assegnato al passaporto di una persona. Il formato include in genere una combinazione di lettere e numeri e varia in base al Paese.

PASSWORD

Stringa alfanumerica utilizzata come password, ad esempio “*very20special#pass*”.

PHONE

Numero di telefono. Questo tipo di entità include anche numeri di fax e cercapersone.

PIN

Un codice di identificazione personale a 4 cifre (PIN) che consente a qualcuno di accedere ai dati del proprio conto bancario.

SSN

Il Social Security Number (SSN) è un numero di 9 cifre rilasciato ai cittadini statunitensi, ai residenti permanenti e ai residenti che lavorano temporaneamente. Amazon Transcribe riconosce anche i numeri di previdenza sociale quando sono presenti solo le ultime 4 cifre.

SWIFT_CODE

Un codice SWIFT è un formato standard di codice BIC (Bank Identifier Code) utilizzato per specificare una particolare banca o filiale. Le banche utilizzano questi codici per i trasferimenti di denaro, come i bonifici internazionali. I codici SWIFT sono composti da 8 o 11 caratteri. I codici a 11 cifre si riferiscono a filiali specifiche, mentre i codici a 8 cifre (o codici a 11 cifre che terminano con «XXX») si riferiscono alla sede centrale o principale.

URL

Indirizzo web, ad esempio www.esempio.com.

US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER

Un codice identificativo individuale del contribuente statunitense (ITIN) è un numero di 9 cifre che inizia con un «9" e contiene un «7" o «8" come quarta cifra. Un ITIN può essere formattato con uno spazio o un trattino dopo la terza e la quarta cifra.

USERNAME

Nome utente che identifica un account, ad esempio un nome di accesso, un nome utente, un soprannome o un handle.

VEHICLE_IDENTIFICATION_NUMBER

Numero di matricola del veicolo che identifica in modo univoco un veicolo. Il contenuto e il formato di tale numero sono definiti nella specifica ISO 3779. Ogni paese ha codici e formati specifici per i numeri di matricola dei veicoli.

È possibile avviare un processo di trascrizione in batch utilizzando, o SDK. Console di gestione AWS AWS CLI AWS

  1. Accedi alla Console di gestione AWS.

  2. Nel riquadro di navigazione, scegli Processi di trascrizione, quindi seleziona Crea processo (in alto a destra). Si aprirà la pagina Specifica i dettagli del processo.

  3. Dopo aver compilato i campi desiderati nella pagina Specifica i dettagli del processo, seleziona Avanti per andare alla pagina Configura lavoro - opzionale. Qui troverai il pannello di rimozione dei contenuti per attivare o disattivare la redazione delle PII.

    Amazon Transcribe schermata della console: il «pannello di rimozione dei contenuti» nella pagina «configura lavoro».
  4. Dopo aver selezionato la redazione delle PII, hai la possibilità di selezionare tutti i tipi di PII che desideri redigere. Puoi anche scegliere di avere una trascrizione non redatta se selezioni la casella Includi trascrizione non redatta nell’output del processo.

    Amazon Transcribe schermata della console: il pannello «rimozione dei contenuti» che mostra le opzioni PII.
  5. Seleziona Crea processo per eseguire il processo di trascrizione.

Questo esempio utilizza il comando inizia-processo-trascrizione e il parametro content-redaction. Per ulteriori informazioni, consultare StartTranscriptionJob e ContentRedaction.

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac \ --output-bucket-name amzn-s3-demo-bucket \ --output-key my-output-files/ \ --language-code en-US \ --content-redaction RedactionType=PII,RedactionOutput=redacted,PiiEntityTypes=NAME,ADDRESS,BANK_ACCOUNT_NUMBER

Ecco un altro esempio che utilizza il metodo avvia processo trascrizione e il corpo della richiesta redige le PII per quel processo.

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://filepath/my-first-redaction-job.json

Il file my-first-redaction-job.json contiene il seguente corpo della richiesta.

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" }, "OutputBucketName": "amzn-s3-demo-bucket", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "ContentRedaction": { "RedactionOutput":"redacted", "RedactionType":"PII", "PiiEntityTypes": [ "NAME", "ADDRESS", "BANK_ACCOUNT_NUMBER" ] } }

Questo esempio utilizza il AWS SDK per Python (Boto3) per oscurare il contenuto utilizzando l'argomento per il metodo start_transcription_jobContentRedaction. Per ulteriori informazioni, consultare StartTranscriptionJob e ContentRedaction.

Per ulteriori esempi di utilizzo degli AWS SDK, inclusi esempi relativi a funzionalità specifiche, scenari e interservizi, consulta il capitolo. Esempi di codice per l'utilizzo di Amazon Transcribe AWS SDK

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'amzn-s3-demo-bucket', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ContentRedaction = { 'RedactionOutput':'redacted', 'RedactionType':'PII', 'PiiEntityTypes': [ 'NAME','ADDRESS','BANK_ACCOUNT_NUMBER' ] } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
Nota

La redazione delle informazioni personali per i lavori in batch è supportata solo nei seguenti paesi Regioni AWS: Asia Pacifico (Hong Kong), Asia Pacifico (Mumbai), Asia Pacifico (Seoul), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacifico (Tokyo), (), Canada (Centrale GovCloud )US-West, UE (Francoforte), UE (Irlanda), UE (Londra), UE (Parigi), Medio Oriente (Bahrein), Sud America (San Paolo), Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (Oregon) e Stati Uniti occidentali (California settentrionale).