View a markdown version of this page

Menyunting PII dalam pekerjaan batch Anda - Amazon Transcribe

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menyunting PII dalam pekerjaan batch Anda

Saat menyunting informasi identitas pribadi (PII) dari transkrip selama pekerjaan transkripsi batch, Amazon Transcribe ganti setiap instance PII yang diidentifikasi dengan [PII] di badan teks utama transkrip Anda. Anda juga dapat melihat jenis PII yang disunting di bagian kata demi kata dari keluaran transkripsi. Untuk sampel keluaran, lihatContoh keluaran yang disunting (batch).

Redaksi dengan transkripsi batch tersedia dengan dialek bahasa Inggris: AS (en-US); Dialek Spanyol: AS (es-US); Dialek Prancis: Prancis ()fr-FR, Kanada ()fr-CA; Dialek Jerman: Jerman (de-DE), Swiss (); Dialek Italia: Italia ()de-CH; dan dialek Portugis: Portugal (it-IT), Brasil (). pt-PT pt-BR Redaksi tidak kompatibel dengan identifikasi bahasa.

Transkrip yang diedit dan tidak disunting disimpan dalam ember keluaran yang sama. Amazon S3 Amazon Transcribe menyimpannya dalam bucket yang Anda tentukan atau di Amazon S3 bucket default yang dikelola oleh layanan.

Jenis-jenis PII Amazon Transcribe dapat mengenali transkripsi batch
Tipe PII Deskripsi
ADDRESS

Alamat fisik, seperti 100 Main Street, Anytown, USA atau Suite #12, Building 123. Alamat dapat mencakup jalan, bangunan, lokasi, kota, negara bagian, negara, kabupaten, zip, kantor polisi, lingkungan, dan banyak lagi.

AGE

Usia individu, termasuk jumlah dan satuan waktu. Misalnya, dalam frasa “Saya berusia 40 tahun,” Amazon Transcribe mengakui “40 tahun” sebagai usia.

ALL

Menyunting atau mengidentifikasi semua jenis PII yang tercantum dalam tabel ini.

AWS_ACCESS_KEY

Pengidentifikasi unik yang terkait dengan kunci akses rahasia; Anda menggunakan ID kunci akses dan kunci akses rahasia untuk menandatangani permintaan AWS terprogram secara kriptografis.

AWS_SECRET_KEY

Pengidentifikasi unik yang terkait dengan kunci akses. Anda menggunakan ID kunci akses dan kunci akses rahasia untuk menandatangani permintaan AWS terprogram secara kriptografis.

BANK_ACCOUNT_NUMBER

Nomor rekening bank AS. Ini biasanya antara 10 - 12 digit panjang, tetapi Amazon Transcribe juga mengenali nomor rekening bank ketika hanya 4 digit terakhir yang ada.

BANK_ROUTING

Nomor perutean rekening bank AS. Ini biasanya 9 digit panjang, tetapi Amazon Transcribe juga mengenali nomor routing ketika hanya 4 digit terakhir yang ada.

CA_HEALTH_NUMBER

Canadian Health Service Number adalah pengidentifikasi unik 10 digit, yang diperlukan bagi individu untuk mengakses manfaat perawatan kesehatan.

CA_SOCIAL_INSURANCE_NUMBER

Nomor Asuransi Sosial Kanada (SIN) adalah pengidentifikasi unik 9 digit, yang diperlukan bagi individu untuk mengakses program dan manfaat pemerintah.

CREDIT_DEBIT_CVV

Kode verifikasi kartu 3 digit (CVV) yang ada di VISA, MasterCard, serta Discover kartu kredit dan debit. Dalam kartu kredit atau debit American Express, ini adalah kode numerik 4 digit.

CREDIT_DEBIT_EXPIRY

Tanggal kedaluwarsa untuk kartu kredit atau debit. Angka ini biasanya panjangnya 4 digit dan diformat sebagai month/year atau. MM/YY Misalnya, Amazon Transcribe dapat mengenali tanggal kedaluwarsa seperti 01/21, 01/2021, dan Jan 2021.

CREDIT_DEBIT_NUMBER

Nomor untuk kartu kredit atau debit. Angka-angka ini dapat bervariasi dari 13 hingga 16 digit panjangnya, tetapi Amazon Transcribe juga mengenali nomor kartu kredit atau debit ketika hanya 4 digit terakhir yang ada.

DATE_TIME

Tanggal dapat mencakup tahun, bulan, hari, hari dalam seminggu, atau waktu dalam sehari. Misalnya, Amazon Transcribe mengakui “19 Januari 2020" atau “11 pagi” sebagai tanggal. Amazon Transcribe akan mengenali sebagian tanggal, rentang tanggal, dan interval tanggal. Ini juga akan mengenali dekade, seperti “1990-an”.

DRIVER_ID

Nomor yang ditetapkan untuk SIM, yang merupakan dokumen resmi yang memungkinkan seseorang untuk mengoperasikan satu atau lebih kendaraan bermotor di jalan umum. Nomor SIM terdiri dari karakter alfanumerik.

EMAIL

Alamat email, seperti efua.owusu@email.com.

INTERNATIONAL_BANK_ACCOUNT_NUMBER

Nomor Rekening Bank Internasional memiliki format khusus di setiap negara. Untuk informasi lebih lanjut, lihat www.iban. com/structure.

IP_ADDRESS

Alamat IPv4, seperti 198.51.100.0.

LICENSE_PLATE

Plat nomor untuk kendaraan dikeluarkan oleh negara bagian atau negara tempat kendaraan terdaftar. Format untuk kendaraan penumpang biasanya lima hingga delapan digit, terdiri dari huruf besar dan angka. Formatnya bervariasi tergantung pada lokasi negara atau negara penerbit.

MAC_ADDRESS

Alamat kontrol akses media (MAC) adalah pengidentifikasi unik yang ditetapkan ke pengontrol antarmuka jaringan (NIC).

NAME

Nama seorang individu. Jenis entitas ini tidak termasuk judul, seperti Mr., Mrs., Miss, atau Dr. Amazon Transcribe tidak menerapkan jenis entitas ini untuk nama yang merupakan bagian dari organisasi atau alamat. Misalnya, Amazon Transcribe mengakui Organisasi John Doe sebagai sebuah organisasi, dan Jane Doe Street sebagai alamat.

PASSPORT_NUMBER

Pengenal unik yang ditugaskan ke paspor individu. Formatnya biasanya mencakup kombinasi huruf dan angka dan bervariasi menurut negara.

PASSWORD

String alfanumerik yang digunakan sebagai kata sandi, seperti “*very20special #pass *”.

PHONE

Sebuah nomor telepon. Jenis entitas ini juga mencakup nomor faks dan pager.

PIN

4 digit nomor identifikasi pribadi (PIN) yang memungkinkan seseorang untuk mengakses informasi rekening bank mereka.

SSN

Nomor Jaminan Sosial (SSN) adalah nomor 9 digit yang dikeluarkan untuk warga negara AS, penduduk tetap, dan penduduk yang bekerja sementara. Amazon Transcribe juga mengenali Nomor Jaminan Sosial ketika hanya 4 digit terakhir yang ada.

SWIFT_CODE

Kode SWIFT adalah format standar Bank Identifier Code (BIC) yang digunakan untuk menentukan bank atau cabang tertentu. Bank menggunakan kode ini untuk transfer uang seperti transfer kawat internasional. Kode SWIFT terdiri dari 8 atau 11 karakter. Kode 11 digit mengacu pada cabang tertentu, sedangkan kode 8 digit (atau kode 11 digit yang diakhiri dengan 'XXX') mengacu pada kepala atau kantor utama.

URL

Alamat web, seperti www.example.com.

US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER

Nomor Identifikasi Wajib Pajak Perorangan AS (ITIN) adalah angka 9 digit yang dimulai dengan “9" dan berisi “7" atau “8" sebagai digit keempat. ITIN dapat diformat dengan spasi atau tanda hubung setelah digit ketiga dan keempat.

USERNAME

Nama pengguna yang mengidentifikasi akun, seperti nama login, nama layar, nama panggilan, atau pegangan.

VEHICLE_IDENTIFICATION_NUMBER

Nomor Identifikasi Kendaraan (VIN) secara unik mengidentifikasi kendaraan. Konten dan format VIN didefinisikan dalam spesifikasi ISO 3779. Setiap negara memiliki kode dan format khusus untuk VIN.

Anda dapat memulai pekerjaan transkripsi batch menggunakan Konsol Manajemen AWS, AWS CLI, atau AWS SDK.

  1. Masuk ke Konsol Manajemen AWS.

  2. Di panel navigasi, pilih Pekerjaan transkripsi, lalu pilih Buat pekerjaan (kanan atas). Ini akan membuka halaman Tentukan detail pekerjaan.

  3. Setelah mengisi bidang yang Anda inginkan pada halaman Tentukan detail pekerjaan, pilih Berikutnya untuk pergi ke halaman Konfigurasi pekerjaan - opsional. Di sini Anda akan menemukan panel penghapusan konten dengan sakelar redaksi PII.

    Amazon Transcribe tangkapan layar konsol: 'panel penghapusan konten' di halaman 'konfigurasi pekerjaan'.
  4. Setelah Anda memilih redaksi PII, Anda memiliki opsi untuk memilih semua jenis PII yang ingin Anda edit. Anda juga dapat memilih untuk memiliki transkrip yang tidak disunting jika Anda memilih Sertakan transkrip yang tidak disunting di kotak keluaran pekerjaan.

    Amazon Transcribe tangkapan layar konsol: panel 'penghapusan konten' yang menampilkan opsi PII.
  5. Pilih Buat pekerjaan untuk menjalankan pekerjaan transkripsi Anda.

Contoh ini menggunakan perintah dan parameter start-transcription-job. content-redaction Untuk informasi selengkapnya, lihat StartTranscriptionJob dan ContentRedaction.

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac \ --output-bucket-name amzn-s3-demo-bucket \ --output-key my-output-files/ \ --language-code en-US \ --content-redaction RedactionType=PII,RedactionOutput=redacted,PiiEntityTypes=NAME,ADDRESS,BANK_ACCOUNT_NUMBER

Berikut contoh lain menggunakan metode start-transcription-job, dan badan permintaan menyunting PII untuk pekerjaan itu.

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://filepath/my-first-redaction-job.json

File my-first-redaction-job.json berisi badan permintaan berikut.

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" }, "OutputBucketName": "amzn-s3-demo-bucket", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "ContentRedaction": { "RedactionOutput":"redacted", "RedactionType":"PII", "PiiEntityTypes": [ "NAME", "ADDRESS", "BANK_ACCOUNT_NUMBER" ] } }

Contoh ini menggunakan AWS SDK untuk Python (Boto3) untuk menyunting konten menggunakan ContentRedaction argumen untuk metode start_transcription_job. Untuk informasi selengkapnya, lihat StartTranscriptionJob dan ContentRedaction.

Untuk contoh tambahan yang menggunakan AWS SDK, termasuk contoh khusus fitur, skenario, dan lintas layanan, lihat bagian ini. Contoh kode untuk Amazon Transcribe menggunakan AWS SDK

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'amzn-s3-demo-bucket', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ContentRedaction = { 'RedactionOutput':'redacted', 'RedactionType':'PII', 'PiiEntityTypes': [ 'NAME','ADDRESS','BANK_ACCOUNT_NUMBER' ] } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
catatan

Redaksi PII untuk pekerjaan batch hanya didukung dalam hal ini Region AWS: Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Seoul), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Tokyo), (), Kanada (Tengah GovCloud )US-West, UE (Frankfurt), UE (Irlandia), UE (London), UE (Paris), Timur Tengah (Bahrain Amerika Selatan (Sao Paulo), AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (Oregon), dan AS Barat (California N.).