Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menyunting PII dalam pekerjaan batch Anda
Saat menyunting informasi identitas pribadi (PII) dari transkrip selama pekerjaan transkripsi batch, Amazon Transcribe ganti setiap instance PII yang diidentifikasi dengan [PII] di badan teks utama transkrip Anda. Anda juga dapat melihat jenis PII yang disunting di bagian kata demi kata dari keluaran transkripsi. Untuk sampel keluaran, lihatContoh keluaran yang disunting (batch).
Redaksi dengan transkripsi batch tersedia dengan dialek bahasa Inggris: AS (en-US); Dialek Spanyol: AS (es-US); Dialek Prancis: Prancis ()fr-FR, Kanada ()fr-CA; Dialek Jerman: Jerman (de-DE), Swiss (); Dialek Italia: Italia ()de-CH; dan dialek Portugis: Portugal (it-IT), Brasil (). pt-PT pt-BR Redaksi tidak kompatibel dengan identifikasi bahasa.
Transkrip yang diedit dan tidak disunting disimpan dalam ember keluaran yang sama. Amazon S3 Amazon Transcribe menyimpannya dalam bucket yang Anda tentukan atau di Amazon S3 bucket default yang dikelola oleh layanan.
| Tipe PII | Deskripsi |
|---|---|
ADDRESS |
Alamat fisik, seperti 100 Main Street, Anytown, USA atau Suite #12, Building 123. Alamat dapat mencakup jalan, bangunan, lokasi, kota, negara bagian, negara, kabupaten, zip, kantor polisi, lingkungan, dan banyak lagi. |
AGE |
Usia individu, termasuk jumlah dan satuan waktu. Misalnya, dalam frasa “Saya berusia 40 tahun,” Amazon Transcribe mengakui “40 tahun” sebagai usia. |
ALL |
Menyunting atau mengidentifikasi semua jenis PII yang tercantum dalam tabel ini. |
AWS_ACCESS_KEY |
Pengidentifikasi unik yang terkait dengan kunci akses rahasia; Anda menggunakan ID kunci akses dan kunci akses rahasia untuk menandatangani permintaan AWS terprogram secara kriptografis. |
AWS_SECRET_KEY |
Pengidentifikasi unik yang terkait dengan kunci akses. Anda menggunakan ID kunci akses dan kunci akses rahasia untuk menandatangani permintaan AWS terprogram secara kriptografis. |
BANK_ACCOUNT_NUMBER |
Nomor rekening bank AS. Ini biasanya antara 10 - 12 digit panjang, tetapi Amazon Transcribe juga mengenali nomor rekening bank ketika hanya 4 digit terakhir yang ada. |
BANK_ROUTING |
Nomor perutean rekening bank AS. Ini biasanya 9 digit panjang, tetapi Amazon Transcribe juga mengenali nomor routing ketika hanya 4 digit terakhir yang ada. |
CA_HEALTH_NUMBER |
Canadian Health Service Number adalah pengidentifikasi unik 10 digit, yang diperlukan bagi individu untuk mengakses manfaat perawatan kesehatan. |
CA_SOCIAL_INSURANCE_NUMBER |
Nomor Asuransi Sosial Kanada (SIN) adalah pengidentifikasi unik 9 digit, yang diperlukan bagi individu untuk mengakses program dan manfaat pemerintah. |
CREDIT_DEBIT_CVV |
Kode verifikasi kartu 3 digit (CVV) yang ada di VISA, MasterCard, serta Discover kartu kredit dan debit. Dalam kartu kredit atau debit American Express, ini adalah kode numerik 4 digit. |
CREDIT_DEBIT_EXPIRY |
Tanggal kedaluwarsa untuk kartu kredit atau debit. Angka ini biasanya panjangnya 4 digit dan diformat sebagai month/year atau. MM/YY Misalnya, Amazon Transcribe dapat mengenali tanggal kedaluwarsa seperti 01/21, 01/2021, dan Jan 2021. |
CREDIT_DEBIT_NUMBER |
Nomor untuk kartu kredit atau debit. Angka-angka ini dapat bervariasi dari 13 hingga 16 digit panjangnya, tetapi Amazon Transcribe juga mengenali nomor kartu kredit atau debit ketika hanya 4 digit terakhir yang ada. |
DATE_TIME |
Tanggal dapat mencakup tahun, bulan, hari, hari dalam seminggu, atau waktu dalam sehari. Misalnya, Amazon Transcribe mengakui “19 Januari 2020" atau “11 pagi” sebagai tanggal. Amazon Transcribe akan mengenali sebagian tanggal, rentang tanggal, dan interval tanggal. Ini juga akan mengenali dekade, seperti “1990-an”. |
DRIVER_ID |
Nomor yang ditetapkan untuk SIM, yang merupakan dokumen resmi yang memungkinkan seseorang untuk mengoperasikan satu atau lebih kendaraan bermotor di jalan umum. Nomor SIM terdiri dari karakter alfanumerik. |
EMAIL |
Alamat email, seperti efua.owusu@email.com. |
INTERNATIONAL_BANK_ACCOUNT_NUMBER |
Nomor Rekening Bank Internasional memiliki format khusus di setiap negara. Untuk informasi lebih lanjut, lihat www.iban. com/structure. |
IP_ADDRESS |
Alamat IPv4, seperti 198.51.100.0. |
LICENSE_PLATE |
Plat nomor untuk kendaraan dikeluarkan oleh negara bagian atau negara tempat kendaraan terdaftar. Format untuk kendaraan penumpang biasanya lima hingga delapan digit, terdiri dari huruf besar dan angka. Formatnya bervariasi tergantung pada lokasi negara atau negara penerbit. |
MAC_ADDRESS |
Alamat kontrol akses media (MAC) adalah pengidentifikasi unik yang ditetapkan ke pengontrol antarmuka jaringan (NIC). |
NAME |
Nama seorang individu. Jenis entitas ini tidak termasuk judul, seperti Mr., Mrs., Miss, atau Dr. Amazon Transcribe tidak menerapkan jenis entitas ini untuk nama yang merupakan bagian dari organisasi atau alamat. Misalnya, Amazon Transcribe mengakui Organisasi John Doe sebagai sebuah organisasi, dan Jane Doe Street sebagai alamat. |
PASSPORT_NUMBER |
Pengenal unik yang ditugaskan ke paspor individu. Formatnya biasanya mencakup kombinasi huruf dan angka dan bervariasi menurut negara. |
PASSWORD |
String alfanumerik yang digunakan sebagai kata sandi, seperti “*very20special #pass *”. |
PHONE |
Sebuah nomor telepon. Jenis entitas ini juga mencakup nomor faks dan pager. |
PIN |
4 digit nomor identifikasi pribadi (PIN) yang memungkinkan seseorang untuk mengakses informasi rekening bank mereka. |
SSN |
Nomor Jaminan Sosial (SSN) adalah nomor 9 digit yang dikeluarkan untuk warga negara AS, penduduk tetap, dan penduduk yang bekerja sementara. Amazon Transcribe juga mengenali Nomor Jaminan Sosial ketika hanya 4 digit terakhir yang ada. |
SWIFT_CODE |
Kode SWIFT adalah format standar Bank Identifier Code (BIC) yang digunakan untuk menentukan bank atau cabang tertentu. Bank menggunakan kode ini untuk transfer uang seperti transfer kawat internasional. Kode SWIFT terdiri dari 8 atau 11 karakter. Kode 11 digit mengacu pada cabang tertentu, sedangkan kode 8 digit (atau kode 11 digit yang diakhiri dengan 'XXX') mengacu pada kepala atau kantor utama. |
URL |
Alamat web, seperti www.example.com. |
US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER |
Nomor Identifikasi Wajib Pajak Perorangan AS (ITIN) adalah angka 9 digit yang dimulai dengan “9" dan berisi “7" atau “8" sebagai digit keempat. ITIN dapat diformat dengan spasi atau tanda hubung setelah digit ketiga dan keempat. |
USERNAME |
Nama pengguna yang mengidentifikasi akun, seperti nama login, nama layar, nama panggilan, atau pegangan. |
VEHICLE_IDENTIFICATION_NUMBER |
Nomor Identifikasi Kendaraan (VIN) secara unik mengidentifikasi kendaraan. Konten dan format VIN didefinisikan dalam spesifikasi ISO 3779. Setiap negara memiliki kode dan format khusus untuk VIN. |
Anda dapat memulai pekerjaan transkripsi batch menggunakan Konsol Manajemen AWS, AWS CLI, atau AWS SDK.
-
Masuk ke Konsol Manajemen AWS
. -
Di panel navigasi, pilih Pekerjaan transkripsi, lalu pilih Buat pekerjaan (kanan atas). Ini akan membuka halaman Tentukan detail pekerjaan.
-
Setelah mengisi bidang yang Anda inginkan pada halaman Tentukan detail pekerjaan, pilih Berikutnya untuk pergi ke halaman Konfigurasi pekerjaan - opsional. Di sini Anda akan menemukan panel penghapusan konten dengan sakelar redaksi PII.
-
Setelah Anda memilih redaksi PII, Anda memiliki opsi untuk memilih semua jenis PII yang ingin Anda edit. Anda juga dapat memilih untuk memiliki transkrip yang tidak disunting jika Anda memilih Sertakan transkrip yang tidak disunting di kotak keluaran pekerjaan.
-
Pilih Buat pekerjaan untuk menjalankan pekerjaan transkripsi Anda.
Contoh ini menggunakan perintah dan parameter start-transcription-jobcontent-redaction Untuk informasi selengkapnya, lihat StartTranscriptionJob dan ContentRedaction.
aws transcribe start-transcription-job \ --regionus-west-2\ --transcription-job-namemy-first-transcription-job\ --media MediaFileUri=s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac\ --output-bucket-nameamzn-s3-demo-bucket\ --output-keymy-output-files/ \ --language-codeen-US\ --content-redaction RedactionType=PII,RedactionOutput=redacted,PiiEntityTypes=NAME,ADDRESS,BANK_ACCOUNT_NUMBER
Berikut contoh lain menggunakan metode start-transcription-job
aws transcribe start-transcription-job \ --regionus-west-2\ --cli-input-json file://filepath/my-first-redaction-job.json
File my-first-redaction-job.json berisi badan permintaan berikut.
{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" }, "OutputBucketName": "amzn-s3-demo-bucket", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "ContentRedaction": { "RedactionOutput":"redacted", "RedactionType":"PII", "PiiEntityTypes": [ "NAME", "ADDRESS", "BANK_ACCOUNT_NUMBER" ] } }
Contoh ini menggunakan AWS SDK untuk Python (Boto3) untuk menyunting konten menggunakan ContentRedaction argumen untuk metode start_transcription_jobStartTranscriptionJob dan ContentRedaction.
Untuk contoh tambahan yang menggunakan AWS SDK, termasuk contoh khusus fitur, skenario, dan lintas layanan, lihat bagian ini. Contoh kode untuk Amazon Transcribe menggunakan AWS SDK
from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'amzn-s3-demo-bucket', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ContentRedaction = { 'RedactionOutput':'redacted', 'RedactionType':'PII', 'PiiEntityTypes': [ 'NAME','ADDRESS','BANK_ACCOUNT_NUMBER' ] } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
catatan
Redaksi PII untuk pekerjaan batch hanya didukung dalam hal ini Region AWS: Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Seoul), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Tokyo), (), Kanada (Tengah GovCloud )US-West, UE (Frankfurt), UE (Irlandia), UE (London), UE (Paris), Timur Tengah (Bahrain Amerika Selatan (Sao Paulo), AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (Oregon), dan AS Barat (California N.).