View a markdown version of this page

バッチジョブで PII を編集する - Amazon Transcribe

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

バッチジョブで PII を編集する

バッチ文字起こしジョブ中に文字起こしから個人を特定できる情報 (PII) を編集すると、 は識別された PII の各インスタンスを文字起こしの本文[PII]の Amazon Transcribe に置き換えます。また、文字起こし出力の単語ごとの部分で、編集された PII の種類を表示することもできます。出力サンプルについては、「編集された出力例 (バッチ)」を参照してください。

バッチ文字起こしによる編集は、英語の方言: 米国 (en-US)、スペイン語の方言: 米国 (es-US)、フランス語の方言: フランス語 (fr-FR)、カナダ (fr-CA)、ドイツの方言: ドイツ (de-DE)、スイス (de-CH)、イタリアの方言: イタリア (it-IT)、ポルトガルの方言: ポルトガル (pt-PT)、ブラジル () で利用できますpt-BR。リダクションは言語識別と互換性がありません。

秘匿化されたトランスクリプトと秘匿化されていないトランスクリプトの両方が同じ出力 Amazon S3 バケットに保存されます。 は、指定したバケット、またはサービスによって管理されるデフォルトの Amazon S3 バケットに Amazon Transcribe 保存します。

バッチ文字起こしで認識 Amazon Transcribe できる PII のタイプ
PII タイプ 説明
ADDRESS

実際の住所、米国、エニータウン市。メインストリート 100 番地や、ビル 123 番、スイート 12 番など。住所には、通り、ビル、場所、市区町村、州、国、郡、郵便番号、管区、近隣などを含めることができます。

AGE

個人の年齢 (時間の数値や単位を含む)。例えば、「40 歳」というフレーズでは、「40 歳」を年齢として Amazon Transcribe 認識しています。

ALL

この表に記載されているすべての PII のタイプを編集または特定します。

AWS_ACCESS_KEY

シークレットアクセスキーに関連付けられている一意の識別子。アクセスキー ID とシークレットアクセスキーを使用して、プログラムによる AWS リクエストに暗号で署名します。

AWS_SECRET_KEY

アクセスキーに関連付けられた一意の識別子。アクセスキー ID とシークレットアクセスキーを使用して、プログラムによる AWS リクエストに暗号で署名します。

BANK_ACCOUNT_NUMBER

米国の銀行口座番号 この番号は通常 10~12 桁の長さですが、 Amazon Transcribe は下 4 桁のみの銀行口座番号も認識します。

BANK_ROUTING

米国の銀行口座の支店コード この番号は通常 9 桁の長さですが、 Amazon Transcribe は下 4 桁のみの支店コードも認識します。

CA_HEALTH_NUMBER

カナダの医療保健番号で、個人が医療給付を受けるために必要な 10 桁の固有識別番号です。

CA_SOCIAL_INSURANCE_NUMBER

カナダ社会保険番号 (SIN) は 9 桁の一意の識別子であり、個人が政府のプログラムや特典にアクセスするために必要です。

CREDIT_DEBIT_CVV

VISA、MasterCard、Discover のクレジットカードとデビットカードに記載されている 3 桁のカード確認コード (CVV)。American Express のクレジットカードまたはデビットカードでは、4 桁の数字コードです。

CREDIT_DEBIT_EXPIRY

クレジットカードまたはデビットカードの有効期限日 この番号は通常 4 桁で、「月/年」または「MM/YY」という形式になっています。たとえば、 は 01/2101/2021、Jan 2021 などの有効期限を認識 Amazon Transcribe できます。

CREDIT_DEBIT_NUMBER

クレジットカードまたはデビットカードの番号。これらの番号の長さは 13 桁から 16 桁までさまざまですが、最後の 4 桁のみが存在する場合、クレジットカード番号またはデビットカード番号 Amazon Transcribe も認識されます。

DATE_TIME

日付には、年、月、日、曜日、または時刻を含めることができます。たとえば、 は「2020 年 1 月 19 日」または「午前 11 時」を日付として Amazon Transcribe 認識します。 Amazon Transcribe は部分的な日付、日付範囲、および時間間隔を認識します。また「the 1990s(1990 年代)」などの 10 年間も認識されます。

DRIVER_ID

運転免許証に割り当てられる番号。運転免許証は、個人が公道で1台または複数の自動車を運転することを許可する公式文書です。運転免許証番号は英数字です。

EMAIL

efua.owusu@email.com などのメールアドレス。

INTERNATIONAL_BANK_ACCOUNT_NUMBER

国際銀行口座番号の形式は国によって異なります。詳細については、www.iban.com/structure を参照してください。

IP_ADDRESS

IPv4 アドレス (198.51.100.0 など)。

LICENSE_PLATE

車両のナンバープレートは、車両が登録されている州または国によって発行されます。乗用車の形式は通常 5 ~ 8 桁で、大文字と数字で構成されます。形式は発行国または国の所在地によって異なります。

MAC_ADDRESS

メディアアクセスコントロール (MAC) アドレスは、ネットワークインターフェイスコントローラー (NIC) に割り当てられる一意の識別子です。

NAME

個人の名前。このエンティティタイプには、Mr.、Mrs.、Miss、Dr. Amazon Transcribe などのタイトルは含まれません。このエンティティタイプは、組織または住所の一部である名前には適用されません。たとえば、 は John Doe Organization を組織として認識し、Jane Doe Street を住所として Amazon Transcribe 認識します。

PASSPORT_NUMBER

個人のパスポートに割り当てられた一意の識別子。形式は通常、文字と数字の組み合わせを含み、国によって異なります。

PASSWORD

パスワードとして使用される英数字の文字列 (「*very20special#pass*」など)。

PHONE

電話番号 このエンティティタイプには、ファックス番号とポケットベル番号も含まれます。

PIN

銀行口座情報へのアクセスを可能にする 4 桁の個人識別番号 (PIN)。

SSN

社会保障番号 (SSN) は、米国市民、永住者、一時的な労働居住者に発行される 9 桁の番号です。 は、最後の 4 桁のみが存在する場合に社会保障番号 Amazon Transcribe も認識します。

SWIFT_CODE

SWIFT コードは、特定の銀行または支店を指定するために使用する銀行識別コード (BIC) の標準形式です。銀行は、これらのコードを国際電信送金などの送金に使用します。SWIFT コードは 8 文字または 11 文字で構成されます。11 桁のコードは特定のブランチを参照し、8 桁のコード (または「XXX」で終わる 11 桁のコード) は本社またはプライマリオフィスを参照します。

URL

ウェブアドレス (www.example.com など)。

US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER

米国個人納税者識別番号 (ITIN) は、「9」で始まる 9 桁の数字で、4 桁目に「7」または「8」が含まれます。ITIN は、3 桁目と 4 桁目の後にスペースまたはダッシュでフォーマットできます。

USERNAME

ログイン名、スクリーンネーム、ニックネーム、ハンドル名など、アカウントを識別するユーザー名。

VEHICLE_IDENTIFICATION_NUMBER

車両識別番号 (VIN) は、車両を一意に識別します。VIN の内容と形式は ISO 3779 仕様で定義されています。VIN のコードと形式は国ごとに異なります。

バッチ文字起こしジョブは AWS マネジメントコンソール、、 AWS CLI、または AWS SDK を使用して開始できます。

  1. AWS マネジメントコンソール にサインインします。

  2. ナビゲーションペインで、[文字起こしジョブ] を選択後、[ジョブの作成] (右上) を選択します。これにより、ジョブの詳細を指定 ページが開きます。

  3. ジョブの詳細を指定する ページで必要な項目を入力したら、[次へ] を選択して、ジョブの設定 - オプション ページに進みます。ここには PII リダクション切り替えが付いたコンテンツ削除パネルがあります。

    Amazon Transcribe コンソールのスクリーンショット: 「ジョブの設定」ページの「コンテンツ削除ペイン」。
  4. [PII リダクション] を選択すると、編集したいすべての PII タイプを選択するオプションがあります。「未編集のトランスクリプトをジョブ出力に含める」ボックスを選択した場合は、未編集のトランスクリプトを選択することもできます。

    Amazon Transcribe コンソールのスクリーンショット: PII オプションを示す「コンテンツの削除」ペイン。
  5. [ジョブの作成] を選択して、文字起こしジョブを実行します。

この例では、start-transcription-job コマンドと content-redaction パラメータを使用します。詳細については、「StartTranscriptionJob」および「ContentRedaction」を参照してください。

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac \ --output-bucket-name amzn-s3-demo-bucket \ --output-key my-output-files/ \ --language-code en-US \ --content-redaction RedactionType=PII,RedactionOutput=redacted,PiiEntityTypes=NAME,ADDRESS,BANK_ACCOUNT_NUMBER

以下は start-transcription-job メソッドを使用した別の例で、リクエストボディはそのジョブの PII を編集します。

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://filepath/my-first-redaction-job.json

ファイル my-first-redaction-job.json には、次のリクエストボディが含まれています。

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" }, "OutputBucketName": "amzn-s3-demo-bucket", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "ContentRedaction": { "RedactionOutput":"redacted", "RedactionType":"PII", "PiiEntityTypes": [ "NAME", "ADDRESS", "BANK_ACCOUNT_NUMBER" ] } }

この例では AWS SDK for Python (Boto3) 、 を使用して、start_transcription_job メソッドの ContentRedaction引数を使用してコンテンツを編集します。詳細については、「StartTranscriptionJob」および「ContentRedaction」を参照してください。

機能固有の例、シナリオ例、クロスサービス例など、 AWS SDKsSDK を使用した Amazon Transcribe のコード例 AWS SDKs「」の章を参照してください。

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'amzn-s3-demo-bucket', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ContentRedaction = { 'RedactionOutput':'redacted', 'RedactionType':'PII', 'PiiEntityTypes': [ 'NAME','ADDRESS','BANK_ACCOUNT_NUMBER' ] } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
注記

バッチジョブの PII リダクションは、アジア AWS リージョンパシフィック (香港)、アジアパシフィック (ムンバイ)、アジアパシフィック (ソウル)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、 GovCloud (米国西部)、カナダ (中部)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ロンドン)、欧州 (パリ)、中東 (バーレーン)、南米 (サンパウロ)、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、および米国西部 (北カリフォルニア) でのみサポートされています。