View a markdown version of this page

Schwärzen von PII in Ihrem Batch-Job - Amazon Transcribe

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Schwärzen von PII in Ihrem Batch-Job

Wenn Sie während eines Batch-Transkriptionsvorgangs personenbezogene Daten (PII) aus einem Transkript redigieren, wird jede identifizierte Instanz von PII durch den Haupttext Ihres [PII] Transkripts Amazon Transcribe ersetzt. Sie können auch die Art der PII anzeigen, die im Wort-für-Wort-Teil der Transkriptionsausgabe geschwärzt wurden. Ein Beispiel für die Ausgabe finden Sie unter Beispiel für eine geschwärzte Ausgabe (Batch).

Die Schwärzung mit Batch-Transkriptionen ist im englischen Dialekt verfügbar: US (en-US), im spanischen Dialekt: USA (es-US), in französischen Dialekten: Französisch (fr-FR), Kanada (), in deutschen Dialekten: Deutschland (fr-CA), Schweizerisch (de-DE), im italienischen Dialekt: Italien (de-CH) und in portugiesischen Dialekten: Portugal (it-IT), Brasilien (). pt-PT pt-BR Die Schwärzung ist nicht mit der Sprachidentifikationkompatibel.

Sowohl geschwärzte als auch unredigierte Transkripte werden im selben Ausgabe-Bucket gespeichert. Amazon S3 Amazon Transcribe speichert sie in einem von Ihnen angegebenen Bucket oder in dem vom Service verwalteten Amazon S3 Standard-Bucket.

Arten von personenbezogenen Daten Amazon Transcribe kann Batch-Transkriptionen erkennen
PII-Typ Description
ADDRESS

Eine physische Adresse, z. B. 100 Main Street, Anytown, USA oder Suite #12, Gebäude 123. Eine Adresse kann eine Straße, ein Gebäude, einen Ort, eine Stadt, ein Bundesland, ein Land, eine Grafschaft, eine Postleitzahl, einen Bezirk, ein Stadtviertel und mehr enthalten.

AGE

Das Alter einer Person, einschließlich Menge und Zeiteinheit. In der Formulierung „Ich bin 40 Jahre alt“ wird beispielsweise „40 Jahre“ als Alter Amazon Transcribe erkannt.

ALL

Schwärzen oder identifizieren Sie alle in dieser Tabelle aufgeführten PII-Typen.

AWS_ACCESS_KEY

Eine eindeutige Kennung, die mit einem geheimen Zugriffsschlüssel verknüpft ist. Sie verwenden die Zugriffsschlüssel-ID und den geheimen Zugriffsschlüssel, um programmatische AWS-Anfragen kryptografisch zu signieren.

AWS_SECRET_KEY

Eine eindeutige ID, die einem Zugriffsschlüssel zugeordnet ist. Sie verwenden die Zugriffsschlüssel-ID und den geheimen Zugriffsschlüssel, um programmatische AWS-Anfragen kryptografisch zu signieren.

BANK_ACCOUNT_NUMBER

Eine US-Bankkontonummer. Diese sind in der Regel zwischen 10 und 12 Ziffern lang, aber Amazon Transcribe erkennt auch Bankkontonummern, bei denen nur die letzten 4 Ziffern vorhanden sind.

BANK_ROUTING

Eine US-Bankleitzahl. Diese sind in der Regel 9 Ziffern lang, aber Amazon Transcribe erkennt auch Routing-Nummern, bei denen nur die letzten 4 Ziffern vorhanden sind.

CA_HEALTH_NUMBER

Eine kanadische Gesundheitsdienstnummer ist eine 10-stellige eindeutige Kennung, die für den Zugang zu Gesundheitsleistungen erforderlich ist.

CA_SOCIAL_INSURANCE_NUMBER

Eine kanadische Sozialversicherungsnummer (SIN) ist eine 9-stellige eindeutige Kennung, die Einzelpersonen benötigen, um staatliche Programme und Leistungen in Anspruch zu nehmen.

CREDIT_DEBIT_CVV

Ein dreistelliger Kartenprüfcode (CVV), der auf Kredit- und Debitkarten von VISA und Discover vorhanden ist. MasterCard Bei American Express-Kredit- oder Debitkarten handelt es sich um einen 4-stelligen Zahlencode.

CREDIT_DEBIT_EXPIRY

Das Ablaufdatum einer Kredit- oder Debitkarte. Diese Nummer ist normalerweise vierstellig und als oder formatiert. month/year MM/YY Amazon Transcribe Kann beispielsweise Ablaufdaten wie 01/2101/2021, und Januar 2021 erkennen.

CREDIT_DEBIT_NUMBER

Die Nummer einer Kredit- oder Debitkarte. Diese Zahlen können zwischen 13 und 16 Ziffern lang sein, erkennen aber Amazon Transcribe auch Kredit- oder Debitkartennummern, wenn nur die letzten 4 Ziffern vorhanden sind.

DATE_TIME

Ein Datum kann ein Jahr, einen Monat, einen Tag, einen Wochentag oder eine Tageszeit enthalten. Amazon Transcribe Erkennt beispielsweise „19. Januar 2020“ oder „11 Uhr“ als Datum. Amazon Transcribe erkennt Teildaten, Datumsbereiche und Datumsintervalle. Es wird auch Jahrzehnte wie „die 1990er“ berücksichtigen.

DRIVER_ID

Die Nummer, die einem Führerschein zugewiesen ist. Dabei handelt es sich um ein offizielles Dokument, das es einer Person ermöglicht, ein oder mehrere motorisierte Fahrzeuge auf einer öffentlichen Straße zu fahren. Eine Führerscheinnummer besteht aus alphanumerischen Zeichen.

EMAIL

Eine E-Mail-Adresse, z. B. efua.owusu@email.com.

INTERNATIONAL_BANK_ACCOUNT_NUMBER

Eine internationale Bankkontonummer hat in jedem Land spezifische Formate. Weitere Informationen finden Sie unter www.iban. com/structure.

IP_ADDRESS

Eine IPv4-Adresse, z. B. 198.51.100.0.

LICENSE_PLATE

Ein Nummernschild für ein Fahrzeug wird von dem Staat oder Land ausgestellt, in dem das Fahrzeug registriert ist. Das Format für Personenkraftwagen besteht in der Regel aus fünf bis acht Zeichen, mit Großbuchstaben gefolgt von Ziffern. Das Format variiert je nach Standort des ausstellenden Staates oder Landes.

MAC_ADDRESS

Eine MAC-Adresse (Media Access Control) ist eine eindeutige Kennung, die einem Network Interface Controller (NIC) zugewiesen ist.

NAME

Der Name einer Person. Dieser Entitätstyp umfasst keine Titel wie Herr, Frau, Fräulein oder Dr.. Er wendet diesen Entitätstyp Amazon Transcribe nicht auf Namen an, die Teil von Organisationen oder Adressen sind. Amazon Transcribe Erkennt beispielsweise die John Doe Organization als Organisation und Jane Doe Street als Adresse.

PASSPORT_NUMBER

Eine eindeutige Kennung, die dem Reisepass einer Person zugewiesen wird. Das Format umfasst in der Regel eine Kombination aus Buchstaben und Zahlen und ist je nach Land unterschiedlich.

PASSWORD

Eine alphanumerische Zeichenfolge, die als Passwort verwendet wird, z. B. „*very20special#pass*“.

PHONE

Eine Telefonnummer. Dieser Entitätstyp umfasst auch Fax- und Pager-Nummern.

PIN

Eine 4-stellige persönliche Identifikationsnummer (PIN), mit der jemand Zugang zu seinen Kontodaten erhält.

SSN

Eine Sozialversicherungsnummer (SSN) ist eine 9-stellige Nummer, die an US-Bürger, Personen mit ständigem Wohnsitz und Personen mit vorübergehender Erwerbstätigkeit vergeben wird. Amazon Transcribe erkennt auch Sozialversicherungsnummern, wenn nur die letzten 4 Ziffern vorhanden sind.

SWIFT_CODE

Ein SWIFT-Code ist ein Standardformat für den Bank Identifier Code (BIC), der zur Angabe einer bestimmten Bank oder Filiale verwendet wird. Banken verwenden diese Codes für Geldbewegungen wie internationale Überweisungen. SWIFT-Codes bestehen aus 8 oder 11 Zeichen. Die 11-stelligen Codes beziehen sich auf bestimmte Filialen, während sich die 8-stelligen Codes (oder 11-stellige Codes, die auf „XXX“ enden) auf den Hauptsitz oder die Hauptniederlassung beziehen.

URL

Eine Webadresse, z. B. www.example.com.

US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER

Eine US-amerikanische Steueridentifikationsnummer (ITIN) ist eine 9-stellige Zahl, die mit einer „9“ beginnt und eine „7“ oder „8“ als vierte Ziffer enthält. Eine ITIN kann mit einem Leerzeichen oder einem Gedankenstrich nach der dritten und vierten Ziffer formatiert werden.

USERNAME

Ein Benutzername, der ein Konto identifiziert, wie etwa ein Login-Name, Bildschirmname, Spitzname oder Handle.

VEHICLE_IDENTIFICATION_NUMBER

Eine Fahrgestellnummern (VIN) identifiziert ein Fahrzeug eindeutig. Inhalt und Format der Fahrgestellnummer sind in der Spezifikation ISO 3779 definiert. Jedes Land hat spezifische Codes und Formate für VINs.

Sie können einen Batch-Transkriptionsauftrag mit dem SDK AWS-Managementkonsole AWS CLI, oder starten. AWS

  1. Melden Sie sich an der AWS-Managementkonsole an.

  2. Wählen Sie im Navigationsbereich Transkriptionsaufträge und dann Auftrag erstellen (oben rechts). Daraufhin wird die Seite Auftragsdetails angeben geöffnet.

  3. Nachdem Sie die gewünschten Felder auf der Seite Auftragsdetails angeben ausgefüllt haben, wählen Sie Weiter, um zur Seite Auftrag konfigurieren – optional zu gelangen. Hier finden Sie den Bereich zum Entfernen von Inhalten mit dem Schalter für die Schwärzung von PII .

    Amazon Transcribe Konsolen-Screenshot: Der Bereich zum Entfernen von Inhalten auf der Seite „Job konfigurieren“.
  4. Sobald Sie die Schwärzung von PII ausgewählt haben, haben Sie die Möglichkeit, alle PII-Typen auszuwählen, die Sie schwärzen möchten. Sie können auch festlegen, dass ein ungeschwärztes Transkript angezeigt wird, wenn Sie Ungeschwärztes Transkript in das Auftragsausgabefeld einschließen auswählen.

    Amazon Transcribe Konsolen-Screenshot: Der Bereich „Inhalte entfernen“ mit PII-Optionen.
  5. Wählen Sie Auftrag erstellen, um Ihren Transkriptionsauftrag auszuführen.

In diesem Beispiel werden der Befehl start-Transkription-job und der Parameter content-redaction verwendet. Weitere Informationen erhalten Sie unter StartTranscriptionJob und ContentRedaction.

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac \ --output-bucket-name amzn-s3-demo-bucket \ --output-key my-output-files/ \ --language-code en-US \ --content-redaction RedactionType=PII,RedactionOutput=redacted,PiiEntityTypes=NAME,ADDRESS,BANK_ACCOUNT_NUMBER

Hier ein weiteres Beispiel, bei dem die Methode start-Transkription-job verwendet wird und der Anforderungstext die PII für diesen Auftrag unkenntlich macht.

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://filepath/my-first-redaction-job.json

Die Datei my-first-redaction-job.json enthält den folgenden Anforderungstext.

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" }, "OutputBucketName": "amzn-s3-demo-bucket", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "ContentRedaction": { "RedactionOutput":"redacted", "RedactionType":"PII", "PiiEntityTypes": [ "NAME", "ADDRESS", "BANK_ACCOUNT_NUMBER" ] } }

In diesem Beispiel wird der verwendet AWS SDK für Python (Boto3) , um Inhalte mithilfe des ContentRedaction Arguments für die Methode start_transcription_job zu redigieren. Weitere Informationen erhalten Sie unter StartTranscriptionJob und ContentRedaction.

Weitere Beispiele für die Verwendung der AWS SDKs, einschließlich funktionsspezifischer, szenarienspezifischer und serviceübergreifender Beispiele, finden Sie im Kapitel. Codebeispiele für Amazon Transcribe mit AWS SDKs

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'amzn-s3-demo-bucket', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ContentRedaction = { 'RedactionOutput':'redacted', 'RedactionType':'PII', 'PiiEntityTypes': [ 'NAME','ADDRESS','BANK_ACCOUNT_NUMBER' ] } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
Anmerkung

Die Bearbeitung personenbezogener Daten für Batch-Jobs wird nur in folgenden Fällen unterstützt AWS-Regionen: Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Seoul), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik GovCloud (TokioUS-West), (), Kanada (Zentral), EU (Frankfurt), EU (Irland), EU (London), EU (Paris), Naher Osten (Bahrain), Südamerika (Sao Paulo), USA Ost (N. Virginia), USA Ost (Ohio), USA West (Oregon) und USA West (Nordkalifornien).