Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Globale regionsübergreifende Inferenz
Die globale regionsübergreifende Inferenz erweitert die regionsübergreifende Inferenz über geografische Grenzen hinaus und ermöglicht die Weiterleitung von Inferenzanfragen an unterstützte kommerzielle Anbieter auf der AWS-Regionen ganzen Welt, wodurch die verfügbaren Ressourcen optimiert und ein höherer Modelldurchsatz ermöglicht wird.
Vorteile globaler regionsübergreifender Inferenz
Die globale regionsübergreifende Inferenz für Claude Sonnet 4.5 von Anthropic bietet mehrere Vorteile gegenüber herkömmlichen geografischen regionenübergreifenden Inferenzprofilen:
-
Verbesserter Durchsatz bei Spitzennachfrage — Die globale regionsübergreifende Inferenz verbessert die Widerstandsfähigkeit in Zeiten hoher Nachfrage, indem Anfragen automatisch an die verfügbaren Kapazitäten weitergeleitet werden. AWS-Regionen Dieses dynamische Routing erfolgt nahtlos ohne zusätzliche Konfiguration oder Eingriffe von Entwicklern. Im Gegensatz zu herkömmlichen Ansätzen, die möglicherweise einen komplexen clientseitigen Lastenausgleich erfordern AWS-Regionen, verarbeitet die globale regionsübergreifende Inferenz Verkehrsspitzen automatisch. Dies ist besonders wichtig für geschäftskritische Anwendungen, bei denen Ausfallzeiten oder Leistungseinbußen erhebliche finanzielle oder Reputationsschäden haben können.
-
Kosteneffizienz — Die globale regionsübergreifende Inferenz für Claude Sonnet 4.5 von Anthropic bietet im Vergleich zu regionsübergreifenden Inferenzen etwa 10% Einsparungen bei den Preisen für Input- und Output-Tokens. Der Preis wird auf der Grundlage der Adresse berechnet, AWS-Region von der aus die Anfrage gestellt wurde (Quelle). AWS-Region Dies bedeutet, dass Unternehmen von einer verbesserten Widerstandsfähigkeit bei noch geringeren Kosten profitieren können. Dieses Preismodell macht globale regionsübergreifende Inferenz zu einer kostengünstigen Lösung für Unternehmen, die ihre generativen KI-Implementierungen optimieren möchten. Durch die Verbesserung der Ressourcennutzung und die Erzielung eines höheren Durchsatzes ohne zusätzliche Kosten unterstützt es Unternehmen dabei, den Wert ihrer Investition in Amazon Bedrock zu maximieren.
-
Optimierte Überwachung — Wenn Sie globale regionsübergreifende Inferenz verwenden, sollten Sie CloudTrail weiterhin Protokolleinträge in Ihrer Quelle aufzeichnen, was die Beobachtbarkeit CloudWatch und AWS-Region Verwaltung vereinfacht. Auch wenn Ihre Anfragen AWS-Regionen weltweit an verschiedenen Orten bearbeitet werden, behalten Sie mit Ihren vertrauten Überwachungstools einen zentralen Überblick über die Leistung und die Nutzungsmuster Ihrer Anwendung. AWS
-
Kontingentflexibilität auf Abruf — Dank globaler regionsübergreifender Inferenz sind Ihre Workloads nicht mehr durch individuelle regionale Kapazitäten begrenzt. Anstatt auf die in einem bestimmten Bereich verfügbare Kapazität beschränkt zu sein AWS-Region, können Ihre Anfragen dynamisch über die globale Infrastruktur weitergeleitet werden. AWS Dies ermöglicht den Zugriff auf einen viel größeren Ressourcenpool und macht es weniger kompliziert, umfangreiche Workloads und plötzliche Verkehrsspitzen zu bewältigen.
Überlegungen zu globalen regionsübergreifenden Inferenzen
Beachten Sie die folgenden Informationen zur globalen regionsübergreifenden Inferenz:
-
Globale regionenübergreifende Inferenzprofile bieten einen höheren Durchsatz als ein Inferenzprofil, das mit einer bestimmten Region verknüpft ist. Ein mit einer bestimmten Region verknüpftes Inferenzprofil bietet einen höheren Durchsatz als eine einzelregionale Inferenz.
-
Die Standardkontingente für den regionsübergreifenden Durchsatz bei der Verwendung von globalen Inferenzprofilen können Sie den Werten für Regionsübergreifende Modellinferenz-Anfragen pro Minute für ${Model} und Regionsübergreifende Modellinferenz-Token pro Minute für ${Model} unter Service Quotas von Amazon Bedrock in der Allgemeinen AWS -Referenz entnehmen.
Sie können Kontingente für das Global Cross-Region Inference Profile über die Service Quotas Quotas-Konsole
oder mithilfe von AWS CLI-Befehlen in Ihrer Quellregion anfordern, anzeigen und verwalten.
IAM-Richtlinienanforderungen für globale regionsübergreifende Inferenz
Um globale regionsübergreifende Inferenzen für Ihre Benutzer zu ermöglichen, müssen Sie eine dreiteilige IAM-Richtlinie auf die Rolle anwenden. Im Folgenden finden Sie ein Beispiel für eine IAM-Richtlinie zur gezielten Steuerung. Sie können die Beispielrichtlinie durch die Richtlinie ersetzen, <REQUESTING REGION> in der AWS-Region Sie arbeiten.
{ "Version": "2012-10-17", "Statement": [ { "Sid": "GrantGlobalCrisInferenceProfileRegionAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "<REQUESTING REGION>" } } }, { "Sid": "GrantGlobalCrisInferenceProfileInRegionModelAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:<REQUESTING REGION>::foundation-model/<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "<REQUESTING REGION>", "bedrock:InferenceProfileArn": "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" } } }, { "Sid": "GrantGlobalCrisInferenceProfileGlobalModelAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:::foundation-model/<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "unspecified", "bedrock:InferenceProfileArn": "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" } } } ] }
Der erste Teil der Richtlinie gewährt Zugriff auf das regionale Inferenzprofil in Ihrer Anfrage. AWS-Region Der zweite Teil bietet Zugriff auf die regionale FM-Ressource. Der dritte Teil gewährt Zugriff auf die globale FM-Ressource, wodurch die Fähigkeit zum regionenübergreifenden Routing aktiviert wird.
Stellen Sie bei der Implementierung dieser Richtlinien sicher, dass alle drei Amazon-Ressourcennamen (ARNs) in Ihren IAM-Kontoauszügen enthalten sind:
-
Das regionale Inferenzprofil ARN folgt dem Muster
arn:aws:bedrock:REGION:ACCOUNT:inference-profile/global.MODEL-NAME. Dies wird verwendet, um Zugriff auf das globale Inferenzprofil in der Quelle zu gewähren. AWS-Region -
Das regionale FM verwendet
arn:aws:bedrock:REGION::foundation-model/MODEL-NAME. Dies wird verwendet, um Zugriff auf das FM in der Quelle zu gewähren AWS-Region. -
Das globale FM erfordert
arn:aws:bedrock:::foundation-model/MODEL-NAME. Dies wird verwendet, um den Zugriff auf das FM in verschiedenen globalen Umgebungen zu ermöglichen AWS-Regionen.
Für den globalen FM-ARN ist kein AWS-Region Konto angegeben, was beabsichtigt und für die regionsübergreifende Funktionalität erforderlich ist.
Deaktivieren Sie die globale regionsübergreifende Inferenz
Sie können zwischen zwei Hauptansätzen wählen, um Ablehnungsrichtlinien für globale CRIS für bestimmte IAM-Rollen zu implementieren, die jeweils unterschiedliche Anwendungsfälle und Auswirkungen haben:
-
Eine IAM-Richtlinie entfernen — Bei der ersten Methode werden eine oder mehrere der drei erforderlichen IAM-Richtlinien aus den Benutzerberechtigungen entfernt. Da Global CRIS voraussetzt, dass alle drei Richtlinien funktionieren, führt das Entfernen einer Richtlinie dazu, dass der Zugriff verweigert wird.
-
Implementierung einer Ablehnungsrichtlinie — Der zweite Ansatz besteht darin, eine explizite Ablehnungsrichtlinie zu implementieren, die speziell auf globale CRIS-Inferenzprofile abzielt. Diese Methode bietet eine klare Dokumentation Ihrer Sicherheitsabsicht und stellt sicher, dass die ausdrückliche Ablehnung auch dann Vorrang hat, wenn jemand später versehentlich die erforderlichen Zulassungsrichtlinien hinzufügt. Die Ablehnungsrichtlinie sollte eine
StringEqualsBedingung verwenden, die dem Muster"aws:RequestedRegion": "unspecified"entspricht. Dieses Muster zielt speziell auf Inferenzprofile mit demglobalPräfix ab.
Bei der Implementierung von Deny-Policies ist es wichtig zu verstehen, dass das globale CRIS das Verhalten in der aws:RequestedRegion Branche verändert. AWS-Region Herkömmliche Ablehnungsrichtlinien, die StringEquals Bedingungen mit bestimmten AWS-Region Namen verwenden, wie "aws:RequestedRegion":
"us-west-2" z. B., funktionieren bei Global CRIS nicht wie erwartet, weil der Dienst dieses Feld auf das tatsächliche Ziel festlegt und global nicht auf das tatsächliche Ziel. AWS-Region Wie bereits erwähnt, "aws:RequestedRegion": "unspecified" wird dies jedoch zum Negativ-Effekt führen.
Anforderungen an die Service Control-Richtlinie für globale regionsübergreifende Inferenz
Wenn die Sicherheitsrichtlinie Ihres Unternehmens ungenutzte Regionen blockiert, müssen Sie für globale regionsübergreifende Inferenz Ihre regionsspezifischen SCP-Bedingungen aktualisieren, SCPs um den Zugriff auf zu ermöglichen. "aws:RequestedRegion": "unspecified" Diese Bedingung ist spezifisch für Amazon Bedrock Global Cross-Region Inference und stellt sicher, dass Anfragen an alle unterstützten Handelsregionen weitergeleitet werden können. AWS
Das folgende Beispiel für SCP blockiert alle AWS API-Aufrufe außerhalb der zugelassenen Regionen und erlaubt gleichzeitig Amazon Bedrock Global Cross-Region-Inferenzrufe, die "unspecified" als Region für das globale Routing verwendet werden:
{ "Version": "2012-10-17", "Statement": [ { "Sid": "DenyAllOutsideApprovedRegions", "Effect": "Deny", "Action": "*", "Resource": "*", "Condition": { "StringNotEquals": { "aws:RequestedRegion": [ "us-east-1", "us-east-2", "us-west-2", "unspecified" ] } } } ] }
Deaktivieren Sie die globale regionsübergreifende Inferenz
Organizations mit Anforderungen an den Datenstandort oder die Einhaltung von Vorschriften sollten prüfen, ob Global Cross-Region-Inference zu ihrem Compliance-Framework passt, da Anfragen auch in anderen unterstützten AWS Geschäftsregionen bearbeitet werden können. Um die globale regionsübergreifende Inferenz explizit zu deaktivieren, implementieren Sie die folgende SCP-Richtlinie:
{ "Effect": "Deny", "Action": "bedrock:*", "Resource": "*", "Condition": { "StringEquals": { "aws:RequestedRegion": "unspecified" }, "ArnLike": { "bedrock:InferenceProfileArn": "arn:aws:bedrock:*:*:inference-profile/global.*" } } }
Dieser SCP lehnt ausdrücklich die globale regionsübergreifende Inferenz ab, da die "ArnLike" Bedingungen "aws:RequestedRegion" is "unspecified" und the auf Inferenzprofile mit dem Präfix im global ARN abzielen.
AWS Implementierung von Control Tower
Von manueller Bearbeitung, die vom AWS Control Tower SCPs verwaltet wird, wird dringend abgeraten, da dies zu Abweichungen führen kann. Verwenden Sie stattdessen die von Control Tower bereitgestellten Mechanismen, um diese Ausnahmen zu verwalten. Zu den Kernprinzipien gehören entweder die Ausweitung der bestehenden Regionsverweigerungskontrollen oder die Aktivierung von Regionen und die anschließende Anwendung einer benutzerdefinierten, bedingten Sperrrichtlinie.
Eine ausführliche step-by-step Anleitung zur Implementierung regionsübergreifender Inferenz mit Control Tower finden Sie im Blogbeitrag Enable Amazon Bedrock Cross-region Inference
Das Anforderungslimit für globale regionsübergreifende Inferenzen wird erhöht
Wenn Sie globale CRIS-Inferenzprofile verwenden, können Sie globales CRIS aus über 20 unterstützten Quellen verwenden. AWS-Regionen Da es sich um ein globales Limit handelt, müssen Anfragen zum Anzeigen, Verwalten oder Erhöhen von Kontingenten für globale regionsübergreifende Inferenzprofile über die Service Quotas Quota-Konsole oder die AWS Befehlszeilenschnittstelle (AWS CLI) in der angeforderten Quelle gestellt werden. AWS-Region
Gehen Sie wie folgt vor, um eine Erhöhung des Limits zu beantragen:
-
Melden Sie sich in Ihrem AWS Konto bei Service Quotas Quotas-Konsole an.
-
Wählen Sie im Navigationsbereich AWS -Services.
-
Suchen Sie in der Liste der Dienste nach Amazon Bedrock und wählen Sie es aus.
-
Verwenden Sie in der Liste der Kontingente für Amazon Bedrock den Suchfilter, um die spezifischen globalen CRIS-Kontingente zu finden. Beispiel:
-
Globales regionsübergreifendes Modell Inferenz-Token pro Minute für Anthropic Claude Sonnet 4.5 V1
-
-
Wählen Sie das Kontingent aus, das Sie erhöhen möchten.
-
Wählen Sie Erhöhung auf Kontoebene beantragen aus.
-
Geben Sie den gewünschten neuen Kontingentwert ein.
-
Wählen Sie Anfrage, um Ihre Anfrage einzureichen.
Denken Sie bei der Berechnung der erforderlichen Kontingenterhöhung daran, die Burndown-Rate zu berücksichtigen. Diese ist definiert als die Rate, mit der Eingabe- und Ausgabetoken in die Token-Kontingentnutzung für das Drosselungssystem umgewandelt werden. Die folgenden Modelle haben eine 5-fache Burn-Down-Rate für Ausgabetoken (1 Ausgabetoken verbraucht 5 Token aus Ihren Kontingenten):
-
Der Anthropiker Claude, Opus 4
-
Anthropisches Claude-Sonett 4.5
-
Anthropisches Claude-Sonett 4
-
Anthropisches Claude 3.7 Sonett
Bei allen anderen Modellen beträgt die Burndown-Rate 1:1 (1 Ausgabetoken verbraucht 1 Token aus Ihrem Kontingent). Bei Eingabe-Token beträgt das Verhältnis von Token zu Kontingent 1:1. Die Berechnung für die Gesamtzahl der Token pro Anfrage lautet wie folgt:
Input token count + Cache write input tokens + (Output token count x
Burndown rate)
Verwenden Sie globale regionsübergreifende Inferenz
Um die globale regionsübergreifende Inferenz mit Claude Sonnet 4.5 von Anthropic zu verwenden, müssen Entwickler die folgenden wichtigen Schritte ausführen:
-
Verwenden Sie die globale Inferenzprofil-ID — Geben Sie bei API-Aufrufen an Amazon Bedrock die globale Claude Sonnet 4.5-Inferenzprofil-ID (
global.anthropic.claude-sonnet-4-5-20250929-v1:0) von Anthropic anstelle einer -spezifischen Modell-ID an. AWS-Region -
IAM-Berechtigungen konfigurieren — Erteilen Sie die entsprechenden IAM-Berechtigungen für den Zugriff auf das Inferenzprofil und auf ein potenzielles Ziel. FMs AWS-Regionen
Globale regionsübergreifende Inferenz wird unterstützt für:
-
Modellinferenz auf Abruf
-
Batch-Inferenz
-
Kundendienstmitarbeiters (Kundendienstmitarbeiter)
-
Bewertung von Modellen
-
Prompt Management
-
Schnelle Abläufe
Anmerkung
Das globale Inferenzprofil wird für On-Demand-Modellinferenz, Batch-Inferenz, Agenten, Modellbewertung, Prompt-Management und Prompt-Abläufe unterstützt.
Implementieren Sie globale regionsübergreifende Inferenz
Die Implementierung globaler regionsübergreifender Inferenz mit Claude Sonnet 4.5 von Anthropic ist unkompliziert und erfordert nur wenige Änderungen an Ihrem vorhandenen Anwendungscode. Das Folgende ist ein Beispiel dafür, wie Sie Ihren Code in Python aktualisieren können:
import boto3 import json bedrock = boto3.client('bedrock-runtime', region_name='us-east-1') model_id = "global.anthropic.claude-sonnet-4-5-20250929-v1:0" response = bedrock.converse( messages=[{"role": "user", "content": [{"text": "Explain cloud computing in 2 sentences."}]}], modelId=model_id, ) print("Response:", response['output']['message']['content'][0]['text']) print("Token usage:", response['usage']) print("Total tokens:", response['usage']['totalTokens'])