View a markdown version of this page

Inférence interrégionale globale - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Inférence interrégionale globale

L'inférence interrégionale mondiale étend l'inférence interrégionale au-delà des limites géographiques, permettant d'acheminer les demandes d'inférence vers les entreprises commerciales prises en charge Régions AWS dans le monde entier, d'optimiser les ressources disponibles et d'augmenter le débit des modèles.

Avantages de l'inférence interrégionale à l'échelle mondiale

L'inférence interrégionale globale pour Claude Sonnet 4.5 d'Anthropic offre de nombreux avantages par rapport aux profils d'inférence interrégionaux géographiques traditionnels :

  • Débit amélioré en période de pointe — L'inférence interrégionale globale améliore la résilience pendant les périodes de pointe en acheminant automatiquement les demandes vers Régions AWS la capacité disponible. Ce routage dynamique s'effectue de manière fluide, sans configuration supplémentaire ni intervention de la part des développeurs. Contrairement aux approches traditionnelles qui peuvent nécessiter un équilibrage de charge complexe côté client Régions AWS, l'inférence interrégionale globale gère automatiquement les pics de trafic. Cela est particulièrement important pour les applications critiques pour lesquelles les temps d'arrêt ou la dégradation des performances peuvent avoir des répercussions financières ou de réputation importantes.

  • Rentabilité — L'inférence interrégionale globale pour Claude Sonnet 4.5 d'Anthropic permet de réaliser des économies d'environ 10 % sur la tarification des jetons d'entrée et de sortie par rapport à l'inférence géographique interrégionale. Le prix est calculé en fonction Région AWS de l'origine de la demande (source Région AWS). Cela signifie que les entreprises peuvent bénéficier d'une résilience améliorée à des coûts encore plus bas. Ce modèle de tarification fait de l'inférence interrégionale mondiale une solution rentable pour les entreprises qui cherchent à optimiser leurs déploiements d'IA générative. En améliorant l'utilisation des ressources et en permettant d'augmenter le débit sans coûts supplémentaires, il aide les entreprises à maximiser la valeur de leur investissement dans Amazon Bedrock.

  • Surveillance rationalisée : lorsque vous utilisez l'inférence interrégionale globale, CloudTrail continuez à enregistrer CloudWatch les entrées du journal dans votre source Région AWS, ce qui simplifie l'observabilité et la gestion. Même si vos demandes sont traitées dans différents pays du Régions AWS monde, vous conservez une vue centralisée des performances et des modèles d'utilisation de votre application grâce à vos outils AWS de surveillance habituels.

  • Flexibilité des quotas à la demande — Grâce à l'inférence interrégionale globale, vos charges de travail ne sont plus limitées par la capacité régionale individuelle. Au lieu d'être limitées à la capacité disponible dans un domaine spécifique Région AWS, vos demandes peuvent être acheminées dynamiquement à travers l'infrastructure AWS mondiale. Cela permet d'accéder à un pool de ressources beaucoup plus important, ce qui simplifie la gestion de charges de travail volumineuses et de pics de trafic soudains.

Considérations relatives à l'inférence interrégionale à l'échelle mondiale

Notez les informations suivantes concernant l'inférence interrégionale globale :

  • Les profils d’inférence interrégionaux mondiaux fournissent un débit supérieur à celui d’un profil d’inférence lié à une zone géographique particulière. Un profil d’inférence lié à une zone géographique particulière offre un débit supérieur à celui de l’inférence à une seule région.

  • Pour voir les quotas par défaut pour le débit interrégional lorsque vous utilisez des profils d’inférence globaux, consultez les valeurs relatives aux demandes d’inférence de modèle interrégionales globales par minute pour ${Model} et aux jetons d’inférence de modèle interrégionale par minute pour ${Model} dans la section Quotas de service Amazon Bedrock de la Référence générale AWS .

    Vous pouvez demander, consulter et gérer des quotas pour le profil d'inférence interrégional global à partir de la console Service Quotas ou à l'aide des commandes AWS CLI dans votre région source.

Exigences relatives à la politique IAM pour l'inférence interrégionale globale

Pour activer l'inférence interrégionale globale pour vos utilisateurs, vous devez appliquer une politique IAM en trois parties au rôle. Voici un exemple de politique IAM permettant un contrôle granulaire. Vous pouvez remplacer <REQUESTING REGION> dans l'exemple de politique par celle dans Région AWS laquelle vous opérez.

{ "Version": "2012-10-17", "Statement": [ { "Sid": "GrantGlobalCrisInferenceProfileRegionAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "<REQUESTING REGION>" } } }, { "Sid": "GrantGlobalCrisInferenceProfileInRegionModelAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:<REQUESTING REGION>::foundation-model/<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "<REQUESTING REGION>", "bedrock:InferenceProfileArn": "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" } } }, { "Sid": "GrantGlobalCrisInferenceProfileGlobalModelAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:::foundation-model/<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "unspecified", "bedrock:InferenceProfileArn": "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" } } } ] }

La première partie de la politique donne accès au profil d'inférence régional dans votre demande Région AWS. La deuxième partie donne accès à la ressource FM régionale. La troisième partie donne accès à la ressource FM mondiale, qui permet la capacité de routage entre régions.

Lors de la mise en œuvre de ces politiques, assurez-vous que les trois ressources Amazon Resource Names (ARNs) sont incluses dans vos instructions IAM :

  • Le profil d'inférence régional ARN suit le modèle. arn:aws:bedrock:REGION:ACCOUNT:inference-profile/global.MODEL-NAME Ceci est utilisé pour donner accès au profil d'inférence global dans la source Région AWS.

  • Le Regional FM utilisearn:aws:bedrock:REGION::foundation-model/MODEL-NAME. Ceci est utilisé pour donner accès au FM dans la source Région AWS.

  • Le FM mondial nécessitearn:aws:bedrock:::foundation-model/MODEL-NAME. Ceci est utilisé pour donner accès à la FM dans différents pays Régions AWS.

L'ARN FM global n'a pas Région AWS de compte spécifié, ce qui est intentionnel et requis pour la fonctionnalité interrégionale.

Désactiver l'inférence interrégionale globale

Vous pouvez choisir entre deux approches principales pour mettre en œuvre des politiques de refus dans le CRIS global pour des rôles IAM spécifiques, chacune ayant des cas d'utilisation et des implications différents :

  • Supprimer une stratégie IAM — La première méthode consiste à supprimer une ou plusieurs des trois politiques IAM requises des autorisations utilisateur. Étant donné que le CRIS global nécessite le fonctionnement des trois politiques, la suppression d'une politique entraînera un refus d'accès.

  • Mettre en œuvre une politique de refus — La deuxième approche consiste à mettre en œuvre une politique de refus explicite qui cible spécifiquement les profils d'inférence CRIS globaux. Cette méthode fournit une documentation claire de vos intentions en matière de sécurité et garantit que même si quelqu'un ajoute accidentellement les politiques d'autorisation requises ultérieurement, le refus explicite aura la priorité. La politique de refus doit utiliser une StringEquals condition correspondant au modèle"aws:RequestedRegion": "unspecified". Ce modèle cible spécifiquement les profils d'inférence avec le global préfixe.

Lors de la mise en œuvre de politiques de refus, il est essentiel de comprendre que le CRIS global modifie le comportement du aws:RequestedRegion terrain. Les politiques Région AWS de refus traditionnelles qui utilisent des StringEquals conditions portant des Région AWS noms spécifiques, tels que, ne "aws:RequestedRegion": "us-west-2" fonctionneront pas comme prévu avec le CRIS global, car le service définit ce champ sur la destination global plutôt que sur la destination réelle Région AWS. Cependant, comme mentionné précédemment, il en "aws:RequestedRegion": "unspecified" résultera un effet de refus.

Exigences relatives à la politique de contrôle des services pour l'inférence interrégionale globale

Pour l'inférence interrégionale globale, si la politique de sécurité de votre organisation bloque les régions non utilisées, vous devez mettre SCPs à jour les conditions SCP spécifiques à votre région pour autoriser l'accès avec. "aws:RequestedRegion": "unspecified" Cette condition est spécifique à l'inférence interrégionale d'Amazon Bedrock Global et garantit que les demandes peuvent être acheminées vers toutes les régions commerciales prises en charge. AWS

L'exemple de SCP suivant bloque tous les appels d' AWS API en dehors des régions approuvées tout en autorisant les appels d'inférence interrégionaux Amazon Bedrock Global qui sont utilisés "unspecified" comme région pour le routage mondial :

{ "Version": "2012-10-17", "Statement": [ { "Sid": "DenyAllOutsideApprovedRegions", "Effect": "Deny", "Action": "*", "Resource": "*", "Condition": { "StringNotEquals": { "aws:RequestedRegion": [ "us-east-1", "us-east-2", "us-west-2", "unspecified" ] } } } ] }

Désactiver l'inférence interrégionale globale

Organisations soumises à des exigences en matière de résidence ou de conformité des données doivent évaluer si l'inférence interrégionale globale correspond à leur cadre de conformité, étant donné que les demandes peuvent être traitées dans d'autres régions AWS commerciales prises en charge. Pour désactiver explicitement l'inférence interrégionale globale, implémentez la politique SCP suivante :

{ "Effect": "Deny", "Action": "bedrock:*", "Resource": "*", "Condition": { "StringEquals": { "aws:RequestedRegion": "unspecified" }, "ArnLike": { "bedrock:InferenceProfileArn": "arn:aws:bedrock:*:*:inference-profile/global.*" } } }

Ce SCP refuse explicitement l'inférence interrégionale globale car la condition "aws:RequestedRegion" est "unspecified" et la "ArnLike" condition ciblent les profils d'inférence dont le global préfixe est dans l'ARN.

AWS Implémentation de la Control Tower

L'édition manuelle SCPs gérée par AWS Control Tower est fortement déconseillée car elle peut entraîner une dérive. Utilisez plutôt les mécanismes fournis par Control Tower pour gérer ces exceptions. Les principes de base impliquent soit d'étendre les contrôles de refus de région existants, soit d'activer les régions, puis d'appliquer une politique de blocage conditionnel personnalisée.

Pour obtenir des step-by-step conseils détaillés sur la mise en œuvre de l'inférence interrégionale avec Control Tower, consultez le billet de blog Enable Amazon Bedrock Cross-region inférence in multi-comptes. Cela couvre l'extension du refus de région existant SCPs, l'activation des régions refusées avec la personnalisation SCPs et l'utilisation de Customizations for AWS Control Tower (CfCT) pour déployer une infrastructure personnalisée SCPs sous forme de code.

Augmentation de la limite de demandes pour l'inférence interrégionale globale

Lorsque vous utilisez des profils d'inférence CRIS globaux, vous pouvez utiliser des CRIS globaux provenant de plus de 20 sources Régions AWS prises en charge. Comme il s'agira d'une limite globale, les demandes d'affichage, de gestion ou d'augmentation des quotas pour les profils d'inférence interrégionaux globaux doivent être effectuées via la console Service Quotas ou l'interface de ligne de AWS commande (AWS CLI) de la source demandée. Région AWS

Procédez comme suit pour demander une augmentation de limite :

  1. Connectez-vous à la console Service Quotas de votre AWS compte.

  2. Dans le panneau de navigation, choisissez Services AWS .

  3. Dans la liste des services, recherchez et choisissez Amazon Bedrock.

  4. Dans la liste des quotas pour Amazon Bedrock, utilisez le filtre de recherche pour trouver les quotas mondiaux CRIS spécifiques. Par exemple :

    • Jetons d'inférence de modèles interrégionaux mondiaux par minute pour Anthropic Claude Sonnet 4.5 V1

  5. Sélectionnez le quota que vous souhaitez augmenter.

  6. Choisissez Demander une augmentation au niveau du compte.

  7. Entrez la nouvelle valeur de quota souhaitée.

  8. Choisissez Request pour soumettre votre demande.

Lorsque vous calculez l'augmentation de quota requise, n'oubliez pas de prendre en compte le taux de combustion, défini comme le taux auquel les jetons d'entrée et de sortie sont convertis en quotas d'utilisation de jetons pour le système de régulation. Les modèles suivants ont un taux de combustion 5 fois supérieur à celui des jetons de sortie (1 jeton de sortie consomme 5 jetons de vos quotas) :

  • Claude Anthropic, opus 4

  • Claude Sonnet anthropique 4.5

  • Anthropic Claude Sonnet 4

  • Sonnet Anthropic Claude 3.7

Pour tous les autres modèles, le taux de destruction est de 1:1 (1 jeton de sortie consomme 1 jeton de votre quota). Pour les jetons d'entrée, le ratio jeton/quota est de 1:1. Le calcul du nombre total de jetons par demande est le suivant :

Input token count + Cache write input tokens + (Output token count x Burndown rate)

Utiliser l'inférence interrégionale globale

Pour utiliser l'inférence interrégionale globale avec Claude Sonnet 4.5 d'Anthropic, les développeurs doivent suivre les étapes clés suivantes :

  • Utiliser l'identifiant du profil d'inférence global : lorsque vous effectuez des appels d'API vers Amazon Bedrock, spécifiez l'identifiant du profil d'inférence Claude Sonnet 4.5 d'Anthropic global (global.anthropic.claude-sonnet-4-5-20250929-v1:0) au lieu d'un identifiant de modèle spécifique. Région AWS

  • Configurer les autorisations IAM : accordez les autorisations IAM appropriées pour accéder au profil d'inférence et FMs à une destination potentielle. Régions AWS

L'inférence interrégionale globale est prise en charge pour :

  • Inférence de modèles à la demande

  • Inférence par lots

  • Agents

  • Évaluation de modèle

  • Gestion des invites

  • Des flux rapides

Note

Le profil d’inférence global est pris en charge pour l’inférence de modèle à la demande, l’inférence par lots, les agents, l’évaluation des modèles, la gestion des invites et les flux d’invite.

Mettre en œuvre l'inférence interrégionale globale

La mise en œuvre de l'inférence interrégionale globale avec Claude Sonnet 4.5 d'Anthropic est simple et ne nécessite que quelques modifications du code de votre application existant. Voici un exemple de mise à jour de votre code en Python :

import boto3 import json bedrock = boto3.client('bedrock-runtime', region_name='us-east-1') model_id = "global.anthropic.claude-sonnet-4-5-20250929-v1:0" response = bedrock.converse( messages=[{"role": "user", "content": [{"text": "Explain cloud computing in 2 sentences."}]}], modelId=model_id, ) print("Response:", response['output']['message']['content'][0]['text']) print("Token usage:", response['usage']) print("Total tokens:", response['usage']['totalTokens'])