View a markdown version of this page

Inferencia global interregional - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Inferencia global interregional

La inferencia global entre regiones amplía la inferencia entre regiones más allá de los límites geográficos, lo que permite enrutar las solicitudes de inferencia a empresas comerciales de todo el Regiones de AWS mundo, optimiza los recursos disponibles y permite un mayor rendimiento del modelo.

Ventajas de la inferencia global entre regiones

La inferencia global entre regiones del Claude Sonnet 4.5 de Anthropic ofrece múltiples ventajas con respecto a los perfiles de inferencia transregional geográfica tradicionales:

  • Rendimiento mejorado durante los picos de demanda: la inferencia global entre regiones proporciona una mayor resiliencia durante los períodos de máxima demanda al enrutar automáticamente las solicitudes según la capacidad disponible. Regiones de AWS Este enrutamiento dinámico se realiza sin problemas, sin configuración ni intervención adicionales por parte de los desarrolladores. A diferencia de los enfoques tradicionales, que pueden requerir un equilibrio de carga complejo por parte del cliente Regiones de AWS, la inferencia global entre regiones gestiona los picos de tráfico de forma automática. Esto es especialmente importante para las aplicaciones críticas para la empresa, donde el tiempo de inactividad o la degradación del rendimiento pueden tener un impacto financiero o reputacional significativo.

  • Rentabilidad: la inferencia global interregional para el Claude Sonnet 4.5 de Anthropic ofrece un ahorro de aproximadamente un 10% en los precios de los tokens de entrada y salida en comparación con la inferencia geográfica entre regiones. El precio se calcula en función de la fuente a partir de la cual se realiza la Región de AWS solicitud (fuente). Región de AWS Esto significa que las organizaciones pueden beneficiarse de una mayor resiliencia con costes aún más bajos. Este modelo de precios convierte a la inferencia global entre regiones en una solución rentable para las organizaciones que buscan optimizar sus despliegues de IA generativa. Al mejorar la utilización de los recursos y permitir un mayor rendimiento sin costes adicionales, ayuda a las organizaciones a maximizar el valor de su inversión en Amazon Bedrock.

  • Supervisión simplificada: cuando se utiliza la inferencia global entre regiones CloudWatch y se CloudTrail siguen registrando las entradas de registro en su fuente Región de AWS, lo que simplifica la observabilidad y la administración. A pesar de que sus solicitudes se procesan en diferentes países del Regiones de AWS mundo, usted mantiene una visión centralizada del rendimiento y los patrones de uso de su aplicación a través de las herramientas de monitoreo que ya conoce. AWS

  • Flexibilidad de cuotas bajo demanda: con la inferencia global entre regiones, sus cargas de trabajo ya no están limitadas por la capacidad regional individual. En lugar de restringirse a la capacidad disponible en una determinada capacidad Región de AWS, sus solicitudes se pueden redirigir de forma dinámica a toda la infraestructura global. AWS Esto proporciona acceso a un conjunto de recursos mucho mayor, lo que facilita la gestión de cargas de trabajo de gran volumen y picos de tráfico repentinos.

Consideraciones sobre la inferencia global entre regiones

Tenga en cuenta la siguiente información sobre la inferencia global entre regiones:

  • Los perfiles de inferencia globales entre regiones proporcionan un rendimiento superior al de un perfil de inferencia vinculado a una zona geográfica concreta. Un perfil de inferencia vinculado a una zona geográfica concreta proporciona un rendimiento superior que la inferencia en una sola región.

  • Para ver las cuotas predeterminadas de rendimiento entre regiones cuando se utilizan perfiles de inferencia globales, consulte los valores de solicitudes de inferencia del modelo entre regiones globales por minuto para ${Model} y tokens de inferencia del modelo entre regiones globales para ${Model} en Cuotas de servicio de Amazon Bedrock en la Referencia general de AWS .

    Puede solicitar, ver y administrar las cuotas del perfil de inferencia global entre regiones desde la consola Service Quotas o mediante los comandos de AWS CLI en su región de origen.

Requisitos de la política de IAM para la inferencia global entre regiones

Para habilitar la inferencia global entre regiones para sus usuarios, debe aplicar al rol una política de IAM dividida en tres partes. El siguiente es un ejemplo de una política de IAM para proporcionar un control detallado. <REQUESTING REGION>En el ejemplo, puede sustituir la política por la Región de AWS que está utilizando.

{ "Version": "2012-10-17", "Statement": [ { "Sid": "GrantGlobalCrisInferenceProfileRegionAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "<REQUESTING REGION>" } } }, { "Sid": "GrantGlobalCrisInferenceProfileInRegionModelAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:<REQUESTING REGION>::foundation-model/<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "<REQUESTING REGION>", "bedrock:InferenceProfileArn": "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" } } }, { "Sid": "GrantGlobalCrisInferenceProfileGlobalModelAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:::foundation-model/<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "unspecified", "bedrock:InferenceProfileArn": "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" } } } ] }

La primera parte de la política permite el acceso al perfil de inferencia regional incluido en su solicitud Región de AWS. La segunda parte proporciona acceso al recurso FM regional. La tercera parte otorga acceso al recurso FM global, lo que permite la capacidad de enrutamiento entre regiones.

Al implementar estas políticas, asegúrese de que los tres nombres de recursos de Amazon (ARNs) de los recursos estén incluidos en sus declaraciones de IAM:

  • El perfil de inferencia regional ARN sigue el patrón. arn:aws:bedrock:REGION:ACCOUNT:inference-profile/global.MODEL-NAME Se utiliza para dar acceso al perfil de inferencia global en la fuente. Región de AWS

  • El FM regional utilizaarn:aws:bedrock:REGION::foundation-model/MODEL-NAME. Se usa para dar acceso a la FM de la fuente Región de AWS.

  • La FM global requierearn:aws:bedrock:::foundation-model/MODEL-NAME. Esto se utiliza para dar acceso a la FM en diferentes entornos globales Regiones de AWS.

El ARN FM global no tiene ninguna Región de AWS cuenta especificada, lo cual es intencional y obligatorio para la funcionalidad entre regiones.

Deshabilite la inferencia global entre regiones

Puede elegir entre dos enfoques principales para implementar políticas de rechazo en el CRIS global para funciones específicas de IAM, cada uno con diferentes casos de uso e implicaciones:

  • Eliminar una política de IAM: el primer método consiste en eliminar una o más de las tres políticas de IAM obligatorias de los permisos de usuario. Como el CRIS global requiere que funcionen las tres políticas, si se elimina una política, se denegará el acceso.

  • Implementar una política de denegación: el segundo enfoque consiste en implementar una política de denegación explícita que se dirija específicamente a los perfiles de inferencia del CRIS global. Este método proporciona una documentación clara de su intención de seguridad y garantiza que, incluso si alguien añade accidentalmente las políticas de autorización requeridas más adelante, prevalecerá la denegación explícita. La política de denegación debe utilizar una StringEquals condición que coincida con el patrón. "aws:RequestedRegion": "unspecified" Este patrón se dirige específicamente a los perfiles de inferencia con el global prefijo.

Al implementar políticas de rechazo, es crucial entender que el CRIS global cambia el comportamiento del aws:RequestedRegion campo. Las políticas Región de AWS de rechazo tradicionales que utilizan StringEquals condiciones con Región de AWS nombres específicos, por ejemplo, no "aws:RequestedRegion": "us-west-2" funcionarán como se esperaba con el CRIS global, ya que el servicio establece este campo global en lugar de en el destino real. Región de AWS Sin embargo, como se mencionó anteriormente, "aws:RequestedRegion": "unspecified" tendrá el efecto de denegación.

Requisitos de la política de control de servicios para la inferencia global entre regiones

Para obtener conclusiones globales entre regiones, si la política de seguridad de su organización suele bloquear las regiones no utilizadas, debe actualizar las condiciones de SCP específicas de la región para permitir el acceso a ellas. SCPs "aws:RequestedRegion": "unspecified" Esta condición es específica de la inferencia global entre regiones de Amazon Bedrock y garantiza que las solicitudes se puedan enrutar a todas las regiones comerciales compatibles. AWS

El siguiente ejemplo de SCP bloquea todas las llamadas a la AWS API fuera de las regiones aprobadas y, al mismo tiempo, permite las llamadas de inferencia transregional global de Amazon Bedrock que se utilizan "unspecified" como región para el enrutamiento global:

{ "Version": "2012-10-17", "Statement": [ { "Sid": "DenyAllOutsideApprovedRegions", "Effect": "Deny", "Action": "*", "Resource": "*", "Condition": { "StringNotEquals": { "aws:RequestedRegion": [ "us-east-1", "us-east-2", "us-west-2", "unspecified" ] } } } ] }

Deshabilite la inferencia global entre regiones

Las organizaciones con requisitos de cumplimiento o residencia de datos deben evaluar si la inferencia global transregional se ajusta a su marco de cumplimiento, ya que las solicitudes pueden procesarse en otras regiones AWS comerciales compatibles. Para deshabilitar explícitamente la inferencia global entre regiones, implemente la siguiente política de SCP:

{ "Effect": "Deny", "Action": "bedrock:*", "Resource": "*", "Condition": { "StringEquals": { "aws:RequestedRegion": "unspecified" }, "ArnLike": { "bedrock:InferenceProfileArn": "arn:aws:bedrock:*:*:inference-profile/global.*" } } }

Este SCP niega explícitamente la inferencia global entre regiones porque "aws:RequestedRegion" es "unspecified" y la "ArnLike" condición se dirige a los perfiles de inferencia con el global prefijo en el ARN.

AWS Implementación de la Torre de Control

Se desaconseja encarecidamente la edición manual SCPs gestionada por AWS Control Tower, ya que puede provocar desviaciones. En su lugar, utilice los mecanismos proporcionados por la Torre de Control para gestionar estas excepciones. Los principios básicos implican ampliar los controles de denegación de regiones existentes o habilitar las regiones y, posteriormente, aplicar una política de bloqueo condicional y personalizada.

Para obtener una step-by-step guía detallada sobre la implementación de la inferencia entre regiones con Control Tower, consulte la entrada del blog Habilitar la inferencia entre regiones de Amazon Bedrock en entornos de múltiples cuentas. Esto incluye ampliar la denegación de regiones existente SCPs, habilitar las regiones denegadas con la personalización SCPs y utilizar las personalizaciones para la Torre de AWS Control (cFCT) para implementar la personalización SCPs como infraestructura como código.

El límite de solicitudes aumenta para la inferencia global entre regiones

Al utilizar perfiles de inferencia CRIS globales, puede utilizar el CRIS global de más de 20 fuentes compatibles. Regiones de AWS Como este será un límite global, las solicitudes para ver, administrar o aumentar las cuotas de los perfiles de inferencia globales entre regiones se deben realizar a través de la consola Service Quotas o la interfaz de línea de AWS comandos (AWS CLI) de la fuente solicitada. Región de AWS

Complete los siguientes pasos para solicitar un aumento del límite:

  1. Inicie sesión en la consola de Service Quotas de su AWS cuenta.

  2. En el panel de navegación, elija Servicios de AWS .

  3. En la lista de servicios, busque y elija Amazon Bedrock.

  4. En la lista de cuotas de Amazon Bedrock, utilice el filtro de búsqueda para encontrar las cuotas CRIS globales específicas. Por ejemplo:

    • Símbolos de inferencia del modelo global transregional por minuto para Anthropic Claude Sonnet 4.5 V1

  5. Seleccione la cuota que quiere aumentar.

  6. Elija Solicitud de aumento a nivel de cuenta.

  7. Introduzca el nuevo valor de cuota que desee.

  8. Elija Solicitar para enviar la solicitud.

Al calcular el aumento de cuota necesario, recuerda tener en cuenta la tasa de agotamiento, que se define como la velocidad a la que las fichas de entrada y salida se convierten en cuotas de uso simbólicas para el sistema de regulación. Los siguientes modelos tienen una tasa de agotamiento de 5 veces para las fichas de salida (1 ficha de salida consume 5 fichas de tus cuotas):

  • Claude Opus 4 antrópico

  • Soneto antrópico de Claude 4.5

  • Soneto antrópico de Claude 4

  • Soneto antrópico Claude 3.7

En todos los demás modelos, la velocidad de consumo es de 1:1 (1 token de salida consume 1 token de su cuota). En el caso de los tokens de entrada, la relación entre el token y la cuota es de 1:1. El cálculo del número total de tokens por solicitud es el siguiente:

Input token count + Cache write input tokens + (Output token count x Burndown rate)

Utilice la inferencia global entre regiones

Para utilizar la inferencia global entre regiones con el Claude Sonnet 4.5 de Anthropic, los desarrolladores deben completar los siguientes pasos clave:

  • Utilice el ID del perfil de inferencia global: al realizar llamadas a la API a Amazon Bedrock, especifique el ID del perfil de inferencia Claude Sonnet 4.5 de Anthropic global (global.anthropic.claude-sonnet-4-5-20250929-v1:0) en lugar de un ID de modelo específico. Región de AWS

  • Configure los permisos de IAM: conceda los permisos de IAM adecuados para acceder al perfil de inferencia y al posible destino. FMs Regiones de AWS

Se admite la inferencia global entre regiones para:

  • Inferencia de modelos bajo demanda

  • Inferencia en lotes

  • Agentes

  • Evaluación de modelos

  • Administración de peticiones

  • Flujos rápidos

nota

El perfil de inferencia global es compatible con la inferencia de modelos bajo demanda, la inferencia en lotes, los agentes, la evaluación de modelos, la administración de peticiones y los flujos de peticiones.

Implemente la inferencia global entre regiones

Implementar la inferencia global entre regiones con el Claude Sonnet 4.5 de Anthropic es sencillo y solo requiere algunos cambios en el código de la aplicación existente. El siguiente es un ejemplo de cómo actualizar el código en Python:

import boto3 import json bedrock = boto3.client('bedrock-runtime', region_name='us-east-1') model_id = "global.anthropic.claude-sonnet-4-5-20250929-v1:0" response = bedrock.converse( messages=[{"role": "user", "content": [{"text": "Explain cloud computing in 2 sentences."}]}], modelId=model_id, ) print("Response:", response['output']['message']['content'][0]['text']) print("Token usage:", response['usage']) print("Total tokens:", response['usage']['totalTokens'])