Benefícios da inferência global entre regiões Considerações sobre inferência global entre regiões Requisitos de política do IAM para inferência global entre regiões Requisitos da política de controle de serviços para inferência global entre regiões Aumento do limite de solicitações para inferência global entre regiões Use a inferência global entre regiões Implemente a inferência global entre regiões

Inferência global entre regiões

A inferência global entre regiões estende a inferência entre regiões além dos limites geográficos, permitindo o roteamento de solicitações de inferência para empresas comerciais suportadas em todo o Regiões da AWS mundo, otimizando os recursos disponíveis e permitindo maior produtividade do modelo.

Benefícios da inferência global entre regiões

A inferência global entre regiões para o Claude Sonnet 4.5 da Anthropic oferece várias vantagens em relação aos perfis tradicionais de inferência geográfica entre regiões:

Rendimento aprimorado durante o pico de demanda — A inferência global entre regiões fornece maior resiliência durante os períodos de pico de demanda ao rotear automaticamente as solicitações para a capacidade disponível. Regiões da AWS Esse roteamento dinâmico acontece perfeitamente, sem configuração ou intervenção adicional dos desenvolvedores. Ao contrário das abordagens tradicionais, que podem exigir um balanceamento complexo de carga do lado do cliente Regiões da AWS, a inferência global entre regiões trata os picos de tráfego automaticamente. Isso é particularmente importante para aplicativos essenciais para os negócios, nos quais o tempo de inatividade ou o desempenho degradado podem ter impactos financeiros ou de reputação significativos.
Cost-efficiency— A inferência global entre regiões para o Claude Sonnet 4.5 da Anthropic oferece aproximadamente 10% de economia nos preços dos tokens de entrada e saída em comparação com a inferência geográfica entre regiões. O preço é calculado com base no Região da AWS qual a solicitação é feita (fonte Região da AWS). Isso significa que as organizações podem se beneficiar de uma maior resiliência com custos ainda mais baixos. Esse modelo de preços torna a inferência global entre regiões uma solução econômica para organizações que buscam otimizar suas implantações generativas de IA. Ao melhorar o uso de recursos e permitir maior produtividade sem custos adicionais, ele ajuda as organizações a maximizar o valor de seu investimento no Amazon Bedrock.
Monitoramento simplificado — Ao usar a inferência global entre regiões, CloudTrail continue registrando as entradas de registro em sua fonte Região da AWS, simplificando a observabilidade CloudWatch e o gerenciamento. Mesmo que suas solicitações sejam processadas em diferentes partes do Regiões da AWS mundo, você mantém uma visão centralizada dos padrões de desempenho e uso do seu aplicativo por meio de suas ferramentas de AWS monitoramento familiares.
On-demand flexibilidade de cotas — com a inferência global entre regiões, suas cargas de trabalho não são mais limitadas pela capacidade regional individual. Em vez de ficarem restritas à capacidade disponível em uma área específica Região da AWS, suas solicitações podem ser roteadas dinamicamente pela infraestrutura AWS global. Isso fornece acesso a um conjunto muito maior de recursos, tornando menos complicado lidar com cargas de trabalho de alto volume e picos repentinos de tráfego.

Considerações sobre inferência global entre regiões

Observe as seguintes informações sobre a inferência global entre regiões:

Perfis de Cross-Region inferência global fornecem maior rendimento do que um perfil de inferência vinculado a uma determinada geografia. Um perfil de inferência vinculado a uma determinada área geográfica oferece maior throughput do que a inferência em uma única região.
Para ver as cotas padrão para a taxa de transferência entre regiões ao usar perfis de inferência global, consulte as solicitações de inferência do Cross-region modelo global por minuto para $ {Model} e os tokens de inferência do Cross-region modelo global por minuto para os valores $ {Model} nas cotas do serviço Amazon Bedrock na Referência geral.AWS

Você pode solicitar, visualizar e gerenciar cotas para o Perfil de Cross-Region Inferência Global a partir do console Service Quotas ou usando comandos da AWS CLI na sua região de origem.

Requisitos de política do IAM para inferência global entre regiões

Para permitir a inferência global entre regiões para seus usuários, você deve aplicar uma política de IAM em três partes à função. Veja a seguir um exemplo de política do IAM para fornecer controle granular. Você pode substituir <REQUESTING REGION> no exemplo de política pela Região da AWS que você está operando.


{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Sid": "GrantGlobalCrisInferenceProfileRegionAccess",
            "Effect": "Allow",
            "Action": "bedrock:InvokeModel",
            "Resource": [
                "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>"
            ],
            "Condition": {
                "StringEquals": {
                    "aws:RequestedRegion": "<REQUESTING REGION>"
                }
            }
        },
        {
            "Sid": "GrantGlobalCrisInferenceProfileInRegionModelAccess",
            "Effect": "Allow",
            "Action": "bedrock:InvokeModel",
            "Resource": [
                "arn:aws:bedrock:<REQUESTING REGION>::foundation-model/<MODEL NAME>"
            ],
            "Condition": {
                "StringEquals": {
                    "aws:RequestedRegion": "<REQUESTING REGION>",
                    "bedrock:InferenceProfileArn": "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>"
                }
            }
        },
        {
            "Sid": "GrantGlobalCrisInferenceProfileGlobalModelAccess",
            "Effect": "Allow",
            "Action": "bedrock:InvokeModel",
            "Resource": [
                "arn:aws:bedrock:::foundation-model/<MODEL NAME>"
            ],
            "Condition": {
                "StringEquals": {
                    "aws:RequestedRegion": "unspecified",
                    "bedrock:InferenceProfileArn": "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>"
                }
            }
        }
    ]
}

A primeira parte da política concede acesso ao perfil de inferência regional em sua solicitação Região da AWS. A segunda parte fornece acesso ao recurso Regional FM. A terceira parte concede acesso ao recurso FM global, que permite a capacidade de roteamento entre regiões.

Ao implementar essas políticas, certifique-se de que todos os três recursos Amazon Resource Names (ARNs) estejam incluídos em suas declarações do IAM:

O perfil de inferência regional ARN segue o padrão. arn:aws:bedrock:REGION:ACCOUNT:inference-profile/global.MODEL-NAME Isso é usado para dar acesso ao perfil de inferência global na fonte Região da AWS.
O FM regional usaarn:aws:bedrock:REGION::foundation-model/MODEL-NAME. Isso é usado para dar acesso ao FM na fonte Região da AWS.
O FM global exigearn:aws:bedrock:::foundation-model/MODEL-NAME. Isso é usado para dar acesso ao FM em diferentes países Regiões da AWS.

O ARN FM global não tem nenhuma conta Região da AWS ou conta especificada, o que é intencional e necessário para a funcionalidade entre regiões.

Desativar a inferência global entre regiões

Você pode escolher entre duas abordagens principais para implementar políticas de negação no CRIS global para funções específicas do IAM, cada uma com diferentes casos de uso e implicações:

Remover uma política do IAM — O primeiro método envolve a remoção de uma ou mais das três políticas necessárias do IAM das permissões do usuário. Como o CRIS global exige que todas as três políticas funcionem, a remoção de uma política resultará em acesso negado.
Implemente uma política de negação — A segunda abordagem é implementar uma política de negação explícita que vise especificamente os perfis globais de inferência do CRIS. Esse método fornece uma documentação clara de sua intenção de segurança e garante que, mesmo que alguém acidentalmente adicione as políticas de permissão necessárias posteriormente, a negação explícita tenha precedência. A política de negação deve usar uma StringEquals condição que corresponda ao padrão"aws:RequestedRegion": "unspecified". Esse padrão visa especificamente perfis de inferência com o global prefixo.

Ao implementar políticas de negação, é crucial entender que o CRIS global muda a forma como o aws:RequestedRegion campo se comporta. As políticas de negação tradicionais Região da AWS que usam StringEquals condições com Região da AWS nomes específicos, como, não "aws:RequestedRegion": "us-west-2" funcionarão conforme o esperado com o CRIS global porque o serviço define esse campo como sendo o destino Região da AWS real. global No entanto, conforme mencionado anteriormente, "aws:RequestedRegion": "unspecified" resultará no efeito de negação.

Requisitos da política de controle de serviços para inferência global entre regiões

Para inferência global entre regiões, se a política de segurança da sua organização usa SCPs para bloquear regiões não utilizadas, você deve atualizar as condições de SCP específicas da sua região para permitir o acesso com. "aws:RequestedRegion": "unspecified" Essa condição é específica para a inferência global entre regiões do Amazon Bedrock e garante que as solicitações possam ser encaminhadas para todas as regiões comerciais suportadas. AWS

O exemplo a seguir, o SCP bloqueia todas as chamadas de AWS API fora das regiões aprovadas, ao mesmo tempo que permite chamadas de inferência entre regiões globais do Amazon Bedrock que são usadas "unspecified" como região para roteamento global:


{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Sid": "DenyAllOutsideApprovedRegions",
            "Effect": "Deny",
            "Action": "*",
            "Resource": "*",
            "Condition": {
                "StringNotEquals": {
                    "aws:RequestedRegion": [
                        "us-east-1",
                        "us-east-2",
                        "us-west-2",
                        "unspecified"
                    ]
                }
            }
        }
    ]
}

Desativar a inferência global entre regiões

Organizações com requisitos de residência ou conformidade de dados devem avaliar se a inferência global entre regiões se encaixa em sua estrutura de conformidade, já que as solicitações podem ser processadas em outras regiões comerciais compatíveis AWS . Para desativar explicitamente a inferência global entre regiões, implemente a seguinte política de SCP:


{
    "Effect": "Deny",
    "Action": "bedrock:*",
    "Resource": "*",
    "Condition": {
        "StringEquals": {
            "aws:RequestedRegion": "unspecified"
        },
        "ArnLike": {
            "bedrock:InferenceProfileArn": "arn:aws:bedrock:*:*:inference-profile/global.*"
        }
    }
}

Esse SCP nega explicitamente a inferência global entre regiões porque "aws:RequestedRegion" é "unspecified" e a "ArnLike" condição têm como alvo perfis de inferência com o prefixo no ARN. global

AWS Implementação da Control Tower

A edição manual de SCPs gerenciados pela AWS Control Tower é altamente desencorajada, pois pode causar desvios. Em vez disso, use os mecanismos fornecidos pelo Control Tower para gerenciar essas exceções. Os princípios fundamentais envolvem estender os controles de negação de região existentes ou habilitar regiões e, em seguida, aplicar uma política de bloqueio condicional personalizada.

Para obter orientações detalhadas e passo a passo sobre a implementação da inferência entre regiões com o Control Tower, consulte a postagem do blog Habilitar a inferência entre regiões do Amazon Bedrock em ambientes com várias contas. Isso abrange a extensão dos SCPs de negação de região existentes, a habilitação de regiões negadas com SCPs personalizados e o uso do Customizations for Control AWS Tower (cFCT) para implantar SCPs personalizados como infraestrutura como código.

Aumento do limite de solicitações para inferência global entre regiões

Ao usar perfis globais de inferência do CRIS, você pode usar o CRIS global de mais de 20 fontes suportadas. Regiões da AWS Como esse será um limite global, as solicitações para visualizar, gerenciar ou aumentar as cotas para perfis globais de inferência entre regiões devem ser feitas por meio do console Service Quotas ou da Interface de AWS Linha de Comando (AWS CLI) na fonte solicitada. Região da AWS

Conclua as etapas a seguir para solicitar um aumento de limite:

Faça login no console Service Quotas em sua AWS conta.
No painel de navegação, escolha Serviços da AWS .
Na lista de serviços, encontre e escolha Amazon Bedrock.
Na lista de cotas do Amazon Bedrock, use o filtro de pesquisa para encontrar as cotas globais específicas do CRIS. Por exemplo:
- Tokens de inferência do modelo global entre regiões por minuto para o Anthropic Claude Sonnet 4.5 V1
Selecione a cota que você deseja aumentar.
Escolha Solicitar aumento no nível da conta.
Insira o novo valor de cota desejado.
Escolha Solicitar para enviar sua solicitação.

Ao calcular o aumento de cota necessário, lembre-se de levar em consideração a taxa de burndown, definida como a taxa na qual os tokens de entrada e saída são convertidos em uso da cota de tokens para o sistema de limitação. Os modelos a seguir têm uma taxa de queima de 5x para tokens de saída (1 token de saída consome 5 tokens de suas cotas):

Claude Opus 4 antrópico
Soneto Antrópico de Claude 4.5
Soneto antrópico de Claude 4
Soneto antrópico Claude 3.7

Para todos os outros modelos, a taxa de burndown é de 1:1 (um token de saída consome um token da sua cota). Para tokens de entrada, a proporção entre token e cota é de 1:1. O cálculo do número total de tokens por solicitação é o seguinte:

Input token count + Cache write input tokens + (Output token count x Burndown rate)

Use a inferência global entre regiões

Para usar a inferência global entre regiões com o Claude Sonnet 4.5 da Anthropic, os desenvolvedores devem concluir as seguintes etapas principais:

Use o ID do perfil de inferência global — Ao fazer chamadas de API para o Amazon Bedrock, especifique o ID do perfil de inferência Claude Sonnet 4.5 global da Anthropic (global.anthropic.claude-sonnet-4-5-20250929-v1:0) em vez de um ID de modelo específico. Região da AWS
Configure as permissões do IAM — conceda permissões apropriadas do IAM para acessar o perfil de inferência e as FMs no destino potencial. Regiões da AWS

A inferência global entre regiões é compatível com:

On-demand inferência de modelo
Inferência em lote
Agentes
Avaliação de modelos
gerenciamento de prompts
Fluxos imediatos

nota

O perfil de inferência global é compatível com inferência de On-demand modelos, inferência em lote, agentes, avaliação de modelos, gerenciamento de solicitações e fluxos de solicitações.

Implemente a inferência global entre regiões

A implementação da inferência global entre regiões com o Claude Sonnet 4.5 da Anthropic é simples, exigindo apenas algumas alterações no código de seu aplicativo existente. Veja a seguir um exemplo de como atualizar seu código em Python:


import boto3
import json
bedrock = boto3.client('bedrock-runtime', region_name='us-east-1')
model_id = "global.anthropic.claude-sonnet-4-5-20250929-v1:0"  
response = bedrock.converse(
    messages=[{"role": "user", "content": [{"text": "Explain cloud computing in 2 sentences."}]}],
    modelId=model_id,
)

print("Response:", response['output']['message']['content'][0]['text'])
print("Token usage:", response['usage'])
print("Total tokens:", response['usage']['totalTokens'])

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Inferência geográfica entre regiões

Perfis de inferência