As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Inferência global entre regiões
A inferência global entre regiões estende a inferência entre regiões além dos limites geográficos, permitindo o roteamento de solicitações de inferência para empresas comerciais suportadas em todo o Regiões da AWS mundo, otimizando os recursos disponíveis e permitindo maior produtividade do modelo.
Benefícios da inferência global entre regiões
A inferência global entre regiões para o Claude Sonnet 4.5 da Anthropic oferece várias vantagens em relação aos perfis tradicionais de inferência geográfica entre regiões:
-
Rendimento aprimorado durante o pico de demanda — A inferência global entre regiões fornece maior resiliência durante os períodos de pico de demanda ao rotear automaticamente as solicitações para a capacidade disponível. Regiões da AWS Esse roteamento dinâmico acontece perfeitamente, sem configuração ou intervenção adicional dos desenvolvedores. Ao contrário das abordagens tradicionais, que podem exigir um balanceamento complexo de carga do lado do cliente Regiões da AWS, a inferência global entre regiões trata os picos de tráfego automaticamente. Isso é particularmente importante para aplicativos essenciais para os negócios, nos quais o tempo de inatividade ou o desempenho degradado podem ter impactos financeiros ou de reputação significativos.
-
Custo-benefício — A inferência global entre regiões para o Claude Sonnet 4.5 da Anthropic oferece aproximadamente 10% de economia nos preços dos tokens de entrada e saída em comparação com a inferência geográfica entre regiões. O preço é calculado com base no Região da AWS qual a solicitação é feita (fonte Região da AWS). Isso significa que as organizações podem se beneficiar de uma maior resiliência com custos ainda mais baixos. Esse modelo de preços torna a inferência global entre regiões uma solução econômica para organizações que buscam otimizar suas implantações generativas de IA. Ao melhorar a utilização de recursos e permitir maior produtividade sem custos adicionais, ele ajuda as organizações a maximizar o valor de seu investimento no Amazon Bedrock.
-
Monitoramento simplificado — Ao usar a inferência global entre regiões, CloudTrail continue registrando as entradas de registro em sua fonte Região da AWS, simplificando a observabilidade CloudWatch e o gerenciamento. Mesmo que suas solicitações sejam processadas em diferentes partes do Regiões da AWS mundo, você mantém uma visão centralizada dos padrões de desempenho e uso do seu aplicativo por meio de suas ferramentas de AWS monitoramento familiares.
-
Flexibilidade de cota sob demanda — Com a inferência global entre regiões, suas cargas de trabalho não são mais limitadas pela capacidade regional individual. Em vez de ficarem restritas à capacidade disponível em uma área específica Região da AWS, suas solicitações podem ser roteadas dinamicamente pela infraestrutura AWS global. Isso fornece acesso a um conjunto muito maior de recursos, tornando menos complicado lidar com cargas de trabalho de alto volume e picos repentinos de tráfego.
Considerações sobre inferência global entre regiões
Observe as seguintes informações sobre a inferência global entre regiões:
-
Os perfis de inferência globais entre regiões fornecem maior throughput do que um perfil de inferência vinculado a uma determinada área geográfica. Um perfil de inferência vinculado a uma determinada área geográfica oferece maior throughput do que a inferência em uma única região.
-
Para ver as cotas padrão de throughput entre regiões ao usar perfis de inferência globais, consulte os valores em Solicitações de inferência do modelo entre regiões por minuto por ${Model} e Tokens de inferência do modelo entre regiões por minuto por ${Model} em Cotas de serviços do Amazon Bedrock no Guia de referência geral da AWS .
Você pode solicitar, visualizar e gerenciar cotas para o Global Cross-Region Inference Profile a partir do console Service Quotas ou
usando comandos da AWS CLI na sua região de origem.
Requisitos de política do IAM para inferência global entre regiões
Para permitir a inferência global entre regiões para seus usuários, você deve aplicar uma política de IAM em três partes à função. Veja a seguir um exemplo de política do IAM para fornecer controle granular. Você pode substituir <REQUESTING REGION> no exemplo de política pela Região da AWS que você está operando.
{ "Version": "2012-10-17", "Statement": [ { "Sid": "GrantGlobalCrisInferenceProfileRegionAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "<REQUESTING REGION>" } } }, { "Sid": "GrantGlobalCrisInferenceProfileInRegionModelAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:<REQUESTING REGION>::foundation-model/<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "<REQUESTING REGION>", "bedrock:InferenceProfileArn": "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" } } }, { "Sid": "GrantGlobalCrisInferenceProfileGlobalModelAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:::foundation-model/<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "unspecified", "bedrock:InferenceProfileArn": "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" } } } ] }
A primeira parte da política concede acesso ao perfil de inferência regional em sua solicitação Região da AWS. A segunda parte fornece acesso ao recurso Regional FM. A terceira parte concede acesso ao recurso FM global, que permite a capacidade de roteamento entre regiões.
Ao implementar essas políticas, certifique-se de que todos os três recursos Amazon Resource Names (ARNs) estejam incluídos em suas declarações do IAM:
-
O perfil de inferência regional ARN segue o padrão.
arn:aws:bedrock:REGION:ACCOUNT:inference-profile/global.MODEL-NAMEIsso é usado para dar acesso ao perfil de inferência global na fonte Região da AWS. -
O FM regional usa
arn:aws:bedrock:REGION::foundation-model/MODEL-NAME. Isso é usado para dar acesso ao FM na fonte Região da AWS. -
O FM global exige
arn:aws:bedrock:::foundation-model/MODEL-NAME. Isso é usado para dar acesso ao FM em diferentes países Regiões da AWS.
O ARN FM global não tem nenhuma conta Região da AWS ou conta especificada, o que é intencional e necessário para a funcionalidade entre regiões.
Desativar a inferência global entre regiões
Você pode escolher entre duas abordagens principais para implementar políticas de negação no CRIS global para funções específicas do IAM, cada uma com diferentes casos de uso e implicações:
-
Remover uma política do IAM — O primeiro método envolve a remoção de uma ou mais das três políticas necessárias do IAM das permissões do usuário. Como o CRIS global exige que todas as três políticas funcionem, a remoção de uma política resultará em acesso negado.
-
Implemente uma política de negação — A segunda abordagem é implementar uma política de negação explícita que vise especificamente os perfis globais de inferência do CRIS. Esse método fornece uma documentação clara de sua intenção de segurança e garante que, mesmo que alguém acidentalmente adicione as políticas de permissão necessárias posteriormente, a negação explícita tenha precedência. A política de negação deve usar uma
StringEqualscondição que corresponda ao padrão"aws:RequestedRegion": "unspecified". Esse padrão visa especificamente perfis de inferência com oglobalprefixo.
Ao implementar políticas de negação, é crucial entender que o CRIS global muda a forma como o aws:RequestedRegion campo se comporta. As políticas de negação tradicionais Região da AWS que usam StringEquals condições com Região da AWS nomes específicos, como, não "aws:RequestedRegion":
"us-west-2" funcionarão conforme o esperado com o CRIS global porque o serviço define esse campo como sendo o destino Região da AWS real. global No entanto, conforme mencionado anteriormente, "aws:RequestedRegion": "unspecified" resultará no efeito de negação.
Requisitos da política de controle de serviços para inferência global entre regiões
Para inferência global entre regiões, se a política de segurança da sua organização costuma SCPs bloquear regiões não utilizadas, você deve atualizar as condições de SCP específicas da região para permitir o acesso com. "aws:RequestedRegion": "unspecified" Essa condição é específica para a inferência global entre regiões do Amazon Bedrock e garante que as solicitações possam ser encaminhadas para todas as regiões comerciais suportadas. AWS
O exemplo a seguir, o SCP bloqueia todas as chamadas de AWS API fora das regiões aprovadas, ao mesmo tempo que permite chamadas de inferência entre regiões globais do Amazon Bedrock que são usadas "unspecified" como região para roteamento global:
{ "Version": "2012-10-17", "Statement": [ { "Sid": "DenyAllOutsideApprovedRegions", "Effect": "Deny", "Action": "*", "Resource": "*", "Condition": { "StringNotEquals": { "aws:RequestedRegion": [ "us-east-1", "us-east-2", "us-west-2", "unspecified" ] } } } ] }
Desativar a inferência global entre regiões
Organizações com requisitos de residência ou conformidade de dados devem avaliar se a inferência global entre regiões se encaixa em sua estrutura de conformidade, já que as solicitações podem ser processadas em outras regiões comerciais compatíveis AWS . Para desativar explicitamente a inferência global entre regiões, implemente a seguinte política de SCP:
{ "Effect": "Deny", "Action": "bedrock:*", "Resource": "*", "Condition": { "StringEquals": { "aws:RequestedRegion": "unspecified" }, "ArnLike": { "bedrock:InferenceProfileArn": "arn:aws:bedrock:*:*:inference-profile/global.*" } } }
Esse SCP nega explicitamente a inferência global entre regiões porque "aws:RequestedRegion" é "unspecified" e a "ArnLike" condição têm como alvo perfis de inferência com o prefixo no ARN. global
AWS Implementação da Control Tower
A edição manual SCPs gerenciada pelo AWS Control Tower é fortemente desencorajada, pois pode causar desvio. Em vez disso, use os mecanismos fornecidos pelo Control Tower para gerenciar essas exceções. Os princípios fundamentais envolvem estender os controles de negação de região existentes ou habilitar regiões e, em seguida, aplicar uma política de bloqueio condicional personalizada.
Para obter step-by-step orientações detalhadas sobre a implementação da inferência entre regiões com a Control Tower, consulte a postagem do blog Habilite a inferência entre regiões do Amazon Bedrock
Aumento do limite de solicitações para inferência global entre regiões
Ao usar perfis globais de inferência do CRIS, você pode usar o CRIS global de mais de 20 fontes suportadas. Regiões da AWS Como esse será um limite global, as solicitações para visualizar, gerenciar ou aumentar as cotas para perfis globais de inferência entre regiões devem ser feitas por meio do console Service Quotas ou da Interface de AWS Linha de Comando (AWS CLI) na fonte solicitada. Região da AWS
Conclua as etapas a seguir para solicitar um aumento de limite:
-
Faça login no console Service Quotas em sua AWS conta.
-
No painel de navegação, escolha Serviços da AWS .
-
Na lista de serviços, encontre e escolha Amazon Bedrock.
-
Na lista de cotas do Amazon Bedrock, use o filtro de pesquisa para encontrar as cotas globais específicas do CRIS. Por exemplo:
-
Tokens de inferência do modelo global entre regiões por minuto para o Anthropic Claude Sonnet 4.5 V1
-
-
Selecione a cota que você deseja aumentar.
-
Escolha Solicitar aumento no nível da conta.
-
Insira o novo valor de cota desejado.
-
Escolha Solicitar para enviar sua solicitação.
Ao calcular o aumento de cota necessário, lembre-se de levar em consideração a taxa de burndown, definida como a taxa na qual os tokens de entrada e saída são convertidos em uso da cota de tokens para o sistema de limitação. Os modelos a seguir têm uma taxa de queima de 5x para tokens de saída (1 token de saída consome 5 tokens de suas cotas):
-
Claude Opus 4 antrópico
-
Soneto Antrópico de Claude 4.5
-
Soneto antrópico de Claude 4
-
Soneto antrópico Claude 3.7
Para todos os outros modelos, a taxa de burndown é de 1:1 (um token de saída consome um token da sua cota). Para tokens de entrada, a proporção entre token e cota é de 1:1. O cálculo do número total de tokens por solicitação é o seguinte:
Input token count + Cache write input tokens + (Output token count x
Burndown rate)
Use a inferência global entre regiões
Para usar a inferência global entre regiões com o Claude Sonnet 4.5 da Anthropic, os desenvolvedores devem concluir as seguintes etapas principais:
-
Use o ID do perfil de inferência global — Ao fazer chamadas de API para o Amazon Bedrock, especifique o ID do perfil de inferência Claude Sonnet 4.5 global da Anthropic (
global.anthropic.claude-sonnet-4-5-20250929-v1:0) em vez de um ID de modelo específico. Região da AWS -
Configure as permissões do IAM — conceda permissões apropriadas do IAM para acessar o perfil de inferência e FMs o destino Regiões da AWS potencial.
A inferência global entre regiões é compatível com:
-
Inferência de modelo sob demanda
-
Inferência em lote
-
Agentes
-
Avaliação de modelos
-
gerenciamento de prompts
-
Fluxos imediatos
nota
É possível usar o perfil de inferência global para inferência de modelos sob demanda, inferência em lote, agentes, avaliação de modelo, Gerenciamento de Prompts e fluxos de prompts.
Implemente a inferência global entre regiões
A implementação da inferência global entre regiões com o Claude Sonnet 4.5 da Anthropic é simples, exigindo apenas algumas alterações no código de seu aplicativo existente. Veja a seguir um exemplo de como atualizar seu código em Python:
import boto3 import json bedrock = boto3.client('bedrock-runtime', region_name='us-east-1') model_id = "global.anthropic.claude-sonnet-4-5-20250929-v1:0" response = bedrock.converse( messages=[{"role": "user", "content": [{"text": "Explain cloud computing in 2 sentences."}]}], modelId=model_id, ) print("Response:", response['output']['message']['content'][0]['text']) print("Token usage:", response['usage']) print("Total tokens:", response['usage']['totalTokens'])