기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
글로벌 리전 간 추론
글로벌 리전 간 추론은 지리적 경계를 넘어 리전 간 추론을 확장하여 추론 요청을 지원되는 AWS 리전 전 세계 상용으로 라우팅하여 사용 가능한 리소스를 최적화하고 모델 처리량을 높일 수 있습니다.
글로벌 리전 간 추론의 이점
Anthropic의 Claude Sonnet 4.5에 대한 글로벌 리전 간 추론은 기존의 지리적 리전 간 추론 프로파일에 비해 여러 가지 이점을 제공합니다.
-
피크 수요 중 처리량 향상 - 글로벌 리전 간 추론은 사용 가능한 용량으로 요청을 AWS 리전 에 자동으로 라우팅하여 피크 수요 기간 동안 복원력을 개선합니다. 이 동적 라우팅은 개발자의 추가 구성이나 개입 없이 원활하게 수행됩니다. 간에 복잡한 클라이언트 측 로드 밸런싱이 필요할 수 있는 기존 접근 방식과 달리 AWS 리전글로벌 리전 간 추론은 트래픽 급증을 자동으로 처리합니다. 이는 가동 중지 시간이나 성능 저하로 인해 재정적 또는 평판에 상당한 영향을 미칠 수 있는 비즈니스 크리티컬 애플리케이션에 특히 중요합니다.
-
비용 효율성 - Anthropic의 Claude Sonnet 4.5에 대한 글로벌 리전 간 추론은 지리적 리전 간 추론에 비해 입력 및 출력 토큰 요금을 모두 약 10% 절감합니다. 요금은 요청이 이루어진에 따라 계산됩니다(소 AWS 리전 스 AWS 리전). 즉, 조직은 더 낮은 비용으로 복원력을 개선할 수 있습니다. 이 요금 모델은 생성형 AI 배포를 최적화하려는 조직에 글로벌 리전 간 추론을 비용 효율적인 솔루션으로 만듭니다. 리소스 사용률을 개선하고 추가 비용 없이 처리량을 높임으로써 조직은 Amazon Bedrock에 대한 투자 가치를 극대화할 수 있습니다.
-
간소화된 모니터링 - 글로벌 리전 간 추론을 사용하는 경우 CloudWatch 및 CloudTrail은 소스에 로그 항목을 계속 기록하여 관찰성과 관리를 AWS 리전간소화합니다. 요청이 AWS 리전 전 세계 여러 곳에서 처리되더라도 익숙한 AWS 모니터링 도구를 통해 애플리케이션의 성능 및 사용 패턴을 중앙 집중식으로 볼 수 있습니다.
-
온디맨드 할당량 유연성 - 글로벌 리전 간 추론을 사용하면 개별 리전 용량에 따라 워크로드가 더 이상 제한되지 않습니다. 특정에서 사용 가능한 용량으로 제한되는 대신 AWS 전역 인프라에서 요청을 동적으로 라우팅할 수 AWS 리전있습니다. 이렇게 하면 훨씬 더 큰 리소스 풀에 액세스할 수 있으므로 대용량 워크로드와 갑작스러운 트래픽 급증을 덜 복잡하게 처리할 수 있습니다.
글로벌 리전 간 추론 고려 사항
글로벌 리전 간 추론에 대한 다음 정보를 참고하세요.
-
글로벌 교차 리전 추론 프로파일은 특정 리전에 연결된 추론 프로필보다 높은 처리량을 제공합니다. 특정 지리에 연결된 추론 프로파일은 단일 리전 추론보다 높은 처리량을 제공합니다.
-
글로벌 추론 프로파일을 사용할 때 교차 리전 처리량에 대한 기본 할당량을 보려면 AWS 일반 참조의 Amazon Bedrock 서비스 할당량에서 ${Model}에 대한 분당 글로벌 교차 리전 모델 추론 요청 및 ${Model} 값에 대한 분당 글로벌 교차 리전 모델 추론 토큰을 참조하세요.
Service Quotas 콘솔
에서 또는 소스 리전의 AWS CLI 명령을 사용하여 글로벌 리전 간 추론 프로파일에 대한 할당량을 요청, 확인 및 관리할 수 있습니다.
글로벌 리전 간 추론을 위한 IAM 정책 요구 사항
사용자에 대해 글로벌 리전 간 추론을 활성화하려면 역할에 세 부분으로 구성된 IAM 정책을 적용해야 합니다. 다음은 세분화된 제어를 제공하는 IAM 정책의 예입니다. 예제 정책의 <REQUESTING REGION>를 운영 중인 로 바꿀 수 AWS 리전 있습니다.
{ "Version": "2012-10-17", "Statement": [ { "Sid": "GrantGlobalCrisInferenceProfileRegionAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "<REQUESTING REGION>" } } }, { "Sid": "GrantGlobalCrisInferenceProfileInRegionModelAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:<REQUESTING REGION>::foundation-model/<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "<REQUESTING REGION>", "bedrock:InferenceProfileArn": "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" } } }, { "Sid": "GrantGlobalCrisInferenceProfileGlobalModelAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:::foundation-model/<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "unspecified", "bedrock:InferenceProfileArn": "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" } } } ] }
정책의 첫 번째 부분은 요청의 리전 추론 프로파일에 대한 액세스 권한을 부여합니다 AWS 리전. 두 번째 부분에서는 리전 FM 리소스에 대한 액세스를 제공합니다. 세 번째 부분은 리전 간 라우팅 기능을 활성화하는 글로벌 FM 리소스에 대한 액세스 권한을 부여합니다.
이러한 정책을 구현할 때 세 가지 리소스 Amazon 리소스 이름(ARNs)이 모두 IAM 문에 포함되어 있는지 확인합니다.
-
리전 추론 프로필 ARN은 패턴을 따릅니다
arn:aws:bedrock:REGION:ACCOUNT:inference-profile/global.MODEL-NAME. 이는 소스의 글로벌 추론 프로파일에 대한 액세스 권한을 부여하는 데 사용됩니다 AWS 리전. -
리전 FM은를 사용합니다
arn:aws:bedrock:REGION::foundation-model/MODEL-NAME. 이는 소스의 FM에 대한 액세스 권한을 부여하는 데 사용됩니다 AWS 리전. -
글로벌 FM에는가 필요합니다
arn:aws:bedrock:::foundation-model/MODEL-NAME. 이는 서로 다른 글로벌에서 FM에 대한 액세스 권한을 부여하는 데 사용됩니다 AWS 리전.
글로벌 FM ARN에는 AWS 리전 또는 계정이 지정되어 있지 않으며, 이는 의도적이고 리전 간 기능에 필요합니다.
글로벌 리전 간 추론 비활성화
두 가지 기본 접근 방식 중에서 선택하여 특정 IAM 역할에 대해 글로벌 CRIS에 거부 정책을 구현할 수 있으며, 각각 사용 사례와 영향이 다릅니다.
-
IAM 정책 제거 - 첫 번째 방법은 사용자 권한에서 세 가지 필수 IAM 정책 중 하나 이상을 제거하는 것입니다. 글로벌 CRIS는 세 정책이 모두 작동해야 하므로 정책을 제거하면 액세스가 거부됩니다.
-
거부 정책 구현 - 두 번째 접근 방식은 글로벌 CRIS 추론 프로파일을 특별히 대상으로 하는 명시적 거부 정책을 구현하는 것입니다. 이 방법은 보안 의도를 명확하게 문서화하고 누군가 실수로 나중에 필요한 허용 정책을 추가하더라도 명시적 거부가 우선하도록 합니다. 거부 정책은 패턴과 일치하는
StringEquals조건을 사용해야 합니다"aws:RequestedRegion": "unspecified". 이 패턴은global특히 접두사가 있는 추론 프로파일을 대상으로 합니다.
거부 정책을 구현할 때는 글로벌 CRIS가 aws:RequestedRegion 필드의 동작 방식을 변경한다는 점을 이해하는 것이 중요합니다. 서비스가이 필드를 실제 대상이 global 아닌 로 설정하기 때문에와 같은 특정 AWS 리전 이름의 StringEquals 조건을 사용하는 기존 AWS 리전기반 거부 정책은 글로벌 CRIS에서 예상대로 작동하지 "aws:RequestedRegion": "us-west-2" 않습니다 AWS 리전. 그러나 앞서 언급했듯이 "aws:RequestedRegion": "unspecified"는 거부 효과를 초래합니다.
글로벌 리전 간 추론에 대한 서비스 제어 정책 요구 사항
글로벌 리전 간 추론의 경우 조직의 보안 정책이 SCPs 사용하여 미사용 리전을 차단하는 경우를 사용하여 액세스를 허용하도록 리전별 SCP 조건을 업데이트해야 합니다"aws:RequestedRegion": "unspecified". 이 조건은 Amazon Bedrock Global 리전 간 추론에만 적용되며 지원되는 모든 AWS 상용 리전으로 요청을 라우팅할 수 있도록 합니다.
다음 예제 SCP는 글로벌 라우팅을 위한 리전"unspecified"으로를 사용하는 Amazon Bedrock Global 리전 간 추론 호출을 허용하면서 승인된 리전 외부의 모든 AWS API 호출을 차단합니다.
{ "Version": "2012-10-17", "Statement": [ { "Sid": "DenyAllOutsideApprovedRegions", "Effect": "Deny", "Action": "*", "Resource": "*", "Condition": { "StringNotEquals": { "aws:RequestedRegion": [ "us-east-1", "us-east-2", "us-west-2", "unspecified" ] } } } ] }
글로벌 리전 간 추론 비활성화
요청이 지원되는 다른 AWS 상용 리전에서 처리될 수 있으므로 데이터 레지던시 또는 규정 준수 요구 사항이 있는 조직은 글로벌 리전 간 추론이 규정 준수 프레임워크에 적합한지 평가해야 합니다. 글로벌 리전 간 추론을 명시적으로 비활성화하려면 다음 SCP 정책을 구현합니다.
{ "Effect": "Deny", "Action": "bedrock:*", "Resource": "*", "Condition": { "StringEquals": { "aws:RequestedRegion": "unspecified" }, "ArnLike": { "bedrock:InferenceProfileArn": "arn:aws:bedrock:*:*:inference-profile/global.*" } } }
이 SCP는 "aws:RequestedRegion"가 "unspecified"이고 "ArnLike" 조건이 ARN에 global 접두사가 있는 추론 프로파일을 대상으로 하기 때문에 글로벌 리전 간 추론을 명시적으로 거부합니다.
AWS Control Tower 구현
AWS Control Tower에서 관리하는 SCPs 수동으로 편집하면 드리프트가 발생할 수 있으므로 사용하지 않는 것이 좋습니다. 대신 Control Tower에서 제공하는 메커니즘을 사용하여 이러한 예외를 관리합니다. 핵심 원칙에는 기존 리전 거부 제어를 확장하거나 리전을 활성화한 다음 사용자 지정 조건부 차단 정책을 적용하는 것이 포함됩니다.
Control Tower를 사용하여 교차 리전 추론을 구현하는 방법에 대한 자세한 step-by-step 지침은 블로그 게시물 다중 계정 환경에서 Amazon Bedrock 교차 리전 추론 활성화를
글로벌 리전 간 추론에 대한 요청 한도 증가
글로벌 CRIS 추론 프로파일을 사용하는 경우 지원되는 20개 이상의 소스에서 글로벌 CRIS를 사용할 수 있습니다 AWS 리전. 이는 전역 한도이므로 전역 리전 간 추론 프로파일에 대한 할당량 보기, 관리 또는 증가 요청은 요청된 소스의 Service Quotas 콘솔 또는 AWS 명령줄 인터페이스(AWS CLI)를 통해 이루어져야 합니다 AWS 리전.
한도 증가를 요청하려면 다음 단계를 완료하세요.
-
AWS 계정의 Service Quotas 콘솔에 로그인합니다.
-
탐색 창에서 AWS 서비스를 선택합니다.
-
서비스 목록에서 Amazon Bedrock을 찾아 선택합니다.
-
Amazon Bedrock의 할당량 목록에서 검색 필터를 사용하여 특정 글로벌 CRIS 할당량을 찾습니다. 예제:
-
Anthropic Claude Sonnet 4.5 V1에 대한 분당 글로벌 리전 간 모델 추론 토큰
-
-
늘리려는 할당량을 선택합니다.
-
계정 수준에서 증가 요청을 선택합니다.
-
원하는 새 할당량 값을 입력합니다.
-
요청을 선택하여 요청을 제출합니다.
필요한 할당량 증가를 계산할 때는 입력 및 출력 토큰이 제한 시스템의 토큰 할당량 사용량으로 변환되는 속도로 정의되는 연소율을 고려해야 합니다. 다음 모델은 출력 토큰의 연소율이 5배입니다(출력 토큰 1개는 할당량에서 토큰 5개를 사용함).
-
Anthropic Claude Opus 4
-
Anthropic Claude Sonnet 4.5
-
Anthropic Claude Sonnet 4
-
Anthropic Claude 3.7 Sonnet
다른 모든 모델의 경우 연소율은 1:1입니다(출력 토큰 1개는 할당량에서 토큰 1개를 사용함). 입력 토큰의 경우 토큰 대 할당량 비율은 1:1입니다. 요청당 총 토큰 수 계산은 다음과 같습니다.
Input token count + Cache write input tokens + (Output token count x
Burndown rate)
글로벌 리전 간 추론 사용
Anthropic의 Claude Sonnet 4.5에서 글로벌 리전 간 추론을 사용하려면 개발자가 다음 주요 단계를 완료해야 합니다.
-
글로벌 추론 프로파일 ID 사용 - Amazon Bedrock에 API를 호출할 때 AWS 리전특정 모델 ID 대신 글로벌 Anthropic의 Claude Sonnet 4.5 추론 프로파일 ID(
global.anthropic.claude-sonnet-4-5-20250929-v1:0)를 지정합니다. -
IAM 권한 구성 - 잠재적 대상의 추론 프로파일 및 FMs에 액세스할 수 있는 적절한 IAM 권한을 부여합니다 AWS 리전.
글로벌 리전 간 추론은 다음에 대해 지원됩니다.
-
온디맨드 모델 추론
-
배치 추론
-
에이전트
-
모델 평가
-
프롬프트 관리
-
프롬프트 흐름
참고
글로벌 추론 프로파일은 온디맨드 모델 추론, 배치 추론, 에이전트, 모델 평가, 프롬프트 관리 및 프롬프트 흐름에 대해 지원됩니다.
글로벌 리전 간 추론 구현
Anthropic의 Claude Sonnet 4.5를 사용하여 글로벌 리전 간 추론을 구현하는 것은 간단하므로 기존 애플리케이션 코드를 몇 번만 변경하면 됩니다. 다음은 Python에서 코드를 업데이트하는 방법의 예입니다.
import boto3 import json bedrock = boto3.client('bedrock-runtime', region_name='us-east-1') model_id = "global.anthropic.claude-sonnet-4-5-20250929-v1:0" response = bedrock.converse( messages=[{"role": "user", "content": [{"text": "Explain cloud computing in 2 sentences."}]}], modelId=model_id, ) print("Response:", response['output']['message']['content'][0]['text']) print("Token usage:", response['usage']) print("Total tokens:", response['usage']['totalTokens'])