View a markdown version of this page

Inferensi lintas wilayah global - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Inferensi lintas wilayah global

Inferensi lintas wilayah global memperluas inferensi lintas wilayah di luar batas geografis, memungkinkan perutean permintaan inferensi untuk mendukung komersial di Wilayah AWS seluruh dunia, mengoptimalkan sumber daya yang tersedia dan memungkinkan throughput model yang lebih tinggi.

Manfaat inferensi lintas wilayah global

Inferensi lintas wilayah global untuk Claude Sonnet 4.5 Anthropic memberikan beberapa keunggulan dibandingkan profil inferensi lintas wilayah geografis tradisional:

  • Peningkatan throughput selama permintaan puncak — Inferensi lintas wilayah global memberikan peningkatan ketahanan selama periode permintaan puncak dengan secara otomatis merutekan permintaan dengan kapasitas yang tersedia. Wilayah AWS Perutean dinamis ini terjadi dengan mulus tanpa konfigurasi atau intervensi tambahan dari pengembang. Tidak seperti pendekatan tradisional yang mungkin memerlukan penyeimbangan beban sisi klien yang kompleks Wilayah AWS, inferensi lintas wilayah global menangani lonjakan lalu lintas secara otomatis. Hal ini sangat penting untuk aplikasi bisnis kritis di mana downtime atau kinerja yang menurun dapat memiliki dampak keuangan atau reputasi yang signifikan.

  • Efisiensi biaya — Inferensi Lintas wilayah Global untuk Claude Sonnet 4.5 Anthropic menawarkan penghematan sekitar 10% untuk harga token input dan output dibandingkan dengan inferensi lintas wilayah geografis. Harga dihitung berdasarkan Wilayah AWS dari mana permintaan dibuat (sumber Wilayah AWS). Ini berarti organisasi dapat memperoleh manfaat dari peningkatan ketahanan dengan biaya yang lebih rendah. Model penetapan harga ini menjadikan inferensi lintas wilayah global sebagai solusi hemat biaya bagi organisasi yang ingin mengoptimalkan penerapan AI generatif mereka. Dengan meningkatkan pemanfaatan sumber daya dan memungkinkan throughput yang lebih tinggi tanpa biaya tambahan, ini membantu organisasi memaksimalkan nilai investasi mereka di Amazon Bedrock.

  • Pemantauan yang efisien — Saat menggunakan inferensi lintas wilayah global, CloudWatch dan CloudTrail terus merekam entri log di sumber Anda Wilayah AWS, menyederhanakan pengamatan dan pengelolaan. Meskipun permintaan Anda diproses di berbagai Wilayah AWS dunia, Anda mempertahankan tampilan terpusat dari kinerja dan pola penggunaan aplikasi Anda melalui alat AWS pemantauan yang Anda kenal.

  • Fleksibilitas kuota sesuai permintaan — Dengan inferensi lintas wilayah global, beban kerja Anda tidak lagi dibatasi oleh kapasitas Regional individu. Alih-alih dibatasi pada kapasitas yang tersedia secara spesifik Wilayah AWS, permintaan Anda dapat diarahkan secara dinamis di seluruh infrastruktur AWS global. Ini menyediakan akses ke kumpulan sumber daya yang jauh lebih besar, membuatnya lebih mudah untuk menangani beban kerja volume tinggi dan lonjakan lalu lintas yang tiba-tiba.

Pertimbangan inferensi lintas wilayah global

Perhatikan informasi berikut tentang inferensi Global Cross-region:

  • Profil inferensi Lintas Wilayah Global memberikan throughput yang lebih tinggi daripada profil inferensi yang terkait dengan geografi tertentu. Profil inferensi yang terkait dengan geografi tertentu menawarkan throughput yang lebih tinggi daripada inferensi wilayah tunggal.

  • Untuk melihat kuota default untuk throughput Lintas wilayah saat menggunakan profil inferensi Global, lihat permintaan inferensi model Lintas wilayah Global per menit untuk $ {Model} dan token inferensi model Lintas wilayah Global per menit untuk nilai $ {Model} dalam kuota layanan Amazon Bedrock di Referensi Umum.AWS

    Anda dapat meminta, melihat, dan mengelola kuota untuk Profil Inferensi Lintas Wilayah Global dari konsol Service Quotas atau dengan menggunakan perintah AWS CLI di wilayah sumber Anda.

Persyaratan kebijakan IAM untuk inferensi lintas wilayah global

Untuk mengaktifkan inferensi lintas wilayah global bagi pengguna Anda, Anda harus menerapkan kebijakan IAM tiga bagian ke peran tersebut. Berikut ini adalah contoh kebijakan IAM untuk memberikan kontrol granular. Anda dapat mengganti <REQUESTING REGION> dalam contoh kebijakan dengan tempat Wilayah AWS Anda beroperasi.

{ "Version": "2012-10-17", "Statement": [ { "Sid": "GrantGlobalCrisInferenceProfileRegionAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "<REQUESTING REGION>" } } }, { "Sid": "GrantGlobalCrisInferenceProfileInRegionModelAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:<REQUESTING REGION>::foundation-model/<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "<REQUESTING REGION>", "bedrock:InferenceProfileArn": "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" } } }, { "Sid": "GrantGlobalCrisInferenceProfileGlobalModelAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:::foundation-model/<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "unspecified", "bedrock:InferenceProfileArn": "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" } } } ] }

Bagian pertama dari kebijakan memberikan akses ke profil inferensi Regional dalam permintaan Anda. Wilayah AWS Bagian kedua menyediakan akses ke sumber daya FM Regional. Bagian ketiga memberikan akses ke sumber daya FM global, yang memungkinkan kemampuan perutean lintas wilayah.

Saat menerapkan kebijakan ini, pastikan ketiga sumber daya Amazon Resource Names (ARNs) disertakan dalam pernyataan IAM Anda:

  • Profil inferensi Regional ARN mengikuti pola. arn:aws:bedrock:REGION:ACCOUNT:inference-profile/global.MODEL-NAME Ini digunakan untuk memberikan akses ke profil inferensi global di sumbernya Wilayah AWS.

  • FM Regional menggunakanarn:aws:bedrock:REGION::foundation-model/MODEL-NAME. Ini digunakan untuk memberikan akses ke FM di sumbernya Wilayah AWS.

  • FM global membutuhkanarn:aws:bedrock:::foundation-model/MODEL-NAME. Ini digunakan untuk memberikan akses ke FM di berbagai global Wilayah AWS.

FM ARN global tidak memiliki Wilayah AWS atau akun yang ditentukan, yang disengaja dan diperlukan untuk fungsionalitas Lintas wilayah.

Nonaktifkan inferensi lintas wilayah global

Anda dapat memilih dari dua pendekatan utama untuk menerapkan kebijakan penolakan ke CRIS global untuk peran IAM tertentu, masing-masing dengan kasus penggunaan dan implikasi yang berbeda:

  • Menghapus kebijakan IAM — Metode pertama melibatkan penghapusan satu atau lebih dari tiga kebijakan IAM yang diperlukan dari izin pengguna. Karena CRIS global mengharuskan ketiga kebijakan berfungsi, menghapus kebijakan akan mengakibatkan akses ditolak.

  • Menerapkan kebijakan penolakan — Pendekatan kedua adalah menerapkan kebijakan penolakan eksplisit yang secara khusus menargetkan profil inferensi CRIS global. Metode ini memberikan dokumentasi yang jelas tentang maksud keamanan Anda dan memastikan bahwa meskipun seseorang secara tidak sengaja menambahkan kebijakan izin yang diperlukan nanti, penolakan eksplisit akan diutamakan. Kebijakan penolakan harus menggunakan StringEquals kondisi yang cocok dengan pola"aws:RequestedRegion": "unspecified". Pola ini secara khusus menargetkan profil inferensi dengan global awalan.

Saat menerapkan kebijakan penolakan, penting untuk memahami bahwa CRIS global mengubah cara aws:RequestedRegion lapangan berperilaku. Kebijakan Wilayah AWS penolakan berbasis tradisional yang menggunakan StringEquals kondisi dengan Wilayah AWS nama tertentu seperti tidak "aws:RequestedRegion": "us-west-2" akan berfungsi seperti yang diharapkan dengan CRIS global karena layanan menetapkan bidang ini global daripada tujuan Wilayah AWS sebenarnya. Namun, seperti yang disebutkan sebelumnya, "aws:RequestedRegion": "unspecified" akan menghasilkan efek penolakan.

Persyaratan Kebijakan Kontrol Layanan untuk inferensi Lintas wilayah Global

Untuk inferensi Global Lintas wilayah, jika kebijakan keamanan organisasi Anda digunakan SCPs untuk memblokir Wilayah yang tidak digunakan, Anda harus memperbarui kondisi SCP khusus wilayah Anda untuk mengizinkan akses. "aws:RequestedRegion": "unspecified" Kondisi ini khusus untuk inferensi Amazon Bedrock Global Cross-region dan memastikan bahwa permintaan dapat dialihkan ke semua Wilayah komersial yang didukung. AWS

Contoh SCP berikut memblokir semua panggilan AWS API di luar Wilayah yang disetujui sambil mengizinkan panggilan inferensi Amazon Bedrock Global Cross-region yang digunakan "unspecified" sebagai Region untuk perutean global:

{ "Version": "2012-10-17", "Statement": [ { "Sid": "DenyAllOutsideApprovedRegions", "Effect": "Deny", "Action": "*", "Resource": "*", "Condition": { "StringNotEquals": { "aws:RequestedRegion": [ "us-east-1", "us-east-2", "us-west-2", "unspecified" ] } } } ] }

Nonaktifkan inferensi lintas wilayah global

Organizations dengan residensi data atau persyaratan kepatuhan harus menilai apakah inferensi Lintas Wilayah Global sesuai dengan kerangka kepatuhan mereka, karena permintaan dapat diproses di Wilayah komersial lain yang didukung AWS . Untuk menonaktifkan inferensi Global Cross-region secara eksplisit, terapkan kebijakan SCP berikut:

{ "Effect": "Deny", "Action": "bedrock:*", "Resource": "*", "Condition": { "StringEquals": { "aws:RequestedRegion": "unspecified" }, "ArnLike": { "bedrock:InferenceProfileArn": "arn:aws:bedrock:*:*:inference-profile/global.*" } } }

SCP ini secara eksplisit menyangkal inferensi Lintas wilayah Global karena "aws:RequestedRegion" is "unspecified" dan "ArnLike" kondisi menargetkan profil inferensi dengan awalan di ARN. global

AWS Implementasi Control Tower

Pengeditan manual yang SCPs dikelola oleh AWS Control Tower sangat tidak disarankan karena dapat menyebabkan penyimpangan. Sebaliknya, gunakan mekanisme yang disediakan oleh Control Tower untuk mengelola pengecualian ini. Prinsip-prinsip inti melibatkan perluasan kontrol penolakan wilayah yang ada atau mengaktifkan wilayah dan kemudian menerapkan kebijakan pemblokiran bersyarat khusus.

Untuk step-by-step panduan terperinci tentang penerapan inferensi Lintas wilayah dengan Control Tower, lihat posting blog Aktifkan inferensi Amazon Bedrock Cross-region di lingkungan multi-akun. Ini mencakup perluasan penolakan Wilayah yang ada SCPs, mengaktifkan wilayah yang ditolak dengan kustom SCPs, dan menggunakan Kustomisasi untuk AWS Control Tower (CFCT) untuk menerapkan kustom sebagai infrastruktur sebagai kode. SCPs

Batas permintaan meningkat untuk inferensi lintas wilayah global

Saat menggunakan profil inferensi CRIS global, Anda dapat menggunakan CRIS global dari lebih dari 20 sumber yang didukung. Wilayah AWS Karena ini akan menjadi batas global, permintaan untuk melihat, mengelola, atau meningkatkan kuota untuk profil inferensi lintas wilayah global harus dilakukan melalui konsol Service Quotas atau Command AWS Line Interface (AWS CLI) di sumber yang diminta. Wilayah AWS

Selesaikan langkah-langkah berikut untuk meminta kenaikan batas:

  1. Masuk ke konsol Service Quotas di akun Anda AWS .

  2. Di panel navigasi, pilih Layanan AWS .

  3. Dari daftar layanan, temukan dan pilih Amazon Bedrock.

  4. Dalam daftar kuota untuk Amazon Bedrock, gunakan filter pencarian untuk menemukan kuota CRIS global tertentu. Contoh:

    • Token inferensi model lintas wilayah global per menit untuk Anthropic Claude Sonnet 4.5 V1

  5. Pilih kuota yang ingin Anda tingkatkan.

  6. Pilih Permintaan peningkatan di tingkat akun.

  7. Masukkan nilai kuota baru yang Anda inginkan.

  8. Pilih Permintaan untuk mengirimkan permintaan Anda.

Saat menghitung kenaikan kuota yang diperlukan, ingatlah untuk memperhitungkan tingkat burndown, yang didefinisikan sebagai tingkat di mana token input dan output diubah menjadi penggunaan kuota token untuk sistem throttling. Model berikut memiliki tingkat pembakaran 5x untuk token keluaran (1 token keluaran mengkonsumsi 5 token dari kuota Anda):

  • Antropik Claude Opus 4

  • Antropik Claude Soneta 4.5

  • Antropik Claude Soneta 4

  • Antropik Claude 3.7 Soneta

Untuk semua model lainnya, tingkat burndown adalah 1:1 (1 token keluaran mengkonsumsi 1 token dari kuota Anda). Untuk token masukan, rasio token terhadap kuota adalah 1:1. Perhitungan jumlah token per permintaan adalah sebagai berikut:

Input token count + Cache write input tokens + (Output token count x Burndown rate)

Gunakan inferensi Lintas Wilayah Global

Untuk menggunakan inferensi lintas wilayah global dengan Claude Sonnet 4.5 dari Anthropic, pengembang harus menyelesaikan langkah-langkah kunci berikut:

  • Gunakan ID profil inferensi global — Saat melakukan panggilan API ke Amazon Bedrock, tentukan ID profil inferensi Claude Sonnet 4.5 Anthropic global (global.anthropic.claude-sonnet-4-5-20250929-v1:0) alih-alih ID model khusus. Wilayah AWS

  • Konfigurasikan izin IAM — Berikan izin IAM yang sesuai untuk mengakses profil inferensi dan di tujuan potensial. FMs Wilayah AWS

Inferensi lintas wilayah global didukung untuk:

  • Inferensi model sesuai permintaan

  • Inferensi Batch

  • Agen

  • Evaluasi model

  • Manajemen yang cepat

  • Alur cepat

catatan

Profil inferensi global didukung untuk inferensi model sesuai permintaan, inferensi Batch, Agen, evaluasi Model, manajemen Prompt, dan aliran Prompt.

Menerapkan inferensi lintas wilayah global

Menerapkan inferensi Lintas wilayah global dengan Claude Sonnet 4.5 Anthropic sangat mudah, hanya memerlukan beberapa perubahan pada kode aplikasi Anda yang ada. Berikut ini adalah contoh cara memperbarui kode Anda dengan Python:

import boto3 import json bedrock = boto3.client('bedrock-runtime', region_name='us-east-1') model_id = "global.anthropic.claude-sonnet-4-5-20250929-v1:0" response = bedrock.converse( messages=[{"role": "user", "content": [{"text": "Explain cloud computing in 2 sentences."}]}], modelId=model_id, ) print("Response:", response['output']['message']['content'][0]['text']) print("Token usage:", response['usage']) print("Total tokens:", response['usage']['totalTokens'])