View a markdown version of this page

Perbaikan otomatis GPU untuk instans terkelola Amazon ECS - Amazon Elastic Container Service

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Perbaikan otomatis GPU untuk instans terkelola Amazon ECS

Amazon ECS memantau kesehatan GPU NVIDIA di Instans Terkelola Amazon ECS yang menggunakan perangkat keras GPU. Saat Amazon ECS mendeteksi kegagalan perangkat keras GPU, Amazon dapat secara otomatis mengganti instans yang rusak. Perbaikan otomatis GPU diaktifkan secara default untuk Instans Terkelola Amazon ECS.

Cara kerjanya

Amazon ECS menggunakan NVIDIA Data Center GPU Manager (DCGM) untuk memantau kesehatan GPU NVIDIA pada instans terkelola yang memiliki perangkat keras GPU. Ketika DCGM melaporkan kegagalan GPU kritis, Amazon ECS menandai instans sebagai terganggu.

Saat perbaikan otomatis GPU diaktifkan, Amazon ECS mengganti instans yang mengalami gangguan dengan menggunakan alur kerja start-before-stop:

  1. Amazon ECS menetapkan instans yang rusak ke DRAINING. Tugas baru tidak ditempatkan pada instance.

  2. Amazon ECS menyediakan instans pengganti.

  3. Amazon ECS memungkinkan tugas yang ada berhenti dengan anggun. Amazon ECS menghormati batas waktu berhenti tugas untuk tugas di instans.

  4. Setelah periode pembuangan berakhir, Amazon ECS menghentikan instans yang rusak.

Amazon ECS membatasi tindakan perbaikan untuk mencegah penggantian cascading. Tidak lebih dari 20% dari instans milik penyedia kapasitas dapat dikeringkan pada suatu waktu. Jika ada kurang dari 9 contoh dalam penyedia kapasitas, paling banyak satu contoh terkuras pada satu waktu.

Memantau kesehatan GPU

Anda dapat menggunakan DescribeContainerInstances API untuk memeriksa kesehatan GPU. Untuk informasi selengkapnya, lihat Pantau kesehatan instans wadah Amazon ECS. Anda juga dapat memantau perubahan kesehatan GPU melalui. Acara perubahan kesehatan instans penampung Amazon ECS

Kode kesalahan XID yang dipantau

Amazon ECS memonitor kode kesalahan NVIDIA Xid berikut. Jika Amazon ECS mendeteksi salah satu kesalahan ini, itu menandai instance sebagai terganggu dan menggantikan instance.

Xid Deskripsi

46

GPU berhenti memproses

48

Kesalahan ECC Bit Ganda

54

Konektor daya bantu tidak terhubung

62

Pengontrol mikro internal berhenti

64

Kegagalan pemetaan ulang memori GPU

74

Kesalahan NVLink

79

GPU telah jatuh dari bus

95

Kesalahan memori yang tidak terkendali

109

Batas waktu sakelar konteks

110

GPU menghilang dari bus

136

Batas pensiun halaman memori GPU terlampaui

140

Kesalahan ECC yang Tidak Dapat Dipulihkan

142

Halaman memori GPU pensiun karena kesalahan yang tidak dapat diperbaiki

143

Halaman memori GPU pensiun karena ambang kesalahan yang dapat diperbaiki

151

Kesalahan interkoneksi GPU ke CPU

155

Kesalahan GPU NVLink flit CRC

156

Kesalahan jalur GPU NVLink

158

GPU InfoRom rusak

Untuk informasi selengkapnya tentang kesalahan XID, lihat Kesalahan Xid di Deployment GPU NVIDIA dan Dokumentasi Manajemen. Untuk informasi selengkapnya tentang pesan XID individual, lihat Memahami Pesan Xid di Dokumentasi Penerapan dan Manajemen GPU NVIDIA.

Menonaktifkan perbaikan otomatis

Perbaikan otomatis GPU diaktifkan secara default untuk Instans Terkelola Amazon ECS. Untuk menonaktifkan perbaikan otomatis GPU, atur actionsStatus ke DISABLED dalam autoRepairConfiguration saat Anda membuat atau memperbarui penyedia kapasitas. Anda juga dapat menonaktifkan perbaikan otomatis GPU di konsol Amazon ECS saat Anda membuat atau memperbarui penyedia kapasitas.

Ketika perbaikan otomatis GPU dinonaktifkan, Amazon ECS terus memantau kesehatan GPU, tetapi tidak menggantikan instans yang rusak secara otomatis.

catatan

Menonaktifkan perbaikan otomatis GPU juga menonaktifkan perbaikan otomatis Amazon ECS Managed Daemons. Untuk informasi selengkapnya, lihat Amazon ECS Managed Daemons auto repair.

Untuk menonaktifkan perbaikan auto GPU

aws ecs update-capacity-provider \ --name my-gpu-capacity-provider \ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "DISABLED" } }'

Untuk mengaktifkan perbaikan auto GPU

aws ecs update-capacity-provider \ --name my-gpu-capacity-provider \ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "ENABLED" } }'

Untuk memverifikasi konfigurasi

aws ecs describe-capacity-providers \ --capacity-providers my-gpu-capacity-provider