Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Perbaikan otomatis GPU untuk instans terkelola Amazon ECS
Amazon ECS memantau kesehatan GPU NVIDIA di Instans Terkelola Amazon ECS yang menggunakan perangkat keras GPU. Saat Amazon ECS mendeteksi kegagalan perangkat keras GPU, Amazon dapat secara otomatis mengganti instans yang rusak. Perbaikan otomatis GPU diaktifkan secara default untuk Instans Terkelola Amazon ECS.
Cara kerjanya
Amazon ECS menggunakan NVIDIA Data Center GPU Manager (DCGM) untuk memantau kesehatan GPU NVIDIA pada instans terkelola yang memiliki perangkat keras GPU. Ketika DCGM melaporkan kegagalan GPU kritis, Amazon ECS menandai instans sebagai terganggu.
Saat perbaikan otomatis GPU diaktifkan, Amazon ECS mengganti instans yang mengalami gangguan dengan menggunakan alur kerja start-before-stop:
-
Amazon ECS menetapkan instans yang rusak ke DRAINING. Tugas baru tidak ditempatkan pada instance.
-
Amazon ECS menyediakan instans pengganti.
-
Amazon ECS memungkinkan tugas yang ada berhenti dengan anggun. Amazon ECS menghormati batas waktu berhenti tugas untuk tugas di instans.
-
Setelah periode pembuangan berakhir, Amazon ECS menghentikan instans yang rusak.
Amazon ECS membatasi tindakan perbaikan untuk mencegah penggantian cascading. Tidak lebih dari 20% dari instans milik penyedia kapasitas dapat dikeringkan pada suatu waktu. Jika ada kurang dari 9 contoh dalam penyedia kapasitas, paling banyak satu contoh terkuras pada satu waktu.
Memantau kesehatan GPU
Anda dapat menggunakan DescribeContainerInstances API untuk memeriksa kesehatan GPU. Untuk informasi selengkapnya, lihat Pantau kesehatan instans wadah Amazon ECS. Anda juga dapat memantau perubahan kesehatan GPU melalui. Acara perubahan kesehatan instans penampung Amazon ECS
Kode kesalahan XID yang dipantau
Amazon ECS memonitor kode kesalahan NVIDIA Xid berikut. Jika Amazon ECS mendeteksi salah satu kesalahan ini, itu menandai instance sebagai terganggu dan menggantikan instance.
| Xid | Deskripsi |
|---|---|
46 |
GPU berhenti memproses |
48 |
Kesalahan ECC Bit Ganda |
54 |
Konektor daya bantu tidak terhubung |
62 |
Pengontrol mikro internal berhenti |
64 |
Kegagalan pemetaan ulang memori GPU |
74 |
Kesalahan NVLink |
79 |
GPU telah jatuh dari bus |
95 |
Kesalahan memori yang tidak terkendali |
109 |
Batas waktu sakelar konteks |
110 |
GPU menghilang dari bus |
136 |
Batas pensiun halaman memori GPU terlampaui |
140 |
Kesalahan ECC yang Tidak Dapat Dipulihkan |
142 |
Halaman memori GPU pensiun karena kesalahan yang tidak dapat diperbaiki |
143 |
Halaman memori GPU pensiun karena ambang kesalahan yang dapat diperbaiki |
151 |
Kesalahan interkoneksi GPU ke CPU |
155 |
Kesalahan GPU NVLink flit CRC |
156 |
Kesalahan jalur GPU NVLink |
158 |
GPU InfoRom rusak |
Untuk informasi selengkapnya tentang kesalahan XID, lihat Kesalahan Xid
Menonaktifkan perbaikan otomatis
Perbaikan otomatis GPU diaktifkan secara default untuk Instans Terkelola Amazon ECS. Untuk menonaktifkan perbaikan otomatis GPU, atur actionsStatus ke DISABLED dalam autoRepairConfiguration saat Anda membuat atau memperbarui penyedia kapasitas. Anda juga dapat menonaktifkan perbaikan otomatis GPU di konsol Amazon ECS saat Anda membuat atau memperbarui penyedia kapasitas.
Ketika perbaikan otomatis GPU dinonaktifkan, Amazon ECS terus memantau kesehatan GPU, tetapi tidak menggantikan instans yang rusak secara otomatis.
catatan
Menonaktifkan perbaikan otomatis GPU juga menonaktifkan perbaikan otomatis Amazon ECS Managed Daemons. Untuk informasi selengkapnya, lihat Amazon ECS Managed Daemons auto repair.
Untuk menonaktifkan perbaikan auto GPU
aws ecs update-capacity-provider \ --namemy-gpu-capacity-provider\ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "DISABLED" } }'
Untuk mengaktifkan perbaikan auto GPU
aws ecs update-capacity-provider \ --namemy-gpu-capacity-provider\ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "ENABLED" } }'
Untuk memverifikasi konfigurasi
aws ecs describe-capacity-providers \ --capacity-providersmy-gpu-capacity-provider