Cara kerjanya Memantau kesehatan GPU Kode kesalahan XID yang dipantau Menonaktifkan perbaikan otomatis

Perbaikan otomatis GPU untuk instans terkelola Amazon ECS

Amazon ECS memantau kesehatan GPU NVIDIA di Instans Terkelola Amazon ECS yang menggunakan perangkat keras GPU. Saat Amazon ECS mendeteksi kegagalan perangkat keras GPU, Amazon dapat secara otomatis mengganti instans yang rusak. Perbaikan otomatis GPU diaktifkan secara default untuk Instans Terkelola Amazon ECS.

Cara kerjanya

Amazon ECS menggunakan NVIDIA Data Center GPU Manager (DCGM) untuk memantau kesehatan GPU NVIDIA pada instans terkelola yang memiliki perangkat keras GPU. Ketika DCGM melaporkan kegagalan GPU kritis, Amazon ECS menandai instans sebagai terganggu.

Saat perbaikan otomatis GPU diaktifkan, Amazon ECS mengganti instans yang mengalami gangguan dengan menggunakan alur kerja start-before-stop:

Amazon ECS menetapkan instans yang rusak ke DRAINING. Tugas baru tidak ditempatkan pada instance.
Amazon ECS menyediakan instans pengganti.
Amazon ECS memungkinkan tugas yang ada berhenti dengan anggun. Amazon ECS menghormati batas waktu berhenti tugas untuk tugas di instans.
Setelah periode pembuangan berakhir, Amazon ECS menghentikan instans yang rusak.

Amazon ECS membatasi tindakan perbaikan untuk mencegah penggantian cascading. Tidak lebih dari 20% dari instans milik penyedia kapasitas dapat dikeringkan pada suatu waktu. Jika ada kurang dari 9 contoh dalam penyedia kapasitas, paling banyak satu contoh terkuras pada satu waktu.

Memantau kesehatan GPU

Anda dapat menggunakan DescribeContainerInstances API untuk memeriksa kesehatan GPU. Untuk informasi selengkapnya, lihat Pantau kesehatan instans wadah Amazon ECS. Anda juga dapat memantau perubahan kesehatan GPU melalui. Acara perubahan kesehatan instans penampung Amazon ECS

Kode kesalahan XID yang dipantau

Amazon ECS memonitor kode kesalahan NVIDIA Xid berikut. Jika Amazon ECS mendeteksi salah satu kesalahan ini, itu menandai instance sebagai terganggu dan menggantikan instance.

Xid	Deskripsi
46	GPU berhenti memproses
48	Kesalahan ECC Bit Ganda
54	Konektor daya bantu tidak terhubung
62	Pengontrol mikro internal berhenti
64	Kegagalan pemetaan ulang memori GPU
74	Kesalahan NVLink
79	GPU telah jatuh dari bus
95	Kesalahan memori yang tidak terkendali
109	Batas waktu sakelar konteks
110	GPU menghilang dari bus
136	Batas pensiun halaman memori GPU terlampaui
140	Kesalahan ECC yang Tidak Dapat Dipulihkan
142	Halaman memori GPU pensiun karena kesalahan yang tidak dapat diperbaiki
143	Halaman memori GPU pensiun karena ambang kesalahan yang dapat diperbaiki
151	Kesalahan interkoneksi GPU ke CPU
155	Kesalahan GPU NVLink flit CRC
156	Kesalahan jalur GPU NVLink
158	GPU InfoRom rusak

Untuk informasi selengkapnya tentang kesalahan XID, lihat Kesalahan Xid di Deployment GPU NVIDIA dan Dokumentasi Manajemen. Untuk informasi selengkapnya tentang pesan XID individual, lihat Memahami Pesan Xid di Dokumentasi Penerapan dan Manajemen GPU NVIDIA.

Menonaktifkan perbaikan otomatis

Perbaikan otomatis GPU diaktifkan secara default untuk Instans Terkelola Amazon ECS. Untuk menonaktifkan perbaikan otomatis GPU, atur actionsStatus ke DISABLED dalam autoRepairConfiguration saat Anda membuat atau memperbarui penyedia kapasitas. Anda juga dapat menonaktifkan perbaikan otomatis GPU di konsol Amazon ECS saat Anda membuat atau memperbarui penyedia kapasitas.

Ketika perbaikan otomatis GPU dinonaktifkan, Amazon ECS terus memantau kesehatan GPU, tetapi tidak menggantikan instans yang rusak secara otomatis.

catatan

Menonaktifkan perbaikan otomatis GPU juga menonaktifkan perbaikan otomatis Amazon ECS Managed Daemons. Untuk informasi selengkapnya, lihat Amazon ECS Managed Daemons auto repair.

Untuk menonaktifkan perbaikan auto GPU


aws ecs update-capacity-provider \
    --name my-gpu-capacity-provider \
    --managed-instances-provider '{
        "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole",
        "instanceLaunchTemplate": {
            "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole",
            "networkConfiguration": {
                "subnets": ["subnet-0123456789abcdef0"],
                "securityGroups": ["sg-0123456789abcdef0"]
            }
        },
        "autoRepairConfiguration": {
            "actionsStatus": "DISABLED"
        }
    }'

Untuk mengaktifkan perbaikan auto GPU


aws ecs update-capacity-provider \
    --name my-gpu-capacity-provider \
    --managed-instances-provider '{
        "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole",
        "instanceLaunchTemplate": {
            "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole",
            "networkConfiguration": {
                "subnets": ["subnet-0123456789abcdef0"],
                "securityGroups": ["sg-0123456789abcdef0"]
            }
        },
        "autoRepairConfiguration": {
            "actionsStatus": "ENABLED"
        }
    }'

Untuk memverifikasi konfigurasi


aws ecs describe-capacity-providers \
    --capacity-providers my-gpu-capacity-provider

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Optimalisasi infrastruktur

Migrasi dari Fargate ke Instans Terkelola Amazon ECS