

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# HyperPod fitur pelatihan checkpointless
<a name="sagemaker-eks-checkpointless-features"></a>

Lihat halaman berikut untuk mempelajari tentang fitur pelatihan dalam pelatihan tanpa pemeriksaan.

**Topics**
+ [Repositori pelatihan SageMaker HyperPod tanpa pos pemeriksaan Amazon](#sagemaker-eks-checkpointless-repositories)
+ [Peningkatan inisialisasi komunikasi kolektif](sagemaker-eks-checkpointless-features-communication.md)
+ [Pembuat data yang dipetakan memori](sagemaker-eks-checkpointless-features-mmap.md)
+ [In-process pemulihan dan pelatihan tanpa pemeriksaan](sagemaker-eks-checkpointless-in-process-recovery.md)

## Repositori pelatihan SageMaker HyperPod tanpa pos pemeriksaan Amazon
<a name="sagemaker-eks-checkpointless-repositories"></a>

[ HyperPod pelatihan checkpointless](https://github.com/aws/sagemaker-hyperpod-checkpointless-training#) mempercepat pemulihan dari kesalahan klaster di lingkungan pelatihan terdistribusi skala besar melalui pengoptimalan tingkat kerangka kerja. Pengoptimalan ini disampaikan melalui image kontainer dasar yang mencakup peningkatan inisialisasi NCCL yang disempurnakan, pengoptimalan pemuatan data, dan komponen pemulihan dalam proses dan tanpa pemeriksaan. Paket pelatihan HyperPod tanpa pos pemeriksaan dibangun di atas fondasi ini.

Pelatihan checkpointless diaktifkan melalui tiga trek pengoptimalan yang berjalan bersama:
+ **Peningkatan initilisasi komunikasi (NCCL dan Gloo)** - Menghilangkan kemacetan komunikasi dengan mendesentralisasi informasi peer dan ring peringkat (kotak merah di bawah).
+ **Pengoptimalan pemuatan data** - Kurangi waktu yang diperlukan untuk menyajikan batch data pertama selama operasi restart (kotak oranye di bawah).
+ **Program restart pengurangan overhead** - Minimalkan biaya restart dan aktifkan pengisian tanpa pemeriksaan melalui pemulihan proses pada node sehat (kotak biru dan hijau di bawah).

![Dua GPU menjalankan langkah pelatihan model secara paralel, dengan pengumpanan data setiap langkah dan pos pemeriksaan disimpan secara berkala.](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/hyperpod/hyperpod-checkpointless-optimization-tracks.png)
