

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Menjalankan pekerjaan menggunakan SageMaker HyperPod CLI
<a name="sagemaker-hyperpod-eks-run-jobs-hyperpod-cli"></a>

Untuk menjalankan pekerjaan, pastikan Anda menginstal Kubeflow Training Operator di kluster EKS. Untuk informasi selengkapnya, lihat [Menginstal paket di cluster Amazon EKS menggunakan Helm](sagemaker-hyperpod-eks-install-packages-using-helm-chart.md).

Jalankan `hyperpod get-cluster` perintah untuk mendapatkan daftar HyperPod cluster yang tersedia.

```
hyperpod get-clusters
```

Jalankan `hyperpod connect-cluster` untuk mengkonfigurasi SageMaker HyperPod CLI dengan kluster EKS yang mengatur cluster. HyperPod 

```
hyperpod connect-cluster --cluster-name <hyperpod-cluster-name>
```

Gunakan `hyperpod start-job` perintah untuk menjalankan pekerjaan. Perintah berikut menunjukkan perintah dengan opsi yang diperlukan. 

```
hyperpod start-job \
    --job-name <job-name>
    --image <docker-image-uri>
    --entry-script <entrypoint-script>
    --instance-type <ml.instance.type>
    --node-count <integer>
```

`hyperpod start-job`Perintah ini juga dilengkapi dengan berbagai opsi seperti resume otomatis pekerjaan dan penjadwalan pekerjaan.

## Mengaktifkan resume otomatis pekerjaan
<a name="sagemaker-hyperpod-eks-run-jobs-hyperpod-cli-enable-auto-resume"></a>

`hyperpod start-job`Perintah ini juga memiliki opsi berikut untuk menentukan resume otomatis pekerjaan. Untuk mengaktifkan resume otomatis pekerjaan agar berfungsi dengan fitur ketahanan SageMaker HyperPod simpul, Anda harus menetapkan nilai opsi tersebut. `restart-policy` `OnFailure` Pekerjaan harus berjalan di bawah `kubeflow` namespace atau namespace yang diawali dengan. `hyperpod`
+ [--auto-resume<bool>] \$1Optional, aktifkan resume otomatis pekerjaan setelah gagal, defaultnya salah
+ [--max-retry<int>] \$1Optional, jika auto-resume benar, nilai default max-retry adalah 1 jika tidak ditentukan
+ [--restart-policy<enum>] \$1Optional, mulai ulang kebijakan. PyTorchJob Nilai yang tersedia adalah`Always`,`OnFailure`, `Never` atau`ExitCode`. Nilai default-nya adalah `OnFailure`. 

```
hyperpod start-job \
    ... // required options \
    --auto-resume true \
    --max-retry 3 \
    --restart-policy OnFailure
```

## Menjalankan pekerjaan dengan opsi penjadwalan
<a name="sagemaker-hyperpod-eks-run-jobs-hyperpod-cli-scheduling"></a>

`hyperpod start-job`Perintah memiliki opsi berikut untuk mengatur pekerjaan dengan mekanisme antrian. 

**catatan**  
Anda perlu [Kueue](https://kueue.sigs.k8s.io/docs/overview/) diinstal di cluster EKS. Jika Anda belum menginstal, ikuti instruksi di[Pengaturan untuk tata kelola SageMaker HyperPod tugas](sagemaker-hyperpod-eks-operate-console-ui-governance-setup.md).
+ [--scheduler-type<enum>] \$1Optional, Tentukan jenis penjadwal. Nilai default-nya `Kueue`.
+ [--queue-name<string>] \$1Optional, Tentukan nama Antrian [Lokal atau Antrian](https://kueue.sigs.k8s.io/docs/concepts/local_queue/) [Cluster yang ingin Anda kirimkan](https://kueue.sigs.k8s.io/docs/concepts/cluster_queue/) dengan pekerjaan. Antrian harus dibuat oleh admin cluster menggunakan. `CreateComputeQuota`
+ [--priority<string>] \$1Optional, Tentukan nama [Kelas Prioritas Beban Kerja](https://kueue.sigs.k8s.io/docs/concepts/workload_priority_class/), yang harus dibuat oleh admin klaster.

```
hyperpod start-job \
    ... // required options
    --scheduler-type Kueue \
    --queue-name high-priority-queue \
    --priority high
```

## Menjalankan pekerjaan dari file konfigurasi
<a name="sagemaker-hyperpod-eks-run-jobs-hyperpod-cli-from-config"></a>

Sebagai alternatif, Anda dapat membuat file konfigurasi pekerjaan yang berisi semua parameter yang diperlukan oleh pekerjaan dan kemudian meneruskan file konfigurasi ini ke `hyperpod start-job` perintah menggunakan opsi --config-file. Dalam kasus ini:

1. Buat file konfigurasi pekerjaan Anda dengan parameter yang diperlukan. [Lihat file konfigurasi pekerjaan di GitHub repositori SageMaker HyperPod CLI untuk file konfigurasi dasar.](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-eks-run-jobs-hyperpod-cli.html#sagemaker-hyperpod-eks-hyperpod-cli-from-config)

1. Mulai pekerjaan menggunakan file konfigurasi sebagai berikut.

   ```
   hyperpod start-job --config-file /path/to/test_job.yaml
   ```

**Tip**  
Untuk daftar lengkap parameter `hyperpod start-job` perintah, lihat bagian [Submitting a Job](https://github.com/aws/sagemaker-hyperpod-cli?tab=readme-ov-file#submitting-a-job) di repositori `README.md` CLI SageMaker HyperPod . GitHub 