

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# CloudWatch Metrik Amazon untuk Memantau dan Menganalisis Pekerjaan Pelatihan
<a name="training-metrics"></a>

Pekerjaan SageMaker pelatihan Amazon adalah proses berulang yang mengajarkan model untuk membuat prediksi dengan menyajikan contoh dari kumpulan data pelatihan. Biasanya, algoritma pelatihan menghitung beberapa metrik, seperti kesalahan pelatihan dan akurasi prediksi. Metrik ini membantu mendiagnosis apakah model tersebut belajar dengan baik dan akan menggeneralisasi dengan baik untuk membuat prediksi pada data yang tidak terlihat. Algoritma pelatihan menulis nilai metrik ini ke log, yang dipantau dan dikirim SageMaker AI ke Amazon CloudWatch secara real time. Untuk menganalisis kinerja pekerjaan pelatihan Anda, Anda dapat melihat grafik metrik ini di. CloudWatch Ketika pekerjaan pelatihan telah selesai, Anda juga bisa mendapatkan daftar nilai metrik yang dihitung dalam iterasi terakhirnya dengan memanggil operasi. [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeTrainingJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeTrainingJob.html)

**catatan**  
Amazon CloudWatch mendukung [metrik kustom resolusi tinggi](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html), dan resolusi terbaiknya adalah 1 detik. Namun, semakin halus resolusinya, semakin pendek umur metrik. CloudWatch Untuk resolusi frekuensi 1 detik, CloudWatch metrik tersedia selama 3 jam. Untuk informasi selengkapnya tentang resolusi dan umur CloudWatch metrik, lihat [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)di Referensi *Amazon CloudWatch * API. 

**Tip**  
[Jika Anda ingin membuat profil pekerjaan pelatihan Anda dengan resolusi yang lebih baik hingga perincian 100 milidetik (0,1 detik) dan menyimpan metrik pelatihan tanpa batas waktu di Amazon S3 untuk analisis khusus kapan saja, pertimbangkan untuk menggunakan Amazon Debugger. SageMaker ](https://docs.aws.amazon.com/sagemaker/latest/dg/train-debugger.html) SageMaker Debugger menyediakan aturan bawaan untuk secara otomatis mendeteksi masalah pelatihan umum; ia mendeteksi masalah pemanfaatan sumber daya perangkat keras (seperti CPU, GPU, dan I/O bottleneck) dan masalah model non-konvergen (seperti overfit, gradien menghilang, dan tensor yang meledak). SageMaker Debugger juga menyediakan visualisasi melalui Studio Classic dan laporan profilingnya. [Untuk menjelajahi visualisasi Debugger, lihat [Panduan Dasbor Wawasan SageMaker Debugger, Panduan](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-on-studio-insights-walkthrough.htm) Laporan [Profil Debugger, dan Menganalisis Data Menggunakan Pustaka Klien](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-profiling-report.html#debugger-profiling-report-walkthrough). SMDebug ](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-analyze-data.html)

**Topics**
+ [

# Tentukan Metrik Pelatihan
](define-train-metrics.md)
+ [

# Lihat metrik pekerjaan pelatihan
](view-train-metrics.md)
+ [

# Contoh: Melihat Kurva Pelatihan dan Validasi
](train-valid-curve.md)

# Tentukan Metrik Pelatihan
<a name="define-train-metrics"></a>

SageMaker AI secara otomatis mem-parsing log pekerjaan pelatihan dan mengirimkan metrik pelatihan ke. CloudWatch Secara default, SageMaker AI mengirimkan metrik pemanfaatan sumber daya sistem yang tercantum dalam [Pekerjaan SageMaker AI dan Metrik Titik Akhir](https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html#cloudwatch-metrics-jobs). Jika Anda ingin SageMaker AI mengurai log dan mengirim metrik khusus dari pekerjaan pelatihan algoritme Anda sendiri CloudWatch, Anda perlu menentukan definisi metrik dengan meneruskan nama metrik dan ekspresi reguler saat Anda mengonfigurasi permintaan pekerjaan pelatihan SageMaker AI.

Anda dapat menentukan metrik yang ingin dilacak menggunakan konsol SageMaker AI, AI [Python SDK, atau API SageMaker AI](https://github.com/aws/sagemaker-python-sdk) tingkat rendah. SageMaker 

Jika Anda menggunakan algoritma Anda sendiri, lakukan hal berikut:
+ Pastikan algoritme menulis metrik yang ingin Anda tangkap ke log.
+ Tentukan ekspresi reguler yang secara akurat mencari log untuk menangkap nilai metrik yang ingin Anda kirim. CloudWatch

Misalnya, algoritme Anda memancarkan metrik berikut untuk kesalahan pelatihan dan kesalahan validasi:

```
Train_error=0.138318;  Valid_error=0.324557;
```

Jika Anda ingin memantau kedua metrik tersebut CloudWatch, kamus untuk definisi metrik akan terlihat seperti contoh berikut:

```
[
    {
        "Name": "train:error",
        "Regex": "Train_error=(.*?);"
    },
    {
        "Name": "validation:error",
        "Regex": "Valid_error=(.*?);"
    }    
]
```

Dalam regex untuk `train:error` metrik yang ditentukan dalam contoh sebelumnya, bagian pertama dari regex menemukan teks yang tepat “Train\$1error=”, dan ekspresi `(.*?);` menangkap karakter apa pun hingga karakter titik koma pertama muncul. Dalam ungkapan ini, tanda kurung memberi tahu regex untuk menangkap apa yang ada di dalamnya, `.` berarti karakter apa pun, `*` berarti nol atau lebih, dan `?` berarti menangkap hanya sampai contoh pertama karakter. `;`

## Tentukan Metrik Menggunakan SageMaker AI Python SDK
<a name="define-train-metrics-sdk"></a>

Tentukan metrik yang ingin Anda kirim CloudWatch dengan menentukan daftar nama metrik dan ekspresi reguler sebagai `metric_definitions` argumen saat Anda menginisialisasi objek. `Estimator` Misalnya, jika Anda ingin memantau metrik `train:error` dan `validation:error` metrik CloudWatch, `Estimator` inisialisasi Anda akan terlihat seperti contoh berikut:

```
import sagemaker
from sagemaker.estimator import Estimator

estimator = Estimator(
    image_uri="your-own-image-uri",
    role=sagemaker.get_execution_role(), 
    sagemaker_session=sagemaker.Session(),
    instance_count=1,
    instance_type='ml.c4.xlarge',
    metric_definitions=[
       {'Name': 'train:error', 'Regex': 'Train_error=(.*?);'},
       {'Name': 'validation:error', 'Regex': 'Valid_error=(.*?);'}
    ]
)
```

[Untuk informasi selengkapnya tentang pelatihan menggunakan estimator [Amazon SageMaker Python SDK](https://sagemaker.readthedocs.io/en/stable), lihat Sagemaker Python SDK on.](https://github.com/aws/sagemaker-python-sdk#sagemaker-python-sdk-overview) GitHub 

## Tentukan Metrik Menggunakan Konsol SageMaker AI
<a name="define-train-metrics-console"></a>

Jika Anda memilih **wadah algoritme Anda sendiri di opsi ECR** sebagai sumber algoritme Anda di konsol SageMaker AI saat Anda membuat pekerjaan pelatihan, tambahkan definisi metrik di bagian **Metrik**. Tangkapan layar berikut menunjukkan bagaimana seharusnya terlihat setelah Anda menambahkan contoh nama metrik dan ekspresi reguler yang sesuai.

![\[Contoh opsi Algoritma terbentuk di konsol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/training-metrics-using-smconsole.png)


## Tentukan Metrik Menggunakan API AI Tingkat Rendah SageMaker
<a name="define-train-metrics-api"></a>

Tentukan metrik yang ingin Anda kirim CloudWatch dengan menentukan daftar nama metrik dan ekspresi reguler di `MetricDefinitions` bidang parameter [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AlgorithmSpecification.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AlgorithmSpecification.html)input yang Anda berikan ke operasi. [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTrainingJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTrainingJob.html) Misalnya, jika Anda ingin memantau metrik `train:error` dan `validation:error` metrik CloudWatch, Anda `AlgorithmSpecification` akan terlihat seperti contoh berikut:

```
"AlgorithmSpecification": {
    "TrainingImage": your-own-image-uri,
    "TrainingInputMode": "File",
    "MetricDefinitions" : [
        {
            "Name": "train:error",
            "Regex": "Train_error=(.*?);"
        },
        {
            "Name": "validation:error",
            "Regex": "Valid_error=(.*?);"
        }
    ]
}
```

Untuk informasi selengkapnya tentang mendefinisikan dan menjalankan pekerjaan pelatihan dengan menggunakan API SageMaker AI tingkat rendah, lihat. [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTrainingJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTrainingJob.html)

# Lihat metrik pekerjaan pelatihan
<a name="view-train-metrics"></a>

Anda dapat melihat metrik yang dipancarkan dari pekerjaan SageMaker pelatihan Amazon Anda di konsol Amazon CloudWatch atau SageMaker AI.

## Pantau metrik pekerjaan pelatihan (CloudWatch konsol)
<a name="view-train-metrics-cw"></a>

Anda dapat memantau metrik yang dipancarkan pekerjaan pelatihan secara real time di konsol. CloudWatch

**Untuk memantau metrik pekerjaan pelatihan (CloudWatch konsol)**

1. Buka CloudWatch konsol di [https://console.aws.amazon.com/cloudwatch](https://console.aws.amazon.com/cloudwatch).

1. Pilih **Metrik**, lalu pilih**/aws/sagemaker/TrainingJobs**.

1. Pilih **TrainingJobName**.

1. Pada tab **Semua metrik**, pilih nama metrik pelatihan yang ingin Anda pantau.

1. Pada tab **Metrik grafik**, konfigurasikan opsi grafik. Untuk informasi selengkapnya tentang penggunaan CloudWatch grafik, lihat [Metrik Grafik](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/graph_metrics.html) di * CloudWatch Panduan Pengguna Amazon*.

## Pantau metrik pekerjaan pelatihan (konsol SageMaker AI)
<a name="view-train-metrics-sm"></a>

Anda dapat memantau metrik yang dipancarkan pekerjaan pelatihan secara real time dengan menggunakan konsol SageMaker AI.

**Untuk memantau metrik pekerjaan pelatihan (konsol SageMaker AI)**

1. Buka konsol SageMaker AI di [https://console.aws.amazon.com/sagemaker](https://console.aws.amazon.com/sagemaker).

1. Pilih **pekerjaan Pelatihan**, lalu pilih pekerjaan pelatihan yang metriknya ingin Anda lihat.

1. Pilih **TrainingJobName**.

1. Di bagian **Monitor**, Anda dapat meninjau grafik pemanfaatan instance dan metrik algoritme.  
![\[Contoh grafik di bagian Monitor di konsol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/console-metrics.png)

# Contoh: Melihat Kurva Pelatihan dan Validasi
<a name="train-valid-curve"></a>

Biasanya, Anda membagi data tempat Anda melatih model menjadi kumpulan data pelatihan dan validasi. Anda menggunakan set pelatihan untuk melatih parameter model yang digunakan untuk membuat prediksi pada kumpulan data pelatihan. Kemudian Anda menguji seberapa baik model membuat prediksi dengan menghitung prediksi untuk set validasi. Untuk menganalisis kinerja pekerjaan pelatihan, Anda biasanya merencanakan kurva pelatihan terhadap kurva validasi. 

Melihat grafik yang menunjukkan keakuratan untuk set pelatihan dan validasi dari waktu ke waktu dapat membantu Anda meningkatkan kinerja model Anda. Misalnya, jika akurasi pelatihan terus meningkat dari waktu ke waktu, tetapi, pada titik tertentu, akurasi validasi mulai menurun, kemungkinan Anda terlalu cocok dengan model Anda. Untuk mengatasinya, Anda dapat melakukan penyesuaian pada model Anda, seperti meningkatkan [regularisasi](https://docs.aws.amazon.com/glossary/latest/reference/glos-chap.html#regularization).

Untuk contoh ini, Anda dapat menggunakan mage-classification-full-training contoh **I** di bagian **Contoh notebook** pada instance notebook SageMaker AI Anda. Jika Anda tidak memiliki instance SageMaker notebook, buat satu dengan mengikuti petunjuk di[Buat Instans SageMaker Notebook Amazon untuk tutorial](gs-setup-working-env.md). Jika mau, Anda dapat mengikuti bersama dengan [Contoh Klasifikasi Gambar End-to-End Multiclass di buku catatan contoh](https://sagemaker-examples.readthedocs.io/en/latest/introduction_to_amazon_algorithms/imageclassification_caltech/Image-classification-fulltraining.html) di. GitHub Anda juga memerlukan bucket Amazon S3 untuk menyimpan data pelatihan dan untuk output model.

**Untuk melihat kurva kesalahan pelatihan dan validasi**

1. Buka konsol SageMaker AI di [https://console.aws.amazon.com/sagemaker](https://console.aws.amazon.com/sagemaker).

1. Pilih **Notebook**, lalu pilih **instans Notebook**.

1. Pilih instance notebook yang ingin Anda gunakan, lalu pilih **Buka**.

1. Di dasbor untuk instance notebook Anda, pilih **Contoh SageMaker AI**.

1. Perluas bagian **Pengantar Algoritma Amazon**, lalu pilih **Gunakan** di sebelah **mage-classification-fulltrainingI.ipynb**.

1. Pilih **Buat salinan**. SageMaker AI membuat salinan notebook **mage-classification-fulltrainingI.ipynb** yang dapat diedit di instance notebook Anda.

1. Jalankan semua sel di buku catatan hingga bagian **Inferensi**. Anda tidak perlu menerapkan titik akhir atau mendapatkan inferensi untuk contoh ini.

1. Setelah pekerjaan pelatihan dimulai, buka CloudWatch konsol di [https://console.aws.amazon.com/cloudwatch](https://console.aws.amazon.com/cloudwatch).

1. Pilih **Metrik**, lalu pilih**/aws/sagemaker/TrainingJobs**.

1. Pilih **TrainingJobName**.

1. Pada tab **Semua metrik**, pilih metrik **train:akurasi dan **validasi:akurasi**** untuk pekerjaan pelatihan yang Anda buat di buku catatan.

1. Pada grafik, pilih area yang nilainya akan diperbesar oleh metrik. Anda akan melihat sesuatu seperti contoh berikut.  
![\[Memperbesar area dalam grafik.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/train-valid-acc.png)