

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Buat Baseline
<a name="model-monitor-create-baseline"></a>

Perhitungan dasar statistik dan kendala diperlukan sebagai standar di mana penyimpangan data dan masalah kualitas data lainnya dapat dideteksi. Model Monitor menyediakan wadah bawaan yang menyediakan kemampuan untuk menyarankan kendala secara otomatis untuk input CSV dan JSON datar. *sagemaker-model-monitor-analyzer*Container ini juga memberi Anda berbagai kemampuan pemantauan model, termasuk validasi kendala terhadap baseline, dan memancarkan metrik Amazon. CloudWatch Wadah ini didasarkan pada Spark versi 3.3.0 dan dibangun dengan [Deequ](https://github.com/awslabs/deequ) versi 2.0.2. Semua nama kolom dalam dataset dasar Anda harus sesuai dengan Spark. Untuk nama kolom, gunakan hanya karakter huruf kecil, dan `_` sebagai satu-satunya karakter khusus.

Dataset pelatihan yang Anda gunakan untuk melatih model biasanya merupakan kumpulan data dasar yang baik. Skema data kumpulan data pelatihan dan skema kumpulan data inferensi harus sama persis (jumlah dan urutan fitur). Perhatikan bahwa prediction/output kolom diasumsikan sebagai kolom pertama dalam kumpulan data pelatihan. Dari kumpulan data pelatihan, Anda dapat meminta SageMaker AI untuk menyarankan serangkaian batasan dasar dan menghasilkan statistik deskriptif untuk menjelajahi data. Untuk contoh ini, unggah kumpulan data pelatihan yang digunakan untuk melatih model yang telah dilatih sebelumnya yang termasuk dalam contoh ini. Jika Anda sudah menyimpan kumpulan data pelatihan di Amazon S3, Anda dapat mengarahkannya secara langsung.

**Membuat baseline dari dataset pelatihan** 

[Saat data pelatihan Anda siap dan disimpan di Amazon S3, mulailah pekerjaan pemrosesan dasar dengan menggunakan `DefaultModelMonitor.suggest_baseline(..)` Amazon Python SDK. SageMaker ](https://sagemaker.readthedocs.io/en/stable) Ini menggunakan [Amazon SageMaker Model Monitor wadah bawaan](model-monitor-pre-built-container.md) yang menghasilkan statistik dasar dan menyarankan batasan dasar untuk kumpulan data dan menuliskannya ke lokasi yang Anda tentukan. `output_s3_uri`

```
from sagemaker.model_monitor import DefaultModelMonitor
from sagemaker.model_monitor.dataset_format import DatasetFormat

my_default_monitor = DefaultModelMonitor(
    role=role,
    instance_count=1,
    instance_type='ml.m5.xlarge',
    volume_size_in_gb=20,
    max_runtime_in_seconds=3600,
)

my_default_monitor.suggest_baseline(
    baseline_dataset=baseline_data_uri+'/training-dataset-with-header.csv',
    dataset_format=DatasetFormat.csv(header=True),
    output_s3_uri=baseline_results_uri,
    wait=True
)
```

**catatan**  
Jika Anda memberikan feature/column nama dalam kumpulan data pelatihan sebagai baris pertama dan menetapkan `header=True` opsi seperti yang ditunjukkan pada sampel kode sebelumnya, SageMaker AI menggunakan nama fitur dalam file batasan dan statistik.

Statistik dasar untuk kumpulan data terkandung dalam file statistics.json dan batasan dasar yang disarankan terkandung dalam file constraints.json di lokasi yang Anda tentukan. `output_s3_uri`

File Output untuk Statistik dan Kendala Set Data Tabular


| Nama berkas | Deskripsi | 
| --- | --- | 
| statistics.json |  File ini diharapkan memiliki statistik kolumnar untuk setiap fitur dalam kumpulan data yang dianalisis. Untuk informasi selengkapnya tentang skema untuk file ini, lihat[Skema untuk Statistik (file statistik.json)](model-monitor-byoc-statistics.md).  | 
| constraints.json |  File ini diharapkan memiliki kendala pada fitur yang diamati. Untuk informasi selengkapnya tentang skema untuk file ini, lihat[Skema untuk Kendala (file kendala json)](model-monitor-byoc-constraints.md).  | 

[Amazon SageMaker Python SDK](https://sagemaker.readthedocs.io/en/stable) menyediakan fungsi kenyamanan yang dijelaskan untuk menghasilkan statistik dan batasan dasar. Tetapi jika Anda ingin memanggil pekerjaan pemrosesan secara langsung untuk tujuan ini, Anda perlu mengatur `Environment` peta seperti yang ditunjukkan pada contoh berikut:

```
"Environment": {
    "dataset_format": "{\"csv\”: { \”header\”: true}",
    "dataset_source": "/opt/ml/processing/sm_input",
    "output_path": "/opt/ml/processing/sm_output",
    "publish_cloudwatch_metrics": "Disabled",
}
```