

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Creazione di una linea di base
<a name="model-monitor-create-baseline"></a>

I calcoli della linea di base su statistiche e vincoli sono necessari come standard rispetto al quale è possibile rilevare deviazioni dei dati e altri problemi di qualità dei dati. Il monitoraggio del modello fornisce un container integrato che consente di suggerire automaticamente i vincoli per input CSV e JSON appiattiti. Questo contenitore *sagemaker-model-monitor-analyzer* offre anche una gamma di funzionalità di monitoraggio dei modelli, tra cui la convalida dei vincoli rispetto a una linea di base e l'emissione di parametri Amazon. CloudWatch Questo container è basato sulla versione 3.3.0 di Spark ed è costruito con la versione 2.0.2 di [Deequ](https://github.com/awslabs/deequ). Tutte le colonne nel set di dati della linea di base devono essere conformi a Spark. Per i nomi delle colonne, usa solo caratteri minuscoli e `_` è l’unico carattere speciale.

Il set di dati di addestramento utilizzato per l’addestramento del modello è in genere un set di dati adatto per definire la linea di base. Lo schema dei dati del set di dati di addestramento e lo schema del set di dati di inferenza devono corrispondere esattamente (devono presentare lo stesso numero e lo stesso ordine delle caratteristiche). Tieni presente che si presume che le colonne siano le prime colonne del set di dati di addestramento. prediction/output Dal set di dati di addestramento, puoi chiedere all' SageMaker IA di suggerire una serie di vincoli di base e generare statistiche descrittive per esplorare i dati. Per questo esempio, carica il set di dati di addestramento utilizzato per eseguire l’addestramento del modello già sottoposto a tale e qui incluso. Se hai già archiviato il set di dati di addestramento in Amazon S3, puoi indicarlo direttamente.

**Per creare una linea di base da un set di dati di addestramento** 

Quando i dati di addestramento sono pronti e archiviati in Amazon S3, avvia un processo di elaborazione di base utilizzando `DefaultModelMonitor.suggest_baseline(..)` l'SDK Amazon [Python SageMaker ](https://sagemaker.readthedocs.io/en/stable). Viene utilizzato un [Contenitore precostruito Amazon SageMaker Model Monitor](model-monitor-pre-built-container.md) che genera statistiche della linea di base e suggerisce vincoli della stessa per il set di dati e li scrive nel percorso `output_s3_uri` specificato.

```
from sagemaker.model_monitor import DefaultModelMonitor
from sagemaker.model_monitor.dataset_format import DatasetFormat

my_default_monitor = DefaultModelMonitor(
    role=role,
    instance_count=1,
    instance_type='ml.m5.xlarge',
    volume_size_in_gb=20,
    max_runtime_in_seconds=3600,
)

my_default_monitor.suggest_baseline(
    baseline_dataset=baseline_data_uri+'/training-dataset-with-header.csv',
    dataset_format=DatasetFormat.csv(header=True),
    output_s3_uri=baseline_results_uri,
    wait=True
)
```

**Nota**  
Se fornisci i feature/column nomi nel set di dati di addestramento come prima riga e imposti l'`header=True`opzione come mostrato nell'esempio di codice precedente, SageMaker AI utilizza il nome della funzionalità nel file di vincoli e statistiche.

Le statistiche della linea di base per il set di dati sono contenute nel file statistics.json e i vincoli della linea di base suggeriti sono contenuti nel file constraints.json nel percorso specificato con `output_s3_uri`.

File di output per vincoli e statistiche di set di dati tabulari


| Nome del file | Description | 
| --- | --- | 
| statistics.json | Si prevede che questo file abbia statistiche a colonne per ogni funzionalità del set di dati che viene analizzato. Per ulteriori informazioni sullo schema di questo file, consulta [Schema per le statistiche (file statistics.json)](model-monitor-byoc-statistics.md). | 
| constraints.json | Si prevede che questo file abbia vincoli sulle funzionalità osservate. Per ulteriori informazioni sullo schema di questo file, consulta [Schema per vincoli (file constraints.json)](model-monitor-byoc-constraints.md). | 

L'[SDK Amazon SageMaker Python](https://sagemaker.readthedocs.io/en/stable) fornisce funzioni pratiche descritte per generare statistiche e vincoli di base. Tuttavia, per chiamare l'attività di elaborazione direttamente per questo scopo, è necessario impostare la mappa `Environment` come illustrato nell'esempio seguente:

```
"Environment": {
    "dataset_format": "{\"csv\”: { \”header\”: true}",
    "dataset_source": "/opt/ml/processing/sm_input",
    "output_path": "/opt/ml/processing/sm_output",
    "publish_cloudwatch_metrics": "Disabled",
}
```