Accedi ai dati del profilo - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Accedi ai dati del profilo

La SMDebug TrainingJob classe legge i dati dal bucket S3 in cui vengono salvate le metriche del sistema e del framework.

Per configurare un oggetto TrainingJob e recuperare i file degli eventi di profilazione di un processo di addestramento

from smdebug.profiler.analysis.notebook_utils.training_job import TrainingJob tj = TrainingJob(training_job_name, region)
Suggerimento

È necessario specificare i parametri training_job_name e region per accedere a un processo di addestramento. Ci sono due modi per specificare le informazioni sul processo di addestramento:

  • Usa SageMaker Python SDK mentre lo estimatore è ancora collegato al processo di formazione.

    import sagemaker training_job_name=estimator.latest_training_job.job_name region=sagemaker.Session().boto_region_name
  • Passa le stringhe direttamente.

    training_job_name="your-training-job-name-YYYY-MM-DD-HH-MM-SS-SSS" region="us-west-2"
Nota

Per impostazione predefinita, SageMaker Debugger raccoglie le metriche di sistema per monitorare l'utilizzo delle risorse hardware e i colli di bottiglia del sistema. Eseguendo le seguenti funzioni, potresti ricevere messaggi di errore relativi all'indisponibilità dei parametri del framework. Per recuperare i dati di profilazione del framework e ottenere informazioni dettagliate sulle operazioni del framework, è necessario abilitare la profilazione del framework.

  • Se usi SageMaker Python SDK per manipolare la tua richiesta di lavoro di formazione, passala framework_profile_params all'profiler_configargomento del tuo estimatore. Per saperne di più, consulta Configure SageMaker Debugger Framework Profiling.

  • Se utilizzi Studio Classic, attiva la profilazione utilizzando il pulsante di attivazione della profilazione nella dashboard delle informazioni di Debugger. Per ulteriori informazioni, consulta Debugger Insights SageMaker Dashboard Controller.

Per recuperare una descrizione della descrizione del processo di addestramento e l'URI del bucket S3 in cui vengono salvati i dati dei parametri

tj.describe_training_job() tj.get_config_and_profiler_s3_output_path()

Per verificare se i parametri del sistema e del framework sono disponibili nell'URI S3

tj.wait_for_sys_profiling_data_to_be_available() tj.wait_for_framework_profiling_data_to_be_available()

Per creare oggetti di lettura del sistema e del framework dopo che i dati dei parametri sono diventati disponibili

system_metrics_reader = tj.get_systems_metrics_reader() framework_metrics_reader = tj.get_framework_metrics_reader()

Per aggiornare e recuperare i file degli eventi di addestramento più recenti

Gli oggetti reader hanno un metodo esteso, refresh_event_file_list(), per recuperare i file degli eventi di addestramento più recenti.

system_metrics_reader.refresh_event_file_list() framework_metrics_reader.refresh_event_file_list()