Profilieren und optimieren Sie die Rechenleistung

Beim Trainieren hochmoderner Deep-Learning-Modelle, die schnell an Größe zunehmen, wird es zu einer Herausforderung, den Trainingsauftrag solcher Modelle auf einen großen GPU-Cluster zu skalieren und Probleme mit der Rechenleistung bei Milliarden und Billionen von Vorgängen und Kommunikationsvorgängen in jeder Iteration des Gradientenabstiegs zu identifizieren.

SageMaker KI bietet Tools zur Profilerstellung zur Visualisierung und Diagnose solch komplexer Rechenprobleme, die sich aus der Ausführung von Trainingsaufgaben auf AWS Cloud-Computing-Ressourcen ergeben. SageMaker KI bietet zwei Profiling-Optionen: Amazon SageMaker Profiler und einen Monitor für die Ressourcennutzung in Amazon SageMaker Studio Classic. Sehen Sie sich die folgenden Einführungen der beiden Funktionen an, um einen schnellen Einblick zu erhalten und zu erfahren, welche Sie je nach Ihren Bedürfnissen verwenden sollten.

Amazon SageMaker Profiler

Amazon SageMaker Profiler ist eine SageMaker KI-Profilierungsfunktion, mit der Sie tief in die Rechenressourcen eintauchen können, die beim Training von Deep-Learning-Modellen bereitgestellt werden, und Einblick in Details auf Betriebsebene erhalten. SageMaker Profiler bietet Python-Module zum Hinzufügen von Anmerkungen in PyTorch TensorFlow Trainingsskripten und zum Aktivieren SageMaker von Profiler. Sie können über das SageMaker Python SDK und AWS Deep Learning Containers auf die Module zugreifen.

Mit SageMaker Profiler können Sie alle Aktivitäten auf CPUs und GPUs verfolgen, z. B. CPU- und GPU-Auslastung, Kernelausführungen auf GPUs, Kernelstarts auf CPUs, Synchronisierungsvorgänge, Speicheroperationen zwischen CPUs und GPUs, Latenzen zwischen Kernelstarts und entsprechenden Läufen sowie Datenübertragung zwischen CPUs und GPUs.

SageMaker Profiler bietet auch eine Benutzeroberfläche (UI), die das Profil, eine statistische Zusammenfassung der profilierten Ereignisse und den Zeitplan eines Trainingsjobs visualisiert, um die zeitliche Beziehung der Ereignisse zwischen GPUs und CPUs zu verfolgen und zu verstehen.

Weitere Informationen über Profiler finden Sie unter. SageMaker Amazon SageMaker Profiler

Überwachen von AWS Rechenressourcen in Amazon SageMaker Studio Classic

SageMaker AI bietet in Studio Classic auch eine Benutzeroberfläche für die Überwachung der Ressourcennutzung auf hoher Ebene, jedoch mit größerer Granularität im Vergleich zu den von SageMaker AI bis CloudWatch gesammelten Standardnutzungsmetriken.

Für jeden Trainingsjob, den Sie mit dem SageMaker Python-SDK in SageMaker KI ausführen, beginnt SageMaker KI mit der Erstellung von Profilen grundlegender Kennzahlen zur Ressourcennutzung, wie CPU-Auslastung, GPU-Auslastung, GPU-Speicherauslastung, Netzwerk und I/O Wartezeit. Es erfasst diese Kennzahlen zur Ressourcennutzung alle 500 Millisekunden.

Im Vergleich zu CloudWatch Amazon-Metriken, bei denen Metriken in Intervallen von 1 Sekunde erfasst werden, bietet die Überwachungsfunktion von SageMaker KI eine feinere Granularität der Kennzahlen zur Ressourcennutzung in Intervallen von bis zu 100 Millisekunden (0,1 Sekunden), sodass Sie die Metriken auf der Ebene eines Vorgangs oder Schritts eingehend untersuchen können.

Den Zugriff auf das Dashboard zur Überwachung der Kennzahlen zur Ressourcennutzung eines Trainingsjobs finden Sie in der SageMaker KI-Debugger-Benutzeroberfläche in Studio Experiments. SageMaker

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Versionshinweise

SageMaker Profiler