

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 探索 Amazon SageMaker Debugger 深入分析儀表板
<a name="debugger-on-studio-insights-walkthrough"></a>

當您啟動 SageMaker 訓練工作時，SageMaker Debugger 預設會開始監控 Amazon EC2 執行個體的資源使用率。您可以透過深入分析儀表板追蹤系統使用率、統計資料概觀和內建規則分析。本指南逐步介紹 SageMaker Debugger 下列索引標籤內的深入分析儀表板的內容：**系統系統指標**和**規則**。

**注意**  
SageMaker Debugger 深入分析儀表板會在 `ml.m5.4xlarge` 執行個體上執行 Studio Classic 應用程式，以處理和轉譯視覺效果。每個 SageMaker Debugger 深入分析索引標籤，都會執行一個 Studio Classic 核心工作階段。在單一執行個體上執行多個 SageMaker Debugger 深入分析索引標籤的多個核心工作階段。當您關閉 SageMaker Debugger 深入分析索引標籤時，對應的核心工作階段也會關閉。Studio Classic 應用程式會維持啟用狀態，並會產生 `ml.m5.4xlarge` 執行個體用量的費用。有關定價的資訊，請參閱[Amazon SageMaker 定價](https://aws.amazon.com/sagemaker/pricing/)頁面。

**重要**  
使用 SageMaker Debugger 深入分析儀表板後，請將 `ml.m5.4xlarge` 執行個體關機以避免產生費用。如需如何將執行個體關機的指示，請參閱[將 Amazon SageMaker Debugger 深入分析執行個體關機](debugger-on-studio-insights-close.md)。

**重要**  
在報告中，系統會提供資訊圖表和相關建議，其中的內容並非絕對。由您負責對當中的資訊進行自己的獨立評估。

**Topics**
+ [系統指標](#debugger-insights-system-metrics-tab)
+ [Rules](#debugger-on-studio-insights-rules)

## 系統指標
<a name="debugger-insights-system-metrics-tab"></a>

在**系統指標**標籤內，您可以透過總結表格與時間序列圖表來瞭解資源使用率。

### 資源使用率總結
<a name="debugger-on-studio-insights-sys-resource-summary"></a>

此總結表格顯示所有節點的運算資源使用率指標統計資料 (表示為 algo-*n*)。資源使用率指標包含 CPU 總使用率、總 GPU 使用率、總 CPU 記憶體使用率、總 GPU 記憶體使用率、總 I/O 等待時間，以及總網路輸入位元數。該表顯示了最小值和最大值，以及 p99，p90 和 p50 百分位數。

![\[資源使用率總結資料表\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/debugger/debugger-studio-insights-resource-util-summary.png)


### 資源使用率時間序列圖
<a name="debugger-on-studio-insights-sys-controller"></a>

您可以使用時間序列圖表查看資源使用率的更多詳細資訊，並識別每個執行個體顯示任何不需要的使用率的時間間隔，例如低 GPU 使用率和 CPU 瓶頸，這些瓶頸會浪費昂貴的執行個體。

**時間序列圖形控制器使用者介面**

下列螢幕擷取畫面顯示用於調整時間序列圖表的使用者介面控制器。

![\[\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/debugger/debugger-insights-graph-controller.png)

+ **algo-1**：請使用此下拉式清單選擇您要查看的節點。
+ **放大**：請使用此按鈕放大時間序列圖表，並檢視較短的時間間隔。
+ **縮小**：請使用此按鈕縮小時間序列圖表，並檢視更大的時間間隔。
+ **向左移動**：將時間序列圖表移至較早的時間間隔。
+ **向右移動**：將時間序列圖表移至較晚的時間間隔。
+ **修正時間範圍**：使用此核取方塊可修正或復原時間序列圖表，以顯示從第一個資料點到最後一個資料點的完整檢視。

**CPU 利用率和 I/O 等待時間**

前兩個圖表顯示一段時間內的 CPU 利用率和 I/O 等待時間。依照預設值，這些圖表會顯示 CPU 利用率的平均值，以及花在 CPU 核心上的 I/O 等待時間。您可以選取一或多個 CPU 核心，方法是選取要在單一圖表上繪製圖形的標籤，並比較不同核心的使用率。您可以拖曳並放大、縮小以仔細查看特定的時間間隔。

![\[debugger-studio-insight-mockup\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/debugger/debugger-insights-node-cpu.png)


**GPU 使用率和 GPU 記憶體使用率**

下列圖表顯示一段時間內的 GPU 使用率和 GPU 記憶體使用率。依預設值，圖表會顯示一段時間內的平均使用率。您可以選擇 GPU 核心標籤來查看每個核心的使用率。將使用率除以 GPU 核心總數的平均值，即可得出整個硬體系統資源的平均使用率。透過查看平均使用率，您可以檢查 Amazon EC2 執行個體的總體系統資源用量情況。下圖顯示有 8 個 GPU 核心的 `ml.p3.16xlarge` 執行個體訓練工作範例。您可以監控訓練工作是否分佈良好，並充分利用所有 GPU。

![\[debugger-studio-insight-mockup\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/debugger/debugger-studio-insights-node-gpu.gif)


**一段時間的總體系統使用率**

下列熱度圖顯示 `ml.p3.16xlarge` 執行個體在一段時間內的整體系統使用率範例，投影到二維圖上。每個 CPU 和 GPU 核心都列在垂直軸上，並透過顏色方案記錄一段時間內的使用率，其中明亮的顏色代表低使用率，較暗的顏色代表高使用率。請參閱圖右側帶標籤的顏色條，以深入了解哪個顏色級別與哪個使用率相對應。

![\[debugger-studio-insight-mockup\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/debugger/debugger-studio-insights-node-heatmap.png)


## Rules
<a name="debugger-on-studio-insights-rules"></a>

使用**規則**標籤可找出您的訓練工作的分析規則分析總結。如果訓練工作啟動時具有分析規則，文字會以純白色文字強調顯示。非作用中規則會以灰色文字暗化。若要啟動這些規則，請依照[使用透過 Amazon SageMaker Debugger 管理的內建剖析工具規則](use-debugger-built-in-profiler-rules.md)中的指示。

![\[SageMaker Debugger 深入分析儀表板中的規則索引標籤\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/debugger/debugger-insights-rules.png)
