本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# CloudWatch 解決方案：Amazon EC2 上的 NVIDIA GPU 工作負載
<a name="Solution-NVIDIA-GPU-On-EC2"></a>

此解決方案可協助您透過 CloudWatch 代理程式，為在 EC2 執行個體上執行的 NVIDIA GPU 工作負載設定開箱即用的指標收集功能。除此之外，還可協助您設定預先設定的 CloudWatch 儀表板。如需所有 CloudWatch 可觀測性解決方案的一般資訊，請參閱[CloudWatch 可觀測性解決方案](Monitoring-Solutions.md)。

**Topics**
+ [要求](#Solution-NVIDIA-GPU-On-EC2-Requirements)
+ [優勢](#Solution-NVIDIA-GPU-On-EC2-Benefits)
+ [此解決方案的 CloudWatch 代理程式組態](#Solution-NVIDIA-GPU-CloudWatch-Agent)
+ [部署解決方案的代理程式](#Solution-NVIDIA-GPU-Agent-Deploy)
+ [建立 NVIDIA GPU 解決方案儀表板](#Solution-NVIDIA-GPU-Dashboard)

## 要求
<a name="Solution-NVIDIA-GPU-On-EC2-Requirements"></a>

此解決方案適用於下列情況：
+ 運算：Amazon EC2
+ 在特定的 EC2 執行個體中最多支援 500 個 GPUs AWS 區域
+ CloudWatch 代理程式的最新版本
+ EC2 執行個體上安裝的 SSM 代理程式
+ EC2 執行個體必須已安裝 NVIDIA 驅動程式。某些 Amazon Machine Image (AMI) 上預先安裝了 NVIDIA 驅動程式。或者，可以手動安裝驅動程式。如需詳細資訊，請參閱[在 Linux 執行個體上安裝 NVIDIA 驅動程式](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/install-nvidia-driver.html)。

**注意**  
AWS Systems Manager (SSM 代理程式） 預先安裝在由 AWS 和信任的第三方提供的一些 [Amazon Machine Image AMIs)](https://docs.aws.amazon.com/systems-manager/latest/userguide/ami-preinstalled-agent.html) 上。如果未安裝代理程式，您可以依循適用於您作業系統類型的程序手動安裝。  
[在適用於 Linux 的 EC2 執行個體上手動安裝和解除安裝 SSM 代理程式](https://docs.aws.amazon.com/systems-manager/latest/userguide/manually-install-ssm-agent-linux.html)
[在適用於 macOS 的 EC2 執行個體上手動安裝和解除安裝 SSM 代理程式](https://docs.aws.amazon.com/systems-manager/latest/userguide/manually-install-ssm-agent-macos.html)
[在適用於 Windows Server 的 EC2 執行個體上手動安裝和解除安裝 SSM 代理程式](https://docs.aws.amazon.com/systems-manager/latest/userguide/manually-install-ssm-agent-windows.html)

## 優勢
<a name="Solution-NVIDIA-GPU-On-EC2-Benefits"></a>

此解決方案提供 NVIDIA 監控功能，針對下列使用案例提供寶貴洞察：
+ 針對效能瓶頸或對其他資源的需求，分析 GPU 和記憶體用量。
+ 監控溫度和功耗，以確保 GPU 在安全範圍內運作。
+ 評估 GPU 影片工作負載的編碼器效能。
+ 驗證 PCIe 連線是否符合預期世代與頻寬。
+ 監控 GPU 時鐘速度，以偵測擴展和限流問題。

以下是此解決方案的主要優勢：
+ 透過 CloudWatch 代理程式組態自動執行 NVIDIA 指標收集，免除手動檢測需求。
+ 提供預先設定的整合式 CloudWatch 儀表板，專門用於監控 NVIDIA 指標。儀表板將自動處理透過此解決方案設定之新 NVIDIA EC2 執行個體產生的指標，即使您第一次建立儀表板時這些指標不存在。

下圖是此解決方案之儀表板的範例。

![NVIDIA GPU 解決方案的儀表板範例。](http://docs.aws.amazon.com/zh_tw/AmazonCloudWatch/latest/monitoring/images/NVIDIADashboard.png)


### 成本
<a name="Solution-NVIDIA-GPU-On-EC2-Costs"></a>

此解決方案會在您的帳戶中建立並使用資源。您需要支付標準用量的費用，包括下列項目：
+ CloudWatch 代理程式收集的所有指標以自訂指標計費。此解決方案使用的指標數目取決於 EC2 主機的數目。
  + 為此解決方案設定的每個 EC2 主機，每 GPU 總共可發布 17 個指標。
+ 一個自訂儀表板。
+ CloudWatch 代理程式請求的 API 操作，用於發布指標。在此解決方案的預設組態下，CloudWatch 代理程式每分鐘會針對每個 EC2 主機呼叫 **PutMetricData** 一次。這表示在一個 30 天的月份，針對每個 EC2 主機，系統將呼叫 **PutMetricData** API `30*24*60=43,200` 次。

如需 CloudWatch 定價的詳細資訊，請參閱 [Amazon CloudWatch 定價](https://aws.amazon.com/cloudwatch/pricing/)。

定價計算器可協助您估算使用此解決方案的每月大致費用。

**使用定價計算器來估算解決方案的每月費用**

1. 開啟 [Amazon CloudWatch 定價計算器](https://calculator.aws/#/createCalculator/CloudWatch)。

1. 對於**選擇區域**，選取您要將解決方案部署到的區域。

1. 在**指標**區段中，對於**指標數目**，輸入 **17 \* average number of GPUs per EC2 host \* number of EC2 instances configured for this solution**。

1. 在 **API** 區段中，對於 **API 請求數目**，輸入 **43200 \* number of EC2 instances configured for this solution**。

1. 依預設，CloudWatch 代理程式每分鐘會為每個 EC2 主機執行 **PutMetricData** 操作一次。

1. 在**儀表板和警示**區段中，對於**儀表板數目**，輸入 **1**。

1. 可以在定價計算器底部查看每月預估費用。

## 此解決方案的 CloudWatch 代理程式組態
<a name="Solution-NVIDIA-GPU-CloudWatch-Agent"></a>

CloudWatch 代理程式是在您的伺服器和容器化環境中持續自主執行的軟體。它從您的基礎結構和應用程式收集指標、日誌和追蹤，並將其傳送到 CloudWatch 和 X-Ray。

如需 CloudWatch 代理程式的詳細資訊，請參閱[使用 CloudWatch 代理程式收集指標、日誌和追蹤](Install-CloudWatch-Agent.md)。

此解決方案中的代理程式組態會收集一組指標，協助您開始監控和觀測 NVIDIA GPU。CloudWatch 代理程式可以設定為，收集的 NVIDIA GPU 指標數多於儀表板預設顯示的指標數。如需您可以收集之所有 NVIDIA GPU 指標的清單，請參閱[收集 NVIDIA GPU 指標](CloudWatch-Agent-NVIDIA-GPU.md)。

### 此解決方案的代理程式組態
<a name="Solution-NVIDIA-GPU-Agent-Config"></a>

代理程式收集的指標在代理程式組態中定義。解決方案提供代理程式組態，以收集適用於解決方案儀表板的建議指標與適當維度。

在配備 NVIDIA GPU 的 EC2 執行個體上，使用以下 CloudWatch 代理程式組態。組態將儲存為 SSM 參數儲存區中的參數，如稍後的[步驟 2：將建議的 CloudWatch 代理程式設定檔儲存在 Systems Manager 參數儲存區中](#Solution-NVIDIA-GPU-Agent-Step2)中所述。

```
{
    "metrics": {
        "namespace": "CWAgent",
        "append_dimensions": {
            "InstanceId": "${aws:InstanceId}"
        },
        "metrics_collected": {
            "nvidia_gpu": {
                "measurement": [
                    "utilization_gpu",
                    "temperature_gpu",
                    "power_draw",
                    "utilization_memory",
                    "fan_speed",
                    "memory_total",
                    "memory_used",
                    "memory_free",
                    "pcie_link_gen_current",
                    "pcie_link_width_current",
                    "encoder_stats_session_count",
                    "encoder_stats_average_fps",
                    "encoder_stats_average_latency",
                    "clocks_current_graphics",
                    "clocks_current_sm",
                    "clocks_current_memory",
                    "clocks_current_video"
                ],
                "metrics_collection_interval": 60
            }
        }
    },
    "force_flush_interval": 60
}
```

## 部署解決方案的代理程式
<a name="Solution-NVIDIA-GPU-Agent-Deploy"></a>

安裝 CloudWatch 代理程式的方法有很多種，具體取決於使用案例。建議您使用 Systems Manager 安裝此解決方案。它提供主控台體驗，並可讓您更輕鬆地管理單一 AWS 帳戶中的受管伺服器機群。本節說明採用 Systems Manager，適用於您沒有以現有組態執行 CloudWatch 代理程式的情況。您可以依循[確認 CloudWatch 代理程式正在執行中](troubleshooting-CloudWatch-Agent.md#CloudWatch-Agent-troubleshooting-verify-running)中的步驟，檢查 CloudWatch 代理程式是否正在執行。

如果您已在部署工作負載和管理代理程式組態的 EC2 主機上執行 CloudWatch 代理程式，可以略過本節中的說明，並依循現有部署機制來更新組態。請務必將 NVIDIA GPU 的代理程式組態與您現有的代理程式組態合併，然後部署合併的組態。如果您使用 Systems Manager 來儲存和管理 CloudWatch 代理程式的組態，可以將組態合併到現有的參數值。如需詳細資訊，請參閱[管理 CloudWatch 代理程式設定檔](https://docs.aws.amazon.com/prescriptive-guidance/latest/implementing-logging-monitoring-cloudwatch/create-store-cloudwatch-configurations.html)。

**注意**  
使用 Systems Manager 部署下列 CloudWatch 代理程式組態，將取代或覆寫 EC2 執行個體上的任何現有 CloudWatch 代理程式組態。您可以根據自己的特定環境或使用案例修改此組態。組態中定義的指標，是儀表板提供解決方案需要滿足的最低要求。

部署程序包含以下步驟：
+ 步驟 1：確定目標 EC2 執行個體具有所需的 IAM 許可。
+ 步驟 2：將建議的代理程式設定檔儲存在 Systems Manager 參數儲存區中。
+ 步驟 3：使用 CloudFormation 堆疊在一或多個 EC2 執行個體上安裝 CloudWatch 代理程式。
+ 步驟 4：確認已正確完成代理程式設定。

### 步驟 1：確定目標 EC2 執行個體具有所需的 IAM 許可
<a name="Solution-NVIDIA-GPU-Agent-Step1"></a>

您必須授與 Systems Manager 安裝和設定 CloudWatch 代理程式的許可。還必須授與 CloudWatch 代理程式從 EC2 執行個體發布遙測到 CloudWatch 的許可。確定連結至執行個體的 IAM 角色已連結 **CloudWatchAgentServerPolicy** 和 **AmazonSSMManagedInstanceCore** IAM 政策。
+ 建立角色之後，將角色連結至 EC2 執行個體。若要將角色連結至 EC2 執行個體，請依循[將 IAM 角色連結至執行個體](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/attach-iam-role.html)中的步驟。

### 步驟 2：將建議的 CloudWatch 代理程式設定檔儲存在 Systems Manager 參數儲存區中
<a name="Solution-NVIDIA-GPU-Agent-Step2"></a>

參數儲存區透過安全地儲存和管理組態參數，簡化在 EC2 執行個體上安裝 CloudWatch 代理程式的流程，無需使用硬式編碼值。這可確保部署程序更安全、更靈活，實現集中式管理，並能更輕鬆地更新多個執行個體的組態。

依循下列步驟，將建議的 CloudWatch 代理程式設定檔儲存為參數儲存區中的參數。

**建立 CloudWatch 代理程式設定檔作為參數**

1. 在 https：//[https://console.aws.amazon.com/systems-manager/](https://console.aws.amazon.com/systems-manager/) 開啟 AWS Systems Manager 主控台。

1. 確認主控台上選取的區域是執行 NVIDIA GPU 工作負載的區域。

1. 從導覽窗格中，選擇**應用程式管理**、**參數儲存區**。

1. 依循下列步驟為組態建立新的參數。

   1. 選擇 **Create parameter (建立參數)**。

   1. 在**名稱**方塊中，輸入您將用於在後續步驟中引用 CloudWatch 代理程式設定檔的名稱。例如 **AmazonCloudWatch-NVIDIA-GPU-Configuration**。

   1. (選用) 在**描述**方塊中，輸入參數描述。

   1. 對於**參數層**，選擇**標準**。

   1. 在**類型**選擇**字串**。

   1. 對於**資料類型**，選擇**文字**。

   1. 在**值**方塊中，貼上 [此解決方案的代理程式組態](#Solution-NVIDIA-GPU-Agent-Config)中列示的對應 JSON 區塊。

   1. 選擇 **Create parameter (建立參數)**。

### 步驟 3：安裝 CloudWatch 代理程式並使用 CloudFormation 範本套用組態
<a name="Solution-NVIDIA-GPU-Agent-Step3"></a>

您可以使用 AWS CloudFormation 安裝代理程式，並將其設定為使用您在先前步驟中建立的 CloudWatch 代理程式組態。

**為此解決方案安裝和設定 CloudWatch 代理程式**

1. 使用此連結開啟 CloudFormation **快速建立堆疊**精靈：https：//[https://console.aws.amazon.com/cloudformation/home？\#/堆疊/Quckcreate？templateURL=https://aws-observability-solutions-prod-us-east-1.s3.us-east-1.amazonaws.com/CloudWatchAgent/CFN/v1.0.0/cw-agent-installation-template-1.0.0.json](https://console.aws.amazon.com/cloudformation/home?#/stacks/quickcreate?templateURL=https://aws-observability-solutions-prod-us-east-1.s3.us-east-1.amazonaws.com/CloudWatchAgent/CFN/v1.0.0/cw-agent-installation-template-1.0.0.json)。

1. 確認主控台上選取的區域是執行 NVIDIA GPU 工作負載的區域。

1. 對於**​堆疊名稱**，輸入可識別此堆疊的名稱，例如 **CWAgentInstallationStack**。

1. 在**參數**區段中，執行以下動作：

   1. 對於 **CloudWatchAgentConfigSSM**，輸入您先前建立之代理程式組態的 Systems Manager 參數名稱，例如 **AmazonCloudWatch-NVIDIA-GPU-Configuration**。

   1. 若要選取目標執行個體，您有兩個選項。

      1. 對於 **InstanceIds**，指定以逗號分隔的執行個體 ID 清單，列出您想要使用此組態安裝 CloudWatch 代理程式的執行個體 ID。您可以列出一個或多個執行個體。

      1. 若要大規模部署，可以指定 **TagKey** 和對應的 **TagValue**，以鎖定使用此標籤和值的所有 EC2 執行個體。指定 **TagKey** 時，必須指定對應的 **TagValue**。(對於 Auto Scaling 群組，請為 **TagKey** 指定 **aws:autoscaling:groupName**，並為 **TagValue** 指定 Auto Scaling 群組名稱，以部署到 Auto Scaling 群組內的所有執行個體。)

1. 檢閱設定，然後選擇**建立堆疊**。

如果想要先編輯範本檔案以進行自訂，請選擇**建立堆疊精靈**下的**上傳範本檔案**選項，以上傳經編輯的範本。如需詳細資訊，請參閱在 [CloudFormation 主控台上建立堆疊](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/cfn-console-create-stack.html)。

**注意**  
完成這個步驟後，此 Systems Manager 參數將與目標執行個體中執行的 CloudWatch 代理程式關聯。這表示：  
如果刪除 Systems Manager 參數，代理程式將停止運作。
如果編輯 Systems Manager 參數，組態變更會自動套用至代理程式，排程頻率預設為 30 天。
如果想要即刻將變更套用至此 Systems Manager 參數，必須再次執行此步驟。如需關於關聯的更多資訊，請參閱[在 Systems Manager 中使用關聯](https://docs.aws.amazon.com/systems-manager/latest/userguide/state-manager-associations.html)。

### 步驟 4：確認代理程式設定已正確設定
<a name="Solution-NVIDIA-GPU-Agent-Step4"></a>

您可以依循[確認 CloudWatch 代理程式正在執行中](troubleshooting-CloudWatch-Agent.md#CloudWatch-Agent-troubleshooting-verify-running)中的步驟，檢查 CloudWatch 代理程式是否已安裝。若 CloudWatch 代理程式未安裝且未執行，請確認您已正確完成所有設定。
+ 請確定您已連結具有 EC2 執行個體正確許可的角色，如[步驟 1：確定目標 EC2 執行個體具有所需的 IAM 許可](#Solution-NVIDIA-GPU-Agent-Step1)中所述。
+ 請確定您已正確設定 Systems Manager 參數的 JSON。請遵循 [使用 安裝 CloudWatch 代理程式的故障診斷 CloudFormation](Install-CloudWatch-Agent-New-Instances-CloudFormation.md#CloudWatch-Agent-CloudFormation-troubleshooting) 中的步驟。

若所有設定皆正確無誤，您應可看到 NVIDIA GPU 指標已發布至 CloudWatch。可以檢查 CloudWatch 主控台，以確認系統是否正在發布這些指標。

**驗證 NVIDIA GPU 指標是否已發布至 CloudWatch**

1. 透過 [https://console.aws.amazon.com/cloudwatch/](https://console.aws.amazon.com/cloudwatch/) 開啟 CloudWatch 主控台。

1. 依序選擇**指標**、**所有指標**。

1. 請確定您已選取部署解決方案的區域，然後選擇**自訂命名空間**、**CWAgent**。

1. 搜尋 [此解決方案的代理程式組態](#Solution-NVIDIA-GPU-Agent-Config) 中提到的指標，例如 `nvidia_smi_utilization_gpu`。如果您看到這些指標的結果，則指標會發布至 CloudWatch。

## 建立 NVIDIA GPU 解決方案儀表板
<a name="Solution-NVIDIA-GPU-Dashboard"></a>

此解決方案提供的儀表板會透過彙總和呈現所有執行個體的指標，呈現 NVIDIA GPU 指標。儀表板會顯示每個指標的主要貢獻因子 (每個指標小工具的前 10 個因子) 明細。這可協助您快速識別對觀測指標有重大貢獻的極端值或執行個體。

若要建立儀表板，可以使用下列選項：
+ 使用 CloudWatch 主控台建立儀表板。
+ 使用 AWS CloudFormation 主控台部署儀表板。
+ 下載 AWS CloudFormation 基礎設施做為程式碼，並將其整合為持續整合 (CI) 自動化的一部分。

透過使用 CloudWatch 主控台建立儀表板，您可以在實際建立和收費之前預覽儀表板。

**注意**  
在此解決方案 CloudFormation 中使用 建立的儀表板會顯示部署解決方案的區域指標。請務必在發佈 NVIDIA GPU 指標的區域中建立 CloudFormation 堆疊。  
如果已在 CloudWatch 代理程式組態中指定 CWAgent 以外的自訂命名空間，則必須變更儀表板的 CloudFormation 範本，將 CWAgent 替換為您正在使用的自訂命名空間。

**透過 CloudWatch 主控台建立儀表板**

1. 使用此連結開啟 CloudWatch 主控台**建立儀表板**：[ https://console.aws.amazon.com/cloudwatch/home?\#dashboards?dashboardTemplate=NvidiaGpuOnEc2&referrer=os-catalog ](https://console.aws.amazon.com/cloudwatch/home?#dashboards?dashboardTemplate=NvidiaGpuOnEc2&referrer=os-catalog)。

1. 確認主控台上選取的區域是執行 NVIDIA GPU 工作負載的區域。

1. 輸入儀表板的名稱，然後選擇**建立儀表板**。

   為方便區分此儀表板與其他區域的類似儀表板，建議在儀表板名稱中包含區域名稱，例如 **NVIDIA-GPU-Dashboard-us-east-1**。

1. 預覽儀表板，然後選擇**儲存**以建立儀表板。

**透過 建立儀表板 CloudFormation**

1. 使用此連結開啟 CloudFormation **快速建立堆疊**精靈：https：//[https://console.aws.amazon.com/cloudformation/home？\#/堆疊/Quckcreate？templateURL=https://aws-observability-solutions-prod-us-east-1.s3.us-east-1.amazonaws.com/NVIDIA\_GPU\_EC2/CloudWatch/CFN/v1.0.0/dashboard-template-1.0.0.json](https://console.aws.amazon.com/cloudformation/home?#/stacks/quickcreate?templateURL=https://aws-observability-solutions-prod-us-east-1.s3.us-east-1.amazonaws.com/NVIDIA_GPU_EC2/CloudWatch/CFN/v1.0.0/dashboard-template-1.0.0.json)。

1. 確認主控台上選取的區域是執行 NVIDIA GPU 工作負載的區域。

1. 對於**​堆疊名稱**，輸入可識別此堆疊的名稱，例如 **NVIDIA-GPU-DashboardStack**。

1. 在**參數**區段的 **DashboardName** 參數下，指定儀表板名稱。

1. 為方便區分此儀表板與其他區域的類似儀表板，建議在儀表板名稱中包含區域名稱，例如 **NVIDIA-GPU-Dashboard-us-east-1**。

1. 在**功能和轉換**下，確認轉換的存取功能。請注意， CloudFormation 不會新增任何 IAM 資源。

1. 檢閱設定，然後選擇**建立堆疊**。

1. 堆疊狀態變為 **CREATE\_COMPLETE** 之後，請在所建立堆疊下方選擇**資源**索引標籤，然後選擇**實體 ID** 下方的連結以前往儀表板。也可以在 CloudWatch 主控台中存取儀表板，方法是選擇主控台左側導覽窗格中的**儀表板**，然後在**自訂儀表板**下尋找儀表板名稱。

如果想要編輯範本檔案以針對任何用途自訂範本檔案，可以使用**建立堆疊精靈**下的**上傳範本檔案**選項來上傳經編輯的範本。如需詳細資訊，請參閱[在 CloudFormation 主控台上建立堆疊](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/cfn-console-create-stack.html)。可以使用此連結下載範本：[https://aws-observability-solutions-prod-us-east-1.s3.us-east-1.amazonaws.com/NVIDIA\_GPU\_EC2/CloudWatch/CFN/v1.0.0/dashboard-template-1.0.0.json](https://aws-observability-solutions-prod-us-east-1.s3.us-east-1.amazonaws.com/NVIDIA_GPU_EC2/CloudWatch/CFN/v1.0.0/dashboard-template-1.0.0.json)。

### 開始使用 NVIDIA GPU 儀表板
<a name="Solution-NVIDIA-GPU-Dashboard-GetStarted"></a>

以下是您可以嘗試使用新 NVIDIA GPU 儀表板處理的一些任務。這些任務可讓您驗證儀表板是否運作正常，並提供實際操作經驗，協助您運用儀表板監控 NVIDIA GPU。當您嘗試這些功能時，可逐漸熟悉儀表板的操作介面，並學會解讀視覺化的指標資料。

**檢閱 GPU 使用率**

在**使用率**區段中，尋找 **GPU 使用率**和**記憶體使用率**小工具。這些數值分別顯示 GPU 實際用於運算的時間百分比，以及全域記憶體讀取或寫入的百分比。高使用率可能表示存在潛在的效能瓶頸或需要額外的 GPU 資源。

**分析 GPU 記憶體用量**

在**記憶體**區段中，尋找**記憶體總計**、**已使用記憶體**和**可用記憶體**小工具。這些資訊能讓我們洞悉 GPU 的記憶體總容量，以及當下正在被消耗或仍可使用的記憶體容量。記憶體壓力可能導致效能問題或記憶體不足錯誤，因此請務必監控這些指標，並確保有足夠的記憶體可供工作負載使用。

**監控溫度與功耗**

在**溫度/功率**區段中，尋找 **GPU 溫度**和**功耗**小工具。這些指標對於確保您的 GPU 在安全的溫度與功率範圍內運作至關重要。

**識別編碼器效能**

在**編碼器**區段中，尋找**編碼器工作階段計數**、**平均 FPS** 和**平均延遲**小工具。如果您在 GPU 上執行視訊編碼工作負載，這些指標便有參考價值。請監控這些指標，以確保您的編碼器在以最佳方式執行，並識別任何潛在瓶頸或效能問題。

**檢查 PCIe 連結狀態**

在 **PCIe** 區段中，尋找 **PCIe 連結產生**和 **PCIe 連結頻寬**小工具。這些指標提供將 GPU 連線至主機系統的 PCIe 連結相關資訊。確保連結以預期世代與頻寬運作，以避免因 PCIe 瓶頸導致的潛在效能限制。

**檢閱 GPU 時鐘**

在**時鐘**區段中，尋找**圖形時鐘**、**SM 時鐘**、**記憶體時鐘**和**視訊時鐘**小工具。這些指標顯示各 GPU 元件目前的運作頻率。監控這些時鐘有助於識別可能影響效能的 GPU 時鐘擴展或頻率限流問題。