

# SUS05-BP04 將硬體型運算加速器的使用方式最佳化
<a name="sus_sus_hardware_a5"></a>

將加速運算執行個體的使用方式最佳化，以降低工作負載的實體基礎設施需求。

 **常見的反模式：** 
+  未監控 GPU 使用率。 
+  針對工作負載使用一般用途的執行個體，但專用執行個體可以提供更高的效能、較低的成本，以及更優異的效能功耗比。 
+  您使用硬體型運算加速器來執行任務，但使用 CPU 型運算加速器來執行時會更有效率。 

 **建立此最佳實務的優勢：** 將硬體型加速器的使用方式優化，可以降低工作負載的實體基礎設施需求。 

 **未建立此最佳實務時的曝險等級：** 中 

## 實作指引
<a name="implementation-guidance"></a>

 如果需要高處理能力，使用加速運算執行個體可讓您獲得好處，因為其可讓您存取硬體型運算加速器，例如圖形處理單元 (GPU) 和現場可程式化邏輯閘陣列 (FPGA)。這些硬體加速器在執行某些功能 (例如圖形處理或資料模式比對) 時，會比 CPU 型加速器更有效率。許多加速工作負載 (例如轉譯、轉碼和機器學習) 在資源用量方面極為變化不定。只在需要時執行此硬體，不需要時便將其自動除役，以將資源消耗降至最低。 

## 實作步驟
<a name="implementation-steps"></a>
+  識別哪些 [加速運算執行個體](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/accelerated-computing-instances.html) 可以滿足您的要求。 
+  針對機器學習工作負載，請利用專供工作負載使用的專用硬體，例如 [AWS Trainium](https://aws.amazon.com/machine-learning/trainium/)、 [AWS Inferentia](https://aws.amazon.com/machine-learning/inferentia/)，和 [Amazon EC2 DL1](https://aws.amazon.com/ec2/instance-types/dl1/)。AWS Inferentia 執行個體 (例如 Inf2 執行個體) 最多可提供 [比同類 Amazon EC2 執行個體高出 50% 的效能功耗比](https://aws.amazon.com/machine-learning/inferentia/)。 
+  請收集加速運算執行個體的用量指標。例如，您可以使用 CloudWatch 代理程式來收集指標，像是 `utilization_gpu` 和 `utilization_memory` ，並將其用於您的 GPU，相關說明請見 [使用 Amazon CloudWatch 收集 NVIDIA GPU 指標](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Agent-NVIDIA-GPU.html)。 
+  優化硬體加速器的程式碼、網路運作和設定，以確保系統會充分利用基礎硬體。 
  +  [優化 GPU 設定](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/optimize_gpu.html) 
  +  [Deep Learning AMI 中的 GPU 監控和優化](https://docs.aws.amazon.com/dlami/latest/devguide/tutorial-gpu.html) 
  +  [將 I/O 優化以針對 Amazon SageMaker AI 中的深度學習訓練進行 GPU 效能調校](https://aws.amazon.com/blogs/machine-learning/optimizing-i-o-for-gpu-performance-tuning-of-deep-learning-training-in-amazon-sagemaker/) 
+  使用最新的高效能程式庫和 GPU 驅動程式。 
+  使用自動化來釋出不使用的 GPU 執行個體。 

## 資源
<a name="resources"></a>

 **相關文件：** 
+  [加速運算](https://aws.amazon.com/ec2/instance-types/#Accelerated_Computing) 
+ [ 開始建構吧！ 使用自訂晶片和加速器來進行建構 ](https://aws.amazon.com/blogs/architecture/lets-architect-custom-chips-and-accelerators/)
+ [ 如何為工作負載選擇適當的 Amazon EC2 執行個體類型？ ](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-instance-choose-type-for-workload/)
+  [Amazon EC2 VT1 執行個體](https://aws.amazon.com/ec2/instance-types/vt1/) 
+  [Amazon Elastic Graphics](https://docs.aws.amazon.com/AWSEC2/latest/WindowsGuide/elastic-graphics.html) 
+ [ 選擇最佳的 AI 加速器和模型編譯以 Amazon SageMaker AI 推斷電腦視覺 ](https://aws.amazon.com/blogs/machine-learning/choose-the-best-ai-accelerator-and-model-compilation-for-computer-vision-inference-with-amazon-sagemaker/)

 **相關影片：** 
+ [ 如何為深度學習選取 Amazon EC2 GPU 執行個體 ](https://www.youtube.com/watch?v=4bVrIbgGWEA)
+  [深入探討 Amazon EC2 Elastic GPU](https://www.youtube.com/watch?v=HbJ2xxgrcCE) 
+  [部署經濟實惠的深度學習推斷](https://www.youtube.com/watch?v=WiCougIDRsw) 