View a markdown version of this page

最佳化生成式 AI 推論建議 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

最佳化生成式 AI 推論建議

Amazon SageMaker AI 現在支援推論建議,這項功能可消除手動最佳化和基準測試,以提供最佳的推論效能。除了手動測試 GPU 執行個體類型的組合、提供容器、平行處理策略和最佳化技術之外,您還可以提供模型和工作負載需求,而 SageMaker AI 會傳回已驗證且可供部署使用的組態,並具有實際效能指標。

推論建議會分析模型的架構、縮小組態空間,並套用符合目標的最佳化,例如推測解碼輸送量和核心調校延遲。透過評估多個執行個體類型,您可以為工作負載選取最符合價格的選項。它會對真實 GPU 基礎設施上的每個組態進行基準測試,因此您可以放心地部署並調整推論支出的大小。

運作方式

無論是透過 SageMaker AI Studio 還是 SageMaker AI APIs,推論建議的入門都很簡單。下列步驟說明工作流程。

  1. 準備您的模型。指向 Amazon S3 或 SageMaker AI 模型登錄檔中的模型成品。推論建議支援具有 SafeTensor 權重的 HuggingFace 檢查點格式,包括基本模型和自訂或微調模型。

  2. 定義您的工作負載。描述您的預期流量模式,包括輸入和輸出字符分佈和並行層級。您可以從 Amazon S3 使用內嵌規格或代表性資料集。

  3. 設定您的目標。選擇單一效能目標:最佳化成本、將延遲降至最低,或將輸送量最大化。最多選取要比較的三種執行個體類型。

  4. 檢閱結果。SageMaker AI 會傳回已驗證的組態,其中包含實際效能指標:首次使用權杖的時間 (TTFT)、金鑰間延遲、P50/P90/P99 的請求延遲、輸送量和每個組態的成本。每個組態都可以部署。

  5. 部署。使用來自 SageMaker AI Studio 的單一動作,或透過 API 以程式設計方式將所選組態部署至 SageMaker AI 推論端點。

您也可以對現有的生產端點進行基準測試,以驗證目前的效能或與新組態進行比較。

使用案例

以下是推論建議的常見使用案例。

  • 部署前驗證。在承諾生產部署之前,最佳化和基準化新模型。在投資擴展模型之前,驗證模型的執行方式。

  • 更新後的迴歸測試。驗證容器更新、架構升級或提供程式庫版本之後的效能。在推送至生產環境之前,請確認您的組態仍處於最佳狀態。

  • 條件變更時的正確大小。當流量模式轉移或新的執行個體類型可用時,請以小時為單位重新執行推論建議,而不是重新啟動長達數週的手動程序。

  • 模型比較。比較不同執行個體類型模型變體的效能和成本,以便在生產部署之前進行明智的選擇。

  • 成本最佳化。為現有生產端點建立基準,以識別過度佈建的基礎設施。使用結果來調整大小並減少經常性推論支出。

定價

推論建議不收取額外的服務費用。您可以使用現有的 ML 預留 (彈性訓練計劃),無需額外的運算成本,或使用自動佈建的隨需運算。

支援的區域

推論建議可在下列 AWS 區域取得:

  • 美國東部 (維吉尼亞北部)

  • 美國東部 (俄亥俄)

  • 美國西部 (奧勒岡)

  • 亞太地區 (新加坡)

  • 亞太地區 (東京)

  • 歐洲 (法蘭克福)

  • 歐洲 (愛爾蘭)