最佳化生成式 AI 推論建議

Amazon SageMaker AI 現在支援推論建議，這項功能可消除手動最佳化和基準測試，以提供最佳的推論效能。除了手動測試 GPU 執行個體類型的組合、提供容器、平行處理策略和最佳化技術之外，您還可以提供模型和工作負載需求，而 SageMaker AI 會傳回已驗證且可供部署使用的組態，並具有實際效能指標。

推論建議會分析模型的架構、縮小組態空間，並套用符合目標的最佳化，例如推測解碼輸送量和核心調校延遲。透過評估多個執行個體類型，您可以為工作負載選取最符合價格的選項。它會對真實 GPU 基礎設施上的每個組態進行基準測試，因此您可以放心地部署並調整推論支出的大小。

運作方式

無論是透過 SageMaker AI Studio 還是 SageMaker AI APIs，推論建議的入門都很簡單。下列步驟說明工作流程。

準備您的模型。指向 Amazon S3 或 SageMaker AI 模型登錄檔中的模型成品。推論建議支援具有 SafeTensor 權重的 HuggingFace 檢查點格式，包括基本模型和自訂或微調模型。
定義您的工作負載。描述您的預期流量模式，包括輸入和輸出字符分佈和並行層級。您可以從 Amazon S3 使用內嵌規格或代表性資料集。
設定您的目標。選擇單一效能目標：最佳化成本、將延遲降至最低，或將輸送量最大化。最多選取要比較的三種執行個體類型。
檢閱結果。SageMaker AI 會傳回已驗證的組態，其中包含實際效能指標：首次使用權杖的時間 (TTFT)、金鑰間延遲、P50/P90/P99 的請求延遲、輸送量和每個組態的成本。每個組態都可以部署。
部署。使用來自 SageMaker AI Studio 的單一動作，或透過 API 以程式設計方式將所選組態部署至 SageMaker AI 推論端點。

您也可以對現有的生產端點進行基準測試，以驗證目前的效能或與新組態進行比較。

使用案例

以下是推論建議的常見使用案例。

部署前驗證。在承諾生產部署之前，最佳化和基準化新模型。在投資擴展模型之前，驗證模型的執行方式。
更新後的迴歸測試。驗證容器更新、架構升級或提供程式庫版本之後的效能。在推送至生產環境之前，請確認您的組態仍處於最佳狀態。
條件變更時的正確大小。當流量模式轉移或新的執行個體類型可用時，請以小時為單位重新執行推論建議，而不是重新啟動長達數週的手動程序。
模型比較。比較不同執行個體類型模型變體的效能和成本，以便在生產部署之前進行明智的選擇。
成本最佳化。為現有生產端點建立基準，以識別過度佈建的基礎設施。使用結果來調整大小並減少經常性推論支出。

定價

推論建議不收取額外的服務費用。您可以使用現有的 ML 預留（彈性訓練計劃），無需額外的運算成本，或使用自動佈建的隨需運算。

支援的區域

推論建議可在下列 AWS 區域取得：

美國東部 (維吉尼亞北部)
美國東部 (俄亥俄)
美國西部 (奧勒岡)
亞太地區 (新加坡)
亞太地區 (東京)
歐洲 (法蘭克福)
歐洲 (愛爾蘭)

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

推論最佳化

設定工作負載組態