

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon Bedrock 參考。
<a name="nova-model-bedrock-inference"></a>

訓練並測試 Amazon Nova 模型後，您可以將模型部署到 Amazon Bedrock 以進行生產規模推論。部署程序涉及使用 CreateCustomModel API 建立 Amazon Bedrock 模型、從受管 Amazon S3 儲存貯體將您的模型成品匯出到模型模型模型，然後在模型啟用時，使用隨需或佈建輸送量推論來設定端點。

在 SageMaker 中建立自訂模型後，您可以使用 CreateCustomModel API 從 SageMaker 託管將其部署到 Amazon Bedrock，以執行推論。然後，您可以使用 CreateCustomModelDeployment 來建立 OD 推論端點，或設定參數高效率微調 (PEFT) 模型的佈建輸送量推論。您可以設定完整排名自訂模型的佈建輸送量推論。

您也可以使用 Amazon Nova Forge SDK 部署自訂的 Amazon Nova 模型。Amazon Nova Forge SDK 提供簡化的體驗，讓您從訓練任務或 S3 模型檢查點擷取相關資訊，並將其發佈至 Amazon Bedrock。如需詳細資訊，請參閱 [Amazon Nova Forge SDK](nova-forge-sdk.md)。

如需為自訂模型設定 Amazon Bedrock 推論的詳細步驟，請參閱[將自訂 Amazon Nova 模型部署至 Amazon Bedrock](deploy-custom-model.md)。

下一節提供自訂模型隨需推論的詳細資訊。

## 基於自訂模型的隨需推論
<a name="custom-fine-tune-odi"></a>

隨需 (OD) 推論可讓您在自訂 Amazon Nova 模型上執行推論，而無需維護佈建的輸送量端點。這可協助您最佳化成本並有效率地進行擴展。使用隨需推論時，會根據使用量向您收費，以詞元數計量，包括進出詞元。

### 相容性要求
<a name="custom-fine-tune-odi-compatibility"></a>

適用下列相容性要求：
+ Amazon Nova Pro、Lite 和 Micro 自訂理解模型支援 OD 推論。Nova 自訂內容產生模型不支援隨需推論。
+ 2025 年 7 月 16 日之後訓練的 Amazon Nova 自訂理解模型支援隨需推論。2025 年 7 月 16 日之前訓練的自訂模型與隨需推論不相容。
+ Amazon Bedrock 自訂：使用 Amazon Bedrock 自訂自訂的模型，以及使用 Amazon Bedrock 從教師模型蒸餾的學生模型，均支援隨需推論。
+ SageMaker AI 自訂：對於 SageMaker AI 中自訂的模型，只有在 Amazon Bedrock 上託管的參數高效微調 (PEFT) 模型才支援隨需推論。這包括直接偏好最佳化及 PEFT。經微調的全秩模型不支援隨需推論。

### 模型訓練與推論
<a name="custom-fine-tune-odi-training"></a>

在 2025 年 7 月 16 日之後使用 PEFT 在 Amazon Bedrock 或 SageMaker AI 上訓練新的自訂 Amazon Nova Pro、Lite 或 Micro 模型時，模型會自動與佈建和隨需推論選項相容。您可以在部署模型時選取偏好的推論方法。

若要搭配 2025 年 7 月 16 日之後訓練的模型使用隨需推論，請完成下列步驟：

1. 使用 [Amazon Bedrock 自訂 API](https://docs.aws.amazon.com/nova/latest/userguide/customize-fine-tune-bedrock.html) 或 [SageMaker AI 自訂 API](https://docs.aws.amazon.com/nova/latest/userguide/custom-fine-tune-models-sagemaker-tj.html) 建立新的微調任務。

1. 使用 [CreateCustomModel API](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_CreateCustomModel.html) 將新訓練的模型部署到 Amazon Bedrock。

1. 使用 CustomModelDeployment API 部署以進行隨需推論。

### 速率限制
<a name="custom-fine-tune-odi-limits"></a>

下列每分鐘請求數 (RPM) 和每分鐘詞元數 (TPM) 限制適用於隨需推論請求：


| Base Model for Custom Model | RPM per Custom Model Deployment | TPM per Custom Model Deployment | 
| --- |--- |--- |
| Nova 2 Lite | 2,000 | 4,000,000 | 

若要進一步了解 Amazon Nova 適用的配額，請參閱 [Amazon Nova 的配額](quotas.md)。

### 延遲
<a name="custom-fine-tune-odi-latency"></a>

您可以預期基本模型調用與轉接器之間的端至端延遲差異 (即到第一個詞元的時間 (TTFT)) 為 20-55%。確切的延遲值因模型大小而異，且符合業界標準。