

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 針對延遲最佳化模型推論
<a name="latency-optimized-inference"></a>

**注意**  
延遲最佳化推論功能為 的預覽版本 Amazon Bedrock ，可能會有所變更。

中基礎模型的延遲最佳化推論，可為 AI 應用程式 Amazon Bedrock 提供更快的回應時間並改善回應能力。最佳化版本的 [https://docs.aws.amazon.com/nova/latest/userguide/what-is-nova.html](https://docs.aws.amazon.com/nova/latest/userguide/what-is-nova.html)、[Anthropic 的 Claude 3.5 Haiku 模型](https://aws.amazon.com/bedrock/claude/)和 [Meta 的 Llama 3.1 405B 和 70B 模型](https://aws.amazon.com/bedrock/llama/)可大幅降低延遲，而不會影響準確性。

存取延遲最佳化功能不需要額外的設定或模型微調，可讓您以更快的回應時間立即增強現有應用程式。您可以在呼叫 Amazon Bedrock 執行時期 API 時，將「延遲」參數設定為「最佳化」。如果您選取「標準」作為調用選項，您的請求將由標準推論提供。根據預設，所有請求都會透過「標準」路由。

```
"performanceConfig" : {
    "latency" : "standard | optimized" 
}
```

一旦您達到模型延遲最佳化的使用配額，我們將嘗試以標準延遲來提供請求。在這種情況下，請求將按標準延遲率收費。服務請求的延遲組態會顯示在 API 回應和 AWS CloudTrail 日誌中。您也可以在「model-id\+latency-optimized」下的 Amazon CloudWatch 日誌中檢視延遲最佳化請求的指標。

延遲最佳化推論適用於 Meta 的 Llama 3.1 70B 和 405B，以及透過[跨區域推論](https://docs.aws.amazon.com/bedrock/latest/userguide/cross-region-inference.html)美國東部 (俄亥俄) 和美國西部 (奧勒岡) 區域中 Anthropic 的 Claude 3.5 Haiku。

透過[跨區域推論](https://docs.aws.amazon.com/bedrock/latest/userguide/cross-region-inference.html)，延遲最佳化推論適用於美國東部 (維吉尼亞北部)、美國東部 (俄亥俄) 和美國西部 (奧勒岡) 區域中的 Amazon Nova Pro。

如需有關定價的詳細資訊，請造訪[定價頁面](https://aws.amazon.com/bedrock/pricing/)。

**注意**  
 Llama 3.1 405B 的延遲最佳化推論目前支援輸入和輸出字符總數高達 11K 的請求。對於較大的字符計數請求，我們將返回標準模式。

下表顯示支援延遲最佳化的推論設定檔：


| 供應商 | 模型 | 模型 ID | 跨區域推論設定檔支援 | 
| --- | --- | --- | --- | 
| Amazon | Nova Pro | amazon.nova-pro-v1:0 | us-east-1<br />us-east-2 | 
| Anthropic | Claude 3.5 Haiku | anthropic.claude-3-5-haiku-20241022-v1:0 | us-east-2<br />us-west-2 | 
| Meta | Llama 3.1 405B Instruct | meta.llama3-1-405b-instruct-v1:0 | us-east-2 | 
| Meta | Llama 3.1 70B Instruct | meta.llama3-1-70b-instruct-v1:0 | us-east-2<br />us-west-2 | 

如需推論設定檔的詳細資訊，請參閱 [推論設定檔支援的區域和模型](inference-profiles-support.md)。