

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 向量擷取
<a name="serverless-vector-ingestion"></a>

向量擷取可協助您快速擷取和索引 OpenSearch 網域和 OpenSearch Serverless 集合。此服務會檢查您的網域或集合，並代表您建立擷取管道，將您的資料載入 OpenSearch。您的網域或集合的擷取和索引是由 Vector 擷取為您管理。

您可以透過啟用 和 [自動最佳化](serverless-auto-optimize.md)功能來加速[向量索引的 GPU 加速](gpu-acceleration-vector-index.md)和最佳化索引程序。使用向量擷取，您不需要管理基礎基礎設施、修補程式軟體或擴展叢集，以支援向量資料庫索引和擷取。這可讓您快速建置向量資料庫，以符合您的需求。

## 運作方式
<a name="vector-ingestion-how-it-works"></a>

向量擷取會檢查您的網域或集合及其索引。您可以手動設定向量索引欄位，或允許 OpenSearch 使用自動組態。

向量擷取使用 OpenSearch Ingestion (OSI) 作為 Amazon S3 和 OpenSearch 之間的資料管道。服務會平行處理向量，以最佳化擷取速度，同時遵守 OSI 和 OpenSearch 的擴展限制。

## OpenSearch Vector 擷取定價
<a name="vector-ingestion-pricing"></a>

在任何特定時間，您只需支付配置給管道的向量擷取 OCUs 數量，無論是否有資料流經管道。OpenSearch 向量擷取會根據用量向上或向下擴展管道容量，立即容納您的工作負載。

如需完整定價詳細資訊，請參閱 [Amazon OpenSearch Service 定價](https://aws.amazon.com/opensearch-service/pricing/)。

## 先決條件
<a name="vector-ingestion-prerequisites"></a>

使用向量擷取之前，請確定您有下列資源：
+ Amazon S3 儲存貯體，其中包含 Parquet 或 JSONL 格式的 OpenSearch JSON 文件
+ OpenSearch 資源 - 網域或集合
+ OpenSearch 版本 `2.19` 或更新版本 （自動最佳化整合時需要）

## 建立向量資料庫
<a name="create-vector-injection-job"></a>

使用向量擷取任務建立工作流程來設定自動向量索引調校，並加速大規模索引建置。

**注意**  
隨著使用者介面定案，本節中的程序內容可能會有所變更。工作流程可能會在未來的版本中更新，以反映最新的主控台體驗。

**建立向量擷取任務**

1. 在**向量擷取任務詳細資訊**區段中，針對**名稱**輸入擷取任務的名稱。

1. 在**資料來源**區段中，設定下列項目：

   1. 針對 **Amazon S3 URI**，輸入包含 OpenSearch Service JSON 文件的 Amazon S3 儲存貯體位置。

   1. 選擇**瀏覽 Amazon S3** 從可用的儲存貯體中選取，或選擇**檢視**以預覽儲存貯體內容。

   1. 針對**內容類型**，選取下列項目：
      + **向量** - 文件已包含向量，且不需要進一步產生向量內嵌。

1. 在**資料來源許可**區段中，設定存取許可：

   1. 針對 **IAM 角色**，選擇下列其中一項：
      + **Create a new role (建立新角色)**
      + **使用現有角色**

   1. 針對 **IAM 角色名稱**，輸入角色的名稱。

1. 在**目的地**區段中，設定 OpenSearch Service 端點：

   1. 針對**端點**，選擇**從目前區域中的相容網域或集合中選擇選項**。

   1. 選擇**下一步**以繼續選取的端點。

1. 選擇**下一步**以繼續下一個步驟，或選擇**取消**以退出而不儲存。

## 相關功能
<a name="vector-ingestion-related-features"></a>

向量擷取可與下列 Amazon OpenSearch Service 功能搭配使用，以最佳化向量資料庫效能：

[向量索引的 GPU 加速](gpu-acceleration-vector-index.md)  
GPU 加速可減少建立、更新和刪除向量索引所需的時間。與向量擷取搭配使用時，您可以大幅加速大規模向量資料庫的擷取和索引程序。

[自動最佳化](serverless-auto-optimize.md)  
自動最佳化會自動探索搜尋延遲、品質和記憶體需求之間的最佳權衡。向量擷取可以在擷取程序期間套用自動最佳化建議，以確保您的向量索引已進行最佳設定。

為了獲得最佳結果，請考慮在使用向量擷取建置大規模向量資料庫時啟用 GPU 加速和自動最佳化。