

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 向量概觀
<a name="vectors"></a>

向量是數值表示法，可協助機器了解和處理資料。在生成式 AI 中，它們提供兩個主要目的：
+ 代表以壓縮形式擷取資料結構的隱含空間
+ 為文字、句子和影像等資料建立內嵌

內嵌 [Word2Vec](https://aws.amazon.com/what-is/embeddings-in-machine-learning/)、[GloVe](https://github.com/stanfordnlp/GloVe) 和 [Amazon Titan Text Embeddings](https://docs.aws.amazon.com/bedrock/latest/userguide/titan-embedding-models.html) 等模型會透過稱為*內嵌*的程序將資料轉換為向量。這些內嵌模型可以執行下列動作：
+ 從內容中學習，以將單字表示為向量。
+ 將類似的字詞放在向量空間中更接近的位置。
+ 讓機器能夠處理連續空間中的資料。

下圖提供內嵌程序的高階概觀：

1. Amazon Simple Storage Service (Amazon S3) 儲存貯體包含的檔案是系統會從中讀取和處理資訊的資料來源。S3 儲存貯體是在 Amazon Bedrock 知識庫組態期間指定，這也包括[與知識庫同步資料](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-data-source-sync-ingest.html)。

1. 內嵌模型會將 S3 儲存貯體中物件檔案的原始資料轉換為向量內嵌。例如，Object1 會轉換為向量 【0.6、0.7、...】，代表其在多維空間中的內容。



![\[內嵌模型會將 Amazon S3 儲存貯體中的物件轉換為向量內嵌。\]](http://docs.aws.amazon.com/zh_tw/prescriptive-guidance/latest/choosing-an-aws-vector-database-for-rag-use-cases/images/vector-databases.png)


文字內嵌對於自然語言處理 (NLP) 至關重要，因為它們會執行下列動作：
+ 擷取字詞之間的語意關係。
+ 啟用產生內容相關的文字。
+ 支援大型語言模型 LLMs) 來產生類似人類的回應。