Amazon Redshift 將不再支援從修補程式 198 開始建立新的 Python UDFs。現有 Python UDF 將繼續正常運作至 2026 年 6 月 30 日。如需詳細資訊，請參閱[部落格文章](https://aws.amazon.com/blogs/big-data/amazon-redshift-python-user-defined-functions-will-reach-end-of-support-after-june-30-2026/)。

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 執行 Amazon Redshift 的概念驗證 (POC)
<a name="proof-of-concept-playbook"></a>

Amazon Redshift 是熱門的雲端資料倉儲，提供全受管雲端型服務，可與組織的 Amazon Simple Storage Service 資料湖、即時串流、機器學習 (ML) 工作流程、交易工作流程等進行整合。下列各節將引導您在 Amazon Redshift 上執行概念驗證 (POC) 的程序。此處的資訊可協助您設定 POC 的目標，並利用可自動為 POC 佈建和設定服務的工具。

**注意**  
如需此資訊的 PDF 副本，請在 [Amazon Redshift 資源](https://aws.amazon.com/redshift/resources/)頁面上選擇**執行自己的 Redshift POC** 連結。

執行 Amazon Redshift 的 POC 時，您會測試、證明和採用各項功能，範圍涵蓋同級最佳安全功能、彈性擴展、輕鬆整合和擷取，以及靈活的分散式資料架構選項等。

![顯示概念驗證流程中步驟的描述。](http://docs.aws.amazon.com/zh_tw/redshift/latest/dg/images/poc-steps-overview.png)


依照下列步驟執行成功的 POC。

## 步驟 1：設定 POC 的範圍
<a name="proof-of-concept-scope"></a>

![顯示範圍步驟是概念驗證流程中目前的步驟。](http://docs.aws.amazon.com/zh_tw/redshift/latest/dg/images/poc-step1.png)


執行 POC 時，您可以選擇使用自己的資料，也可以選擇使用基準資料集。當您選擇自己的資料時，您會對資料執行自己的查詢。使用基準資料時，則會隨基準提供範例查詢。如果您尚未準備好使用自己的資料執行 POC，請參閱[使用範例資料集](#use-sample-datasets)以了解詳細資訊。

一般而言，我們建議使用兩週的資料來執行 Amazon Redshift POC。

首先執行下列操作：

1. **識別您的業務和功能需求，**然後反向進行。常見的範例包括：更快實現效能、降低成本、測試新的工作負載或功能，或是在 Amazon Redshift 與其他資料倉儲之間進行比較。

1. **設定特定目標**，這些目標會成為 POC 成功的條件。例如，從*更快實現效能*，延伸到列出您要加速的前五項程序，並包含目前的執行時間以及您所需的執行時間。這些可以是報告、查詢、ETL 程序、資料擷取，或任何您目前遇到的難處。

1. **識別特定範圍和成品**，這些是執行測試所需。您需要哪些資料集才能移轉或持續擷取至 Amazon Redshift，以及需要哪些查詢和程序才能執行測試，以依據成功條件進行衡量？ 有兩種方式可以進行：

   
**使用自己的資料**
   + 若要測試自己的資料，請列出測試成功條件所需的最低可行資料成品。例如，如果您目前的資料倉儲有 200 個資料表，但您想要測試的報告只需要 20 個，那麼僅使用一組較少數的資料表就能加快執行 POC 的速度。

   
**使用範例資料集**
   + 如果您尚未準備好自己的資料集，您仍然可以使用 [TPC-DS](https://github.com/awslabs/amazon-redshift-utils/tree/master/src/CloudDataWarehouseBenchmark/Cloud-DWB-Derived-from-TPCDS) 或 [TPC-H](https://github.com/awslabs/amazon-redshift-utils/tree/master/src/CloudDataWarehouseBenchmark/Cloud-DWB-Derived-from-TPCH) 等業界標準基準資料集，開始在 Amazon Redshift 上執行 POC，並執行範例基準查詢以利用 Amazon Redshift 的強大功能。資料集建立後，您就可以從 Amazon Redshift 資料倉儲內存取這些資料集。如需如何存取這些資料集和範例查詢的詳細說明，請參閱 [步驟 2：啟動 Amazon Redshift](#proof-of-concept-launch)。

## 步驟 2：啟動 Amazon Redshift
<a name="proof-of-concept-launch"></a>

![顯示 Amazon Redshift 啟動步驟是概念驗證流程中目前的步驟。](http://docs.aws.amazon.com/zh_tw/redshift/latest/dg/images/poc-step2.png)


Amazon Redshift 透過大規模利用快速、簡單且安全的雲端資料倉儲，縮短您獲得深入分析的時間。藉由在 [Redshift Serverless 主控台](https://console.aws.amazon.com//redshiftv2/home?#serverless-dashboard)上啟動您的倉儲就能快速開始進行，並且在幾秒鐘內將資料轉化為深入分析。使用 Redshift Serverless 可讓您專注於交付業務成果，而不必擔心管理資料倉儲。

### 設定 Amazon Redshift Serverless
<a name="proof-of-concept-setup-serverless"></a>

您第一次使用 Redshift Serverless 時，主控台會引導您完成啟動倉儲所需的步驟。您可能也有資格獲得帳戶中 Redshift Serverless 用量的點數。如需選擇免費試用的詳細資訊，請參閱 [Amazon Redshift 免費試用版](https://aws.amazon.com/redshift/free-trial/)。依照《Amazon Redshift 入門指南》**中[使用 Redshift Serverless 建立資料倉儲](https://docs.aws.amazon.com/redshift/latest/gsg/new-user-serverless.html#serverless-console-resource-creation)的步驟進行，以使用 Redshift Serverless 建立資料倉儲。如果您沒有想要載入的資料集，本指南也包含如何載入範例資料集的步驟。

如果您之前已在帳戶中啟動 Redshift Serverless，請依照《Amazon Redshift 管理指南》**中[使用命名空間建立工作群組](https://docs.aws.amazon.com/redshift/latest/mgmt/serverless-console-workgroups-create-workgroup-wizard.html)的步驟進行。有倉儲可用後，您可以選擇載入 Amazon Redshift 中可用的範例資料。如需使用 Amazon Redshift 查詢編輯器 v2 載入資料的相關資訊，請參閱《Amazon Redshift 管理指南》**中的[載入範例資料](https://docs.aws.amazon.com/redshift/latest/mgmt/query-editor-v2-loading.html#query-editor-v2-loading-sample-data)。

如果您要使用自己的資料，而不載入範例資料集，請參閱 [步驟 3：載入您的資料](#proof-of-concept-load-data)。

## 步驟 3：載入您的資料
<a name="proof-of-concept-load-data"></a>

![顯示載入步驟是概念驗證流程中目前的步驟。](http://docs.aws.amazon.com/zh_tw/redshift/latest/dg/images/poc-step3.png)


啟動 Redshift Serverless 後，下一步是載入資料以用於 POC。無論您要上傳簡單的 CSV 檔案、從 S3 擷取半結構化資料，還是直接串流資料，Amazon Redshift 都能提供靈活的方式，讓您快速且輕鬆地從來源將資料移至 Amazon Redshift 資料表中。

請選擇下列其中一種方法來載入您的資料。

### 上傳本機檔案
<a name="proof-of-concept-load-data-local-file"></a>

若要快速擷取和分析，您可以使用 [Amazon Redshift 查詢編輯器 v2](https://docs.aws.amazon.com/redshift/latest/mgmt/query-editor-v2.html) 輕鬆地從本機桌面載入資料檔案。此方法能夠處理 CSV、JSON、AVRO、PARQUET、ORC 等各種格式的檔案。若要讓使用者以管理員身分使用查詢編輯器 v2 從本機桌面載入資料，您必須指定一般 Amazon S3 儲存貯體，而且使用者帳戶必須[設定適當的許可](https://docs.aws.amazon.com/redshift/latest/mgmt/query-editor-v2-loading.html#query-editor-v2-loading-data-local)。您可以依照[使用查詢編輯器 V2 即可在 Amazon Redshift 中輕鬆且安全地載入資料](https://aws.amazon.com/blogs//big-data/data-load-made-easy-and-secure-in-amazon-redshift-using-query-editor-v2/)的逐步指引進行。

### 載入 Amazon S3 檔案
<a name="proof-of-concept-load-data-s3-file"></a>

若要從 Amazon S3 儲存貯體將資料載入 Amazon Redshift，首先使用 [COPY 命令](https://docs.aws.amazon.com/redshift/latest/dg/t_loading-tables-from-s3.html)，指定來源 Amazon S3 位置和目標 Amazon Redshift 資料表。確認已正確設定 IAM 角色和許可，以允許 Amazon Redshift 存取指定的 Amazon S3 儲存貯體。依照[教學課程：從 Amazon S3 載入資料](https://docs.aws.amazon.com/redshift/latest/dg/tutorial-loading-data.html)的逐步指引進行。您也可以在查詢編輯器 v2 中選擇**載入資料**選項，以直接從 S3 儲存貯體載入資料。

### 持續資料擷取
<a name="proof-of-concept-load-data-autocopy"></a>

[自動複製 (預覽版)](https://docs.aws.amazon.com/redshift/latest/dg/loading-data-copy-job.html) 是 [COPY 命令](https://docs.aws.amazon.com/redshift/latest/dg/t_loading-tables-from-s3.html)的延伸，會自動從 Amazon S3 儲存貯體持續載入資料。當您建立複製任務時，Amazon Redshift 會偵測何時在指定路徑中建立新的 Amazon S3 檔案，然後自動載入這些檔案，而無需您介入。Amazon Redshift 會追蹤載入的檔案，以確認檔案只載入一次。如需如何建立複製任務的指示，請參閱 [COPY JOB](r_COPY-JOB.md)。

**注意**  
自動複製目前處於預覽狀態，並且僅在特定 的佈建叢集中受支援 AWS 區域。若要建立預覽叢集以進行自動複製，請參閱 [建立 S3 事件整合，以自動從 Amazon S3 儲存貯體複製檔案](loading-data-copy-job.md)。

### 載入串流資料
<a name="proof-of-concept-load-data-streaming"></a>

串流擷取可提供以低延遲、高速的方式，從 [Amazon Kinesis Data Streams](https://aws.amazon.com/kinesis/data-streams/) 和 [Amazon Managed Streaming for Apache Kafka](https://aws.amazon.com/msk/) 將串流資料擷取至 Amazon Redshift。Amazon Redshift 串流擷取會使用具體化視觀表，其會利用[自動重新整理](https://docs.aws.amazon.com/redshift/latest/dg/materialized-view-refresh.html#materialized-view-auto-refresh)從串流直接更新。具體化視觀表會對應至串流資料來源。在定義具體化視觀表的過程中，您可以對串流資料執行篩選和彙總。如需從串流載入資料的逐步指引，請參閱 [Amazon Kinesis Data Streams 入門](https://docs.aws.amazon.com/redshift/latest/dg/materialized-view-streaming-ingestion-getting-started.html)或 [Amazon Managed Streaming for Apache Kafka 入門](https://docs.aws.amazon.com/redshift/latest/dg/materialized-view-streaming-ingestion-getting-started-MSK.html)。

## 步驟 4：分析您的資料
<a name="proof-of-concept-analyze"></a>

![顯示分析步驟是概念驗證流程中目前的步驟。](http://docs.aws.amazon.com/zh_tw/redshift/latest/dg/images/poc-step4.png)


建立 Redshift Serverless 工作群組和命名空間並載入資料後，您可以從 [Redshift Serverless 主控台](https://console.aws.amazon.com//redshiftv2/home?#serverless-dashboard)的導覽面板開啟**查詢編輯器 v2**，以立即執行查詢。您可以使用查詢編輯器 v2，利用您自己的資料集測試查詢功能或查詢效能。

### 使用 Amazon Redshift 查詢編輯器 v2 進行查詢
<a name="proof-of-concept-setup-analyze-query"></a>

您可以從 Amazon Redshift 主控台存取查詢編輯器 v2。如需如何使用查詢編輯器 v2 設定、連線和執行查詢的完整指南，請參閱[使用 Amazon Redshift 查詢編輯器 v2 簡化資料分析](https://aws.amazon.com/blogs//big-data/simplify-your-data-analysis-with-amazon-redshift-query-editor-v2/)。

或者，如果您想要在 POC 過程中執行負載測試，您可以依照下列步驟安裝和執行 Apache JMeter 來達成此目的。

### 使用 Apache JMeter 執行負載測試
<a name="proof-of-concept-setup-analyze-load-test"></a>

若要執行負載測試來模擬 "N" 個使用者同時向 Amazon Redshift 提交查詢的情況，您可以使用 [Apache JMeter](https://jmeter.apache.org/)，這是開放原始碼 Java 型工具。

若要安裝並設定 Apache JMeter 以針對 Redshift Serverless 工作群組執行，請遵循[使用 AWS Analytics Automation Toolkit 自動化 Amazon Redshift 負載測試](https://aws.amazon.com/blogs//big-data/automate-amazon-redshift-load-testing-with-the-aws-analytics-automation-toolkit/)中的指示。此工具使用 [AWS Analytics Automation Toolkit (AAA)](https://github.com/aws-samples/amazon-redshift-infrastructure-automation/tree/main)，這是一種動態部署 Redshift 解決方案的開放原始碼公用程式，可自動啟動這些資源。如果您已將自己的資料載入 Amazon Redshift，則務必執行步驟 \#5 - 自訂 SQL 選項，確保您提供適當的 SQL 陳述式來利用您的資料表進行測試。使用查詢編輯器 v2 測試每個 SQL 陳述式一次，確保其正確執行不會出錯。

完成自訂 SQL 陳述式並將測試計畫定案後，儲存您的測試計畫並針對 Redshift Serverless 工作群組執行該計畫。若要監控測試進度，請開啟 [Redshift Serverless 主控台](https://console.aws.amazon.com/redshiftv2/home?#serverless-query-and-database-monitoring)、瀏覽至**查詢和資料庫監控**、選擇**查詢歷史記錄**索引標籤，並檢視有關查詢的資訊。

對於效能指標，在 Redshift Serverless 主控台上選擇**資料庫效能**索引標籤，以監控**資料庫連線**和 **CPU 使用率**等指標。您可以在此檢視圖形，以監控使用的 RPU 容量，並觀察 Redshift Serverless 如何在工作群組上執行負載測試時自動擴展，以滿足並行工作負載需求。

![此範例圖形顯示使用的平均 RPU 容量。](http://docs.aws.amazon.com/zh_tw/redshift/latest/dg/images/poc-rpu-capacity-used.png)


資料庫連線是在執行負載測試時進行監控的另一個實用指標，可了解您的工作群組如何在特定時間處理多個並行連線，以滿足不斷增加的工作負載需求。

![此範例圖形顯示資料庫連線。](http://docs.aws.amazon.com/zh_tw/redshift/latest/dg/images/poc-database-connections.png)


## 步驟 5：最佳化
<a name="proof-of-concept-optimize"></a>

![顯示最佳化步驟是概念驗證流程中目前的步驟。](http://docs.aws.amazon.com/zh_tw/redshift/latest/dg/images/poc-step5.png)


Amazon Redshift 藉由提供各種組態和功能來支援個別使用案例，讓成千上萬的使用者每天能夠處理數 EB 的資料，並為分析工作負載提供支援。在這些選項之中選擇時，客戶會尋找協助其判斷最佳資料倉儲組態，以支援其 Amazon Redshift 工作負載的工具。

### 試用
<a name="proof-of-concept-optimize-test-drive"></a>

您可以使用 [Test Drive](https://github.com/aws/redshift-test-drive/tree/main)，在可能的組態上自動重播現有的工作負載，並分析對應的輸出，以評估要移轉工作負載的最佳目標。請參閱[使用 Redshift Test Drive 尋找最適合工作負載的 Amazon Redshift 組態](https://aws.amazon.com/blogs/big-data/find-the-best-amazon-redshift-configuration-for-your-workload-using-redshift-test-drive/)，以取得使用 Test Drive 評估不同 Amazon Redshift 組態的相關資訊。