

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 連線至 Ray 任務中的資料
<a name="edit-script-ray-connections-formats"></a>

**重要**  
AWS Glue for Ray 自 2026 年 4 月 30 日起不再向新客戶開放。如果您想要使用 AWS Glue for Ray，請在該日期之前註冊。現有客戶可以繼續正常使用該服務。如需類似 AWS Glue for Ray 的 功能，請探索 Amazon EKS。如需詳細資訊，請參閱 [AWS Glue 的 Ray 終止支援](https://docs.aws.amazon.com/glue/latest/dg/awsglue-ray-jobs-availability-change.html)。

AWS Glue Ray 任務可以使用各種 Python 套件，這些套件旨在讓您快速整合資料。我們提供了一組最小的相依性，以免造成您的環境混亂。如需有關這些預設內含項目的詳細資訊，請參閱 [Ray 任務隨附的模組](edit-script-ray-env-dependencies.md#edit-script-ray-modules-provided)。

**注意**  
AWS Glue 擷取、轉換和載入 (ETL) 提供 DynamicFrame 抽象，以簡化 ETL 工作流程，您可以在其中解決資料集資料列之間的結構描述差異。 AWS Glue ETL 提供額外的功能：任務書籤和分組輸入檔案。我們目前不在 Ray 任務中提供對應的功能。  
AWS Glue for Spark 提供直接支援，以連線至特定資料格式、來源和目的地。在 Ray 中，適用於 pandas 和當前第三方程式庫的 AWS SDK 已實質涵蓋該需求。您將需要查閱這些程式庫，以了解可用的功能。

AWS Glue for Ray 與 Amazon VPC 整合目前無法使用。若無公有路由，將無法存取 Amazon VPC 中的資源。如需 AWS Glue 搭配 Amazon VPC 使用 的詳細資訊，請參閱 [配置 AWS Glue (AWS PrivateLink) 的介面 VPC 端點 (AWS PrivateLink)](vpc-interface-endpoints.md)。

## 用於在 Ray 中處理資料的常用程式庫
<a name="edit-script-ray-etl-libraries"></a>

**Ray Data**：Ray Data 提供了處理常用資料格式、來源和接收器的方法。如需有關 Ray Data 中支援之格式和來源的詳細資訊，請參閱 Ray Data 文件中的[輸入/輸出](https://docs.ray.io/en/latest/data/api/input_output.html)。Ray Data 是一個固定程式庫而非通用程式庫，用於處理資料集。

Ray 針對 Ray Data 可能是您任務最佳解決方案的使用案例，提供某些指引。如需詳細資訊，請參閱 Ray 文件中的 [Ray 使用案例](https://docs.ray.io/en/latest/ray-overview/use-cases.html)。

**AWS 適用於 pandas (awswrangler) 的開發套件** –適用於 pandas 的 AWS SDK 是一種 AWS 產品，可在轉換使用 pandas DataFrames 管理資料時，為讀取和寫入 AWS 服務提供乾淨且經過測試的解決方案。如需 pandas AWS 開發套件中支援格式和來源的詳細資訊，請參閱 pandas AWS 開發套件文件中的 [API 參考](https://aws-sdk-pandas.readthedocs.io/en/stable/api.html)。

如需如何使用適用於 pandas 的 AWS SDK 讀取和寫入資料的範例，請參閱適用於 pandas 的 AWS SDK 文件中的 [Quick Start](https://aws-sdk-pandas.readthedocs.io/en/stable/)。適用於 pandas 的 AWS SDK 不會為您的資料提供轉換。其僅提供對於讀取與寫入來源的支援。

**Modin**：Modin 是一個 Python 程式庫，可採用分發套件方式實作常用的 pandas 操作。如需有關 Modin 的詳細資訊，請參閱 [Modin 文件](https://modin.readthedocs.io/en/stable/)。Modin 本身不提供對於讀取與寫入來源的支援。其提供常用轉換的分發式實作。適用於 pandas 的 AWS SDK 支援 Modin。

當您在 Ray 環境中同時執行 Modin 和適用於 pandas 的 AWS SDK 時，您可以執行具有效能結果的常見 ETL 任務。如需搭配適用於 pandas 的 AWS SDK 使用 Modin 的詳細資訊，請參閱適用於 pandas 的 AWS SDK 文件中的[擴展](https://aws-sdk-pandas.readthedocs.io/en/stable/scale.html)。

**其他架構**：如需有關 Ray 支援架構的詳細資訊，請參閱 Ray 文件中的 [Ray 生態系統](https://docs.ray.io/en/latest/ray-overview/ray-libraries.html)。我們不支援 AWS Glue for Ray 中的其他架構。

## 透過資料目錄連線至資料
<a name="edit-script-ray-gludc"></a>

適用於 pandas 的 AWS 開發套件支援搭配 Ray 任務透過 Data Catalog 管理您的資料。如需詳細資訊，請參閱適用於 pandas 的 AWS SDK 網站上的 [Glue Catalog](https://aws-sdk-pandas.readthedocs.io/en/3.0.0rc2/tutorials/005%20-%20Glue%20Catalog.html)。