

# 连接 Ray 作业中的数据
<a name="edit-script-ray-connections-formats"></a>

**重要**  
自 2026 年 4 月 30 日起，AWS Glue for Ray 将不再向新客户开放。要使用 AWS Glue for Ray，请在该日期之前注册。现有客户可以继续正常使用该服务。要获取与 AWS Glue for Ray 相似的功能，可探索 Amazon EKS。有关更多信息，请参阅 [AWS Glue for Ray 终止支持](https://docs.aws.amazon.com/glue/latest/dg/awsglue-ray-jobs-availability-change.html)。

AWS Glue Ray 作业可以使用各种 Python 包，这些包专为快速集成数据而设计。我们提供了一组最少的依赖关系，以免您的环境混乱。有关默认情况下包含内容的更多信息，请参阅 [Ray 作业提供的模块](edit-script-ray-env-dependencies.md#edit-script-ray-modules-provided)。

**注意**  
AWS Glue 提取、转换、加载（ETL）提供 DynamicFrame 抽象化来简化 ETL 工作流程，在这些工作流程中，您可以解决数据集各行之间的架构差异。AWS GlueETL 还提供其他功能，例如作业书签和分组输入文件。我们目前不在 Ray 作业中提供相应的功能。  
AWS Glue for Spark 直接支持连接到某些数据格式、源和接收器。在 Ray 中，适用于 Pandas 的 AWS 开发工具包和最新的第三方库在很大程度上满足了这一需求。您需要查阅这些库，以了解有哪些功能可用。

AWS Glue for Ray 目前无法与 Amazon VPC 集成。如果没有公共路由，就无法访问 Amazon VPC 中的资源。有关将 AWS Glue 与 Amazon VPC 结合使用的更多信息，请参阅 [为 AWS Glue（AWS PrivateLink）配置接口 VPC 端点（AWS PrivateLink）](vpc-interface-endpoints.md)。

## 在 Ray 中处理数据的常用库
<a name="edit-script-ray-etl-libraries"></a>

**Ray Data** – Ray Data 提供了处理常见数据格式、源和接收器的方法。有关 Ray Data 中支持的格式和源的更多信息，请参阅 Ray Data 文档中的 [Input/Output](https://docs.ray.io/en/latest/data/api/input_output.html)。Ray Data 是一个坚持己见的库，而不是一个用于处理数据集的通用库。

Ray 围绕 Ray Data 可能是您工作的最佳解决方案的用例提供了某些指导。有关更多信息，请参阅 Ray 文档中的 [Ray use cases](https://docs.ray.io/en/latest/ray-overview/use-cases.html)。

**适用于 Pandas 的 AWS 开发工具包（awswrangler）** – 适用于 Pandas 的 AWS 开发工具包是一款 AWS 产品，当您使用 pandas DataFrames 进行转换管理数据时，该产品提供经过测试的简洁解决方案，用于读取和写入 AWS 服务。有关适用于 Pandas 的 AWS 开发工具包中支持的格式和来源的更多信息，请参阅AWS适用于 Pandas 的开发工具包文档中的 [API Reference](https://aws-sdk-pandas.readthedocs.io/en/stable/api.html)。

有关如何使用适用于 Pandas 的 AWS 开发工具包读取和写入数据的示例，请参阅适用于 Pandas 的 AWS 开发工具包文档中的 [Quick Start](https://aws-sdk-pandas.readthedocs.io/en/stable/)。适用于 Pandas 的 AWS 开发工具包不为您的数据提供转换。它仅支持从源读取和写入。

**Modin** – Modin 是一个 Python 库，它以可分发的方式实现了常见的 Pandas 操作。有关 Modin 的更多信息，请参阅 [Modin 文档](https://modin.readthedocs.io/en/stable/)。Modin 本身不提供从源读取和写入的支持。它提供常见转换的分布式实现。适用于 Pandas 的 AWS 开发工具包支持 Modin。

当您在 Ray 环境中同时运行 Modin 和适用于 Pandas 的 AWS 开发工具包时，您可以执行常见的 ETL 任务并获得高性能结果。有关将 Modin 与适用于 Pandas 的 AWS 开发工具包一起使用的更多信息，请参阅适用于 Pandas 的 AWS 开发工具包文档中的 [At scale](https://aws-sdk-pandas.readthedocs.io/en/stable/scale.html)。

**其他框架** - 有关 Ray 支持的框架的更多信息，请参阅 Ray 文档中的 [The Ray Ecosystem](https://docs.ray.io/en/latest/ray-overview/ray-libraries.html)。我们不为 AWS Glue for Ray 中的其他框架提供支持。

## 通过 Data Catalog 连接
<a name="edit-script-ray-gludc"></a>

适用于 Pandas 的 AWS 开发工具包支持通过 Data Catalog 与 Ray 作业一起管理数据。有关更多信息，请参阅适用于 Pandas 的 AWS 开发工具包网站上的 [Glue 目录](https://aws-sdk-pandas.readthedocs.io/en/3.0.0rc2/tutorials/005%20-%20Glue%20Catalog.html)。