

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 使用 Spark 连接器时的注意事项和限制
<a name="emr-spark-redshift-considerations"></a>

Spark 连接器支持多种方式来管理凭据、配置安全性以及连接其他 AWS 服务。熟悉此列表中的建议，以配置功能正常且具有弹性的连接。
+ 建议您为从 Spark on Amazon EMR 到 Amazon Redshift 的 JDBC 连接启用 SSL。
+ 作为最佳实践，建议您在 AWS Secrets Manager 中管理 Amazon Redshift 集群的凭证。有关示例 [AWS Secrets Manager ，请参阅使用检索连接至亚马逊 Redshift 的凭证](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-spark-redshift-secrets.html)。
+ 建议使用参数 `aws_iam_role` 为 Amazon Redshift 身份验证参数传递 IAM 角色。
+ 参数 `tempformat` 目前不支持 Parquet 格式。
+ `tempdir` URI 指向 Amazon S3 位置。此临时目录不会自动清理，因此可能会增加额外成本。
+ 请考虑以下针对 Amazon Redshift 的建议：
  + 建议阻止对 Amazon Redshift 集群的公有访问。
  + 建议启用 [Amazon Redshift 审计日志记录](https://docs.aws.amazon.com/redshift/latest/mgmt/db-auditing.html)。
  + 建议启用 [Amazon Redshift 静态加密](https://docs.aws.amazon.com/redshift/latest/mgmt/security-server-side-encryption.html)。
+ 请考虑以下针对 Amazon S3 的建议：
  + 建议[阻止对 Amazon S3 存储桶的公有访问](https://docs.aws.amazon.com/AmazonS3/latest/userguide/access-control-block-public-access.html)。
  + 建议使用 [Amazon S3 服务器端加密](https://docs.aws.amazon.com/AmazonS3/latest/userguide/serv-side-encryption.html)以加密使用的 S3 存储桶。
  + 建议使用 [Amazon S3 生命周期策略](https://docs.aws.amazon.com/AmazonS3/latest/userguide/object-lifecycle-mgmt.html)定义 S3 存储桶的保留规则。
  + Amazon EMR 始终验证从开源导入到映像中的代码。为了安全起见，我们不支持将 `tempdir` URI 中的 AWS 访问密钥编码为从 Spark 到 Amazon S3 的身份验证方法。

有关使用连接器及其支持参数的更多信息，请参阅以下资源：
+ *Amazon Redshift Management Guide*（《Amazon Redshift 管理指南》）中的 [Amazon Redshift integration for Apache Spark](https://docs.aws.amazon.com/redshift/latest/mgmt/spark-redshift-connector.html)（适用于 Apache Spark 的 Amazon Redshift 集成）
+ Github 上的 [`spark-redshift` 社区存储库](https://github.com/spark-redshift-community/spark-redshift#readme)