

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 在 AWS PCS 中轮换集群密钥
<a name="cluster-secret-rotation-procedure"></a>

轮换您的集群密钥以符合安全要求并解决潜在的漏洞。此过程需要将您的集群置于维护模式。

## 先决条件
<a name="cluster-secret-rotation-procedure-prerequisites"></a>
+ 具有`secretsmanager:RotateSecret`权限的 IAM 角色
+ 集群处于`ACTIVE`或`UPDATE_FAILED`状态

## 过程
<a name="cluster-secret-rotation-procedure-steps"></a>

1. 通知集群用户即将到来的维护时段。

1. 通过将所有计算节点组缩放到 0 容量，将集群置于维护模式。

   1. 使用 UpdateComputeNodeGroup API 将所有计算节点组 maxInstanceCount 的 minInstanceCount 和设置为 0。

   1. 等到所有节点停止。

   1. 可选：在终止容量以优雅地处理任务之前，使用 Slurm 命令耗尽调度器队列。

1. 通过 Secrets Manager 启动轮换。
   + **控制台方法**：

     1. 导航到 Secrets Manager，选择您的集群密钥，然后选择**轮换密钥**。
   + **API 方法**：

     1. 使用 Secrets Manager `rotate-secret` API。

1. 监控轮换进度。

   1. 通过 CloudTrail 事件跟踪进度。

   1. `lastRotatedDate`通过 Secrets Manager 控制台或 `secretsmanager:describeSecret` API 进行查看。

   1. 等待我们的`RotationSucceeded``RotationFailed` CloudTrail 活动。

1. 成功轮换后，恢复集群容量。

   1. 使用 UpdateComputeNodeGroup API 将节点组重置为所需 min/max 容量。

   1. 对于 AWS PC 管理的登录节点：无需执行其他操作。

   1. 对于 BYO 登录节点：

      1. Connect 连接到登录节点。

      1. 使用 Sec `/etc/slurm/slurm.key` rets Manager 中的新密钥进行更新。

      1. 重启 Slurm Auth and Cred Kiosk 守护程序（sackd）。