

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# AWS PCS에서 클러스터 보안 암호 교체
<a name="cluster-secret-rotation"></a>

 AWS Secrets Manager 관리형 교체를 사용하여 AWS PCS에서 클러스터 보안 암호를 교체합니다. 정기적인 보안 암호 교체는 HPC 환경에서 강력한 보안 태세를 유지하기 위한 보안 모범 사례입니다. 이 기능을 사용하면 정기적인 자격 증명 교체를 요구하는 HIPAA 및 FedRAMP를 비롯한 업계 규정 준수 표준을 충족할 수 있습니다.

클러스터 보안 암호는 클러스터에 조인하는 컴퓨팅 노드 인증과 Slurm REST API 인증을 위한 JWT 키로 사용되는 이중 용도입니다. 교체하면 두 측면이 동시에 영향을 받습니다.

## 클러스터 보안 암호 교체 작동 방식
<a name="cluster-secret-rotation-overview"></a>

보안 암호 교체 중에 클러스터 안정성을 유지하기 위해 수동으로 준비합니다.

1. **준비** - 모든 컴퓨팅 노드 그룹을 0 용량으로 확장하고 실행 중인 작업이 없는지 확인합니다.

1. **교체** - Secrets Manager 콘솔 또는 API를 통해 교체 시작

1. **모니터링** - CloudTrail 이벤트를 통한 진행 상황 추적

1. **복구** - 컴퓨팅 노드 그룹을 원하는 용량으로 다시 확장

교체 중에 클러스터는 `ACTIVE` 상태를 유지하고 결제는 정상적으로 계속됩니다. 이 프로세스는 일반적으로 몇 분 정도 걸립니다.

## 요구 사항 및 제한 사항
<a name="cluster-secret-rotation-requirements"></a>

클러스터 보안 암호를 교체하기 전에 다음 요구 사항을 완료합니다.
+ 클러스터는 `ACTIVE` 또는 `UPDATE_FAILED` 상태여야 합니다.
+ IAM 역할에 `secretsmanager:RotateSecret` 권한이 있어야 합니다.
+ 모든 컴퓨팅 노드 그룹을 0 용량으로 확장해야 합니다.
+ 교체 전에 모든 작업 중지

제한:
+ 각 교체에 필요한 수동 준비
+ 기존 JWT 토큰이 무효화되어 다시 발급해야 함
+ BYO 로그인 노드는 교체 후 수동 보안 암호 업데이트가 필요합니다.

**Topics**
+ [클러스터 보안 암호 교체 작동 방식](#cluster-secret-rotation-overview)
+ [요구 사항 및 제한 사항](#cluster-secret-rotation-requirements)
+ [AWS PCS에서 클러스터 보안 암호 교체](cluster-secret-rotation-procedure.md)
+ [AWS PCS의 클러스터 보안 암호 교체에 대해 자주 묻는 질문](cluster-secret-rotation-faq.md)
+ [AWS PCS에서 클러스터 보안 암호 교체 문제 해결](cluster-secret-rotation-troubleshooting.md)

# AWS PCS에서 클러스터 보안 암호 교체
<a name="cluster-secret-rotation-procedure"></a>

클러스터 보안 암호를 교체하여 보안 요구 사항을 준수하고 잠재적 침해를 해결합니다. 이 프로세스를 수행하려면 클러스터를 유지 관리 모드로 전환해야 합니다.

## 사전 조건
<a name="cluster-secret-rotation-procedure-prerequisites"></a>
+ `secretsmanager:RotateSecret` 권한이 있는 IAM 역할
+ `ACTIVE` 또는 `UPDATE_FAILED` 상태의 클러스터

## 절차
<a name="cluster-secret-rotation-procedure-steps"></a>

1. 클러스터 사용자에게 예정된 유지 관리 기간을 알립니다.

1. 모든 컴퓨팅 노드 그룹을 0 용량으로 조정하여 클러스터를 유지 관리 모드로 전환합니다.

   1. UpdateComputeNodeGroup API를 사용하여 모든 컴퓨팅 노드 그룹에 대해 minInstanceCount와 maxInstanceCount를 모두 0으로 설정합니다.

   1. 모든 노드가 중지될 때까지 기다립니다.

   1. 선택 사항: 정상적인 작업 처리를 위해 용량을 종료하기 전에 Slurm 명령을 사용하여 스케줄러 대기열을 드레이닝합니다.

1. Secrets Manager를 통해 교체를 시작합니다.
   + **콘솔 메**서드:

     1. Secrets Manager로 이동하여 클러스터 보안 암호를 선택하고 **보안 암호 교체**를 선택합니다.
   + **API 메서**드:

     1. Secrets Manager `rotate-secret` API를 사용합니다.

1. 교체 진행 상황을 모니터링합니다.

   1. CloudTrail 이벤트를 통해 진행 상황을 추적합니다.

   1. Secrets Manager 콘솔 또는 `secretsmanager:describeSecret` API를 `lastRotatedDate` 통해 확인합니다.

   1. `RotationSucceeded` 또는 `RotationFailed` CloudTrail 이벤트를 기다립니다.

1. 교체에 성공하면 클러스터 용량을 복원합니다.

   1. UpdateComputeNodeGroup API를 사용하여 노드 그룹을 원하는 최소/최대 용량으로 재설정합니다.

   1.  AWS PCS 관리형 로그인 노드의 경우: 추가 작업이 필요하지 않습니다.

   1. BYO 로그인 노드의 경우:

      1. 로그인 노드에 연결합니다.

      1. Secrets Manager의 새 보안 암호`/etc/slurm/slurm.key`로 업데이트합니다.

      1. Slurm Auth 및 Cred Kiosk Daemon(sackd)을 다시 시작합니다.

# AWS PCS의 클러스터 보안 암호 교체에 대해 자주 묻는 질문
<a name="cluster-secret-rotation-faq"></a>

 AWS PCS에서 클러스터 보안 암호 교체에 대한 일반적인 질문에 대한 답변을 찾습니다.

**클러스터 보안 암호란 무엇입니까?**  
클러스터 보안 암호는 Slurm 컨트롤러와 AWS PCS 컴퓨팅 노드 간의 보안 통신을 지원하는 보안 자격 증명입니다. 또한 Slurm REST API 인증을 위한 JSON 웹 토큰(JWT) 키 역할을 합니다.

**클러스터 보안 암호와 JWT 키의 차이점은 무엇인가요?**  
 AWS PCS에서 클러스터 보안 암호와 JWT 키는 서로 다른 목적을 제공하는 동일한 리소스입니다. 클러스터 보안 암호는 Slurm 내부 통신을 인증하는 반면 JWT 키는 REST API 인증을 위한 토큰에 서명합니다. 교체하면 두 측면이 동시에 영향을 받습니다.

**교체에는 시간이 얼마나 걸리나요?**  
교체 프로세스는 일반적으로 몇 분 정도 걸립니다. 클러스터는 ACTIVE 상태로 유지되며 교체 중에 결제가 정상적으로 계속됩니다.

**자동 교체를 예약할 수 있나요?**  
Secrets Manager에서 예약된 교체를 활성화할 수 있습니다. 그러나 초기 릴리스에서는 각 교체 전에 수동 준비(노드 그룹을 0으로 크기 조정)가 필요합니다.

**교체 후에도 기존 JWT 토큰이 계속 작동하나요?**  
아니요. 교체 후 기존 JWT 토큰이 무효화됩니다. REST API 클라이언트에 대한 새 토큰을 발행합니다.

**클러스터 보안 암호는 어디에서 찾을 수 있나요?**  
클러스터 보안 암호는 Secrets Manager 콘솔 또는 AWS PCS 콘솔을 통해 찾을 수 있습니다. 자세한 지침은 [AWS Secrets Manager 를 사용하여 클러스터 보안 암호 찾기](working-with_clusters_secrets_find_secrets-manager.md) 및 단원을 참조하십시오[AWS PCS를 사용하여 클러스터 보안 암호 찾기](working-with_clusters_secrets_find_pcs.md).

**교체 시 노드 그룹을 0으로 조정해야 하는 이유는 무엇입니까?**  
교체 시 보안 암호 업데이트 프로세스 중에 클러스터 안정성을 보장하기 위해 실행 중인 인스턴스가 필요하지 않습니다. 이렇게 하면 이전 보안 암호와 새 보안 암호 간의 인증 충돌을 방지할 수 있습니다.

**이 기능은 어떤 규정 준수 요구 사항을 지원하나요?**  
이 기능을 사용하면 AWS PCS가 보안 제어의 일부로 정기적인 자격 증명 교체를 요구하는 HIPAA 및 FedRAMP를 비롯한 업계 규정 준수 표준을 충족할 수 있습니다.

# AWS PCS에서 클러스터 보안 암호 교체 문제 해결
<a name="cluster-secret-rotation-troubleshooting"></a>

환경이 제대로 준비되지 않으면 클러스터 보안 암호 교체가 실패합니다. 가장 일반적인 원인은 클러스터의 활성 인스턴스입니다. 실패를 방지하려면:

1. 모든 노드 그룹을 0 용량으로 설정합니다.

1. 노드가 중지될 때까지 기다립니다.

1. 클러스터가 `CREATE_FAILED`, , `DELETE_FAILED`, `RESUMING` `SUSPENDING`또는 상태가 아닌지 확인합니다`SUSPENDED`.

교체에 실패하는 경우:
+ RotationFailed CloudTrail 이벤트가 나타납니다.
+ 클러스터 보안 암호는 변경되지 않습니다.
+ 자세한 내용은 CloudTrail에서 RotationFailed 이벤트를 확인하세요.
+ 성공적인 교체를 위한 모든 준비 단계 완료