

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Amazon SageMaker HyperPod 추론 릴리스 정보
<a name="sagemaker-hyperpod-inference-release-notes"></a>

이 주제에서는 Amazon SageMaker HyperPod 추론의 업데이트, 수정 사항 및 새로운 기능을 추적하는 릴리스 정보를 다룹니다. SageMaker HyperPod 추론을 사용하면 엔터프라이즈급 안정성으로 HyperPod 클러스터에 기계 학습 모델을 배포하고 확장할 수 있습니다. 일반적인 Amazon SageMaker HyperPod 플랫폼 릴리스, 업데이트 및 개선 사항은 섹션을 참조하세요[Amazon SageMaker HyperPod 릴리스 정보](sagemaker-hyperpod-release-notes.md).

SageMaker HyperPod 추론 기능 및 배포 옵션에 대한 자세한 내용은 섹션을 참조하세요[Amazon SageMaker HyperPod에 모델 배포](sagemaker-hyperpod-model-deployment.md).

## SageMaker HyperPod 추론 릴리스 정보: v3.1.2
<a name="sagemaker-hyperpod-inference-release-notes-20260506"></a>

**릴리스 날짜:** 2026년 5월 6일

**요약**

Inference Operator v3.1.2에는 엔드포인트 트래픽 로깅을 위한 추론 데이터 캡처, 직접 모델 배포를 위한 HuggingFace Hub 통합, 사용자 지정 도메인에 대한 Route 53 DNS 관리, 콜드 스타트 지연 시간을 줄이기 위한 로컬 NVMe 모델 배포, IRSA를 지원하는 사용자 지정 서비스 계정이 도입되었습니다.

**새로운 기능**
+ **추론 데이터 캡처** - SageMaker AI 엔드포인트, 로드 밸런서(ALB 액세스 로그) 및 모델 포드의 세 가지 캡처 지점에서 입력과 출력을 기록합니다. CRD`dataCapture`에서를 통해 모든 조합을 활성화합니다. [HyperPod에서 추론을 위한 데이터 캡처](sagemaker-hyperpod-model-deployment-data-capture.md)을(를) 참조하세요.
+ **HuggingFace 모델 소스** - S3 또는 FSx에 사전 스테이징하지 않고 HuggingFace Hub에서 직접 모델을 배포합니다. 를 통한 게이트 모델`tokenSecretRef`,를 통한 개정 고정 `commitSHA`및 토큰 격리를 지원합니다. vLLM, TGI 및 SGLang 런타임과 호환됩니다. [kubectl을 사용하여 Amazon S3, Amazon FSx 또는 Hugging Face Hub에서 모델 배포](sagemaker-hyperpod-model-deployment-deploy-ftm.md)을(를) 참조하세요.
+ **Route 53 DNS 관리** -를 통해 사용자 지정 도메인에 대한 DNS 레코드를 자동으로 생성하고 관리합니다`dnsConfig`. [HyperPod 추론을 위한 사용자 지정 인증서 및 Route 53 DNS 관리](sagemaker-hyperpod-model-deployment-custom-certs.md)을(를) 참조하세요.
+ **로컬 NVMe 모델 배포** -를 통해 노드-로컬 NVMe 스토리지에서 모델 가중치를 로드`modelSourceType: kubernetesVolume`하여 콜드 스타트 지연 시간을 줄입니다. S3로의 대체를 지원합니다. [kubectl을 사용하여 로컬 NVMe 스토리지에서 모델 배포](sagemaker-hyperpod-model-deployment-deploy-nvme.md)을(를) 참조하세요.
+ **사용자 지정 서비스 계정** -를 통해 포드를 추론할 수 있도록 IRSA 지원을 통해 사용자 지정 ServiceAccounts를 할당합니다`spec.kubernetes.serviceAccountName`.

**버그 수정**
+ **태그 전파 **-의 사용자 정의 태그`InferenceEndpointConfig`가 이제 `SageMakerEndpointRegistration` CRD 및 다운스트림 SageMaker AI 리소스에 올바르게 전파됩니다. 이전에는 엔드포인트 등록 생성 또는 업데이트 중에 태그가 전달되지 않았습니다.
+ **복제본 보존 자동 크기 조정** - `InferenceEndpointConfig` 또는 `JumpStartModel` CR을 업데이트하면 복제본 수가 사양 값으로 재설정되어 현재 HPA/KEDA 관리형 복제본 수가 재정의되는 문제를 수정했습니다. 이제 운영자는 CR 업데이트 중에 활성 복제본 수를 유지합니다.
+ **CRD 검증 자동 크기 조정** - 후행 경로 세그먼트가 잘못 필요하여 KEDA가 AMP 워크스페이스 URL`/api/v1/query`에 추가될 때 404 오류가 발생하는 `prometheusTrigger.serverAddress` 검증 정규식을 수정했습니다.
+ **인증서 교체** - 운영자 포드를 다시 시작한 후 사용자 지정 인증서 교체가 ALB로 전파되지 않는 문제를 수정했습니다.

### v3.1.2로 업그레이드
<a name="sagemaker-hyperpod-inference-v3-1-2-upgrade"></a>

**Helm 업그레이드:**

Helm을 통해 추론 연산자를 이미 설치한 경우 다음 명령을 사용하여 업그레이드합니다.

```
helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.1
    
# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'
```

**EKS 추가 기능 업그레이드:**

추론 연산자를 EKS 추가 기능으로 설치한 경우 최신 버전으로 업그레이드합니다.

먼저 `hyperpodClusterArn`가 이미 추가 기능 구성에 있는지 확인합니다.

```
CLUSTER=EKS_CLUSTER_NAME
REGION=REGION

aws eks describe-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --region $REGION \
  --query 'addon.configurationValues' --output text | jq .
```

`hyperpodClusterArn`가 출력에 있는 경우 다음 명령을 실행하여 업그레이드합니다.

```
aws eks update-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --addon-version v1.2.0-eksbuild.1 \
  --resolve-conflicts OVERWRITE \
  --region $REGION
```

`hyperpodClusterArn`이 없는 경우 현재 구성을 가져와서 추가하고 업그레이드합니다.

```
HP_ARN=HYPERPOD_CLUSTER_ARN

CURRENT_CONFIG=$(aws eks describe-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --region $REGION \
  --query 'addon.configurationValues' --output text)

# Add hyperpodClusterArn to the configuration
NEW_CONFIG=$(echo "$CURRENT_CONFIG" | jq --arg arn "$HP_ARN" \
  '. + {hyperpodClusterArn: $arn}')

aws eks update-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --addon-version v1.2.0-eksbuild.1 \
  --configuration-values "$NEW_CONFIG" \
  --resolve-conflicts OVERWRITE \
  --region $REGION
```

모델을 배포하기 전에 추가 기능이 활성화될 때까지 기다립니다.

## SageMaker HyperPod 추론 릴리스 정보: v3.1
<a name="sagemaker-hyperpod-inference-release-notes-20260403"></a>

**릴리스 날짜:** 2026년 4월 3일

**요약**

추론 연산자 v3.1에는 사용자 지정 Kubernetes 포드 구성, 사용자 지정 인증서 지원 및 포드당 요청 제한이 도입되었습니다.

**주요 기능**
+ **사용자 지정 Kubernetes 포드 구성** - 사용자가 추론 포드 구성을 사용자 지정할 수 있도록 `InferenceEndpointConfig` CRD에 새 `kubernetes` 필드를 추가했습니다.
  + **사용자 지정 init 컨테이너** - 추론 서버가 시작되기 전에 사용자 정의 init 컨테이너를 실행합니다(예: 캐시 워밍, GDS 설정). Init 컨테이너는 운영자의 프리페치 컨테이너 뒤에 주입됩니다.
  + **사용자 지정 볼륨** - 포드 사양에 볼륨(`emptyDir`, `hostPath``configMap`, 등)을 추가합니다.이 볼륨은를 통해 init 컨테이너에서 참조할 수 있습니다`volumeMounts`.
  + **사용자 지정 스케줄러 이름** - 포드 배치를 위한 사용자 지정 Kubernetes 스케줄러를 지정합니다.
+ **사용자 지정 인증서** -를 통해 구성된 운영자 생성 자체 서명 인증서 대신 추론 엔드포인트에 자체 ACM 인증서를 사용합니다`customCertificateConfig`. 공개적으로 신뢰할 수 있는 ACM 인증서, AWS 프라이빗 CA 인증서 및 외부 CAs에서 가져온 인증서를 지원합니다. 운영자는 인증서 상태를 모니터링하고 자동 갱신 감지를 지원합니다.
+ **요청 제한 **- 다음 구성 가능한 필드를 `Worker`사용하여의 새 `RequestLimits` 구성을 통해 포드당 요청 처리를 제어합니다.
  + `maxConcurrentRequests` - 포드당 최대 동시 진행 중 요청 수입니다.
  + `maxQueueSize` - 거부하기 전에 동시성 한도에 도달하면 대기열에 대한 요청입니다.
  + `overflowStatusCode` - 제한을 초과하면 반환되는 HTTP 상태 코드(기본값: 429).

사전 조건 및 업그레이드 지침을 포함한 자세한 내용은 아래 섹션을 참조하세요.

### 사전 조건
<a name="sagemaker-hyperpod-inference-v3-1-prerequisites"></a>

사용자 지정 인증서 기능을 사용하려면 추론 연산자 실행 역할에 다음 권한을 추가합니다.

```
{  
    "Sid": "ACMCertificateAccess",  
    "Effect": "Allow",  
    "Action": [  
        "acm:DescribeCertificate",  
        "acm:GetCertificate"  
    ],  
    "Resource": "arn:aws:acm:*:*:certificate/*"  
}
```

### v3.1로 업그레이드
<a name="sagemaker-hyperpod-inference-v3-1-upgrade"></a>

Helm을 통해 추론 연산자를 이미 설치한 경우 다음 명령을 사용하여 업그레이드합니다.

```
helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.1
    
# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'
```

## SageMaker HyperPod 추론 릴리스 정보: v3.0
<a name="sagemaker-hyperpod-inference-release-notes-20260223"></a>

**릴리스 날짜:** 2026년 2월 23일

**요약**

추론 연산자 3.0에는 간소화된 수명 주기 관리를 위한 EKS 추가 기능 통합, 세분화된 일정 제어를 위한 노드 선호도 지원, 향상된 리소스 태그 지정이 도입되었습니다. 제공된 마이그레이션 스크립트를 사용하여 기존 Helm 기반 설치를 EKS 추가 기능으로 마이그레이션할 수 있습니다. 업그레이드하기 전에 새 태그 지정 권한으로 추론 연산자 실행 역할을 업데이트합니다.

**주요 기능**
+ **EKS 추가 기능 통합 -** 간소화된 설치 환경을 갖춘 엔터프라이즈급 수명 주기 관리
+ **노드 선호도** - 스팟 인스턴스를 제외하거나, 가용 영역을 선호하거나, 사용자 지정 레이블이 있는 노드를 대상으로 지정하기 위한 세분화된 예약 제어

사전 조건, 업그레이드 지침 및 마이그레이션 지침을 포함한 자세한 내용은 아래 섹션을 참조하세요.

### 사전 조건
<a name="sagemaker-hyperpod-inference-v3-0-prerequisites"></a>

Helm 버전을 3.0으로 업그레이드하기 전에 고객은 추론 연산자 실행 역할에 태그 지정 권한을 추가해야 합니다. 리소스 태그 지정 및 보안 개선의 일환으로 추론 연산자는 이제 ALB, S3 및 ACM 리소스에 태그를 지정합니다. 이 개선 사항에는 추론 연산자 실행 역할에 대한 추가 권한이 필요합니다. 추론 연산자 실행 역할에 다음 권한을 추가합니다.

```
{  
    "Sid": "CertificateTagginPermission",  
    "Effect": "Allow",  
    "Action": [  
        "acm:AddTagsToCertificate"  
    ],  
    "Resource": "arn:aws:acm:*:*:certificate/*",  
},  
{  
    "Sid": "S3PutObjectTaggingAccess",  
    "Effect": "Allow",  
    "Action": [  
        "s3:PutObjectTagging"  
    ],  
    "Resource": [  
        "arn:aws:s3:::<TLS_BUCKET>/*" # Replace * with your TLS bucket  
    ]  
}
```

### v3.0으로 업그레이드
<a name="sagemaker-hyperpod-inference-v3-0-upgrade"></a>

Helm을 통해 추론 연산자를 이미 설치한 경우 다음 명령을 사용하여 업그레이드합니다.

```
helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.0
    
# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'
```

### Helm에서 EKS로 추가 기능 마이그레이션
<a name="sagemaker-hyperpod-inference-v3-0-migration"></a>

3.0 버전 이전의 Helm을 통해 추론 연산자를 설치하는 경우 EKS 추가 기능으로 마이그레이션하여 추론 연산자에 대해 릴리스될 새 기능에 대한 업데이트를 적시에 받는 것이 좋습니다. 이 스크립트는 SageMaker HyperPod 추론 연산자를 Helm 기반 설치에서 EKS 추가 기능 설치로 마이그레이션합니다.

**개요:** 스크립트는 클러스터 이름과 리전을 파라미터로 사용하고, 기존 Helm 설치 구성을 검색하고, EKS 추가 기능 배포로 마이그레이션합니다. 추론 연산자, ALB 컨트롤러 및 KEDA 연산자에 대한 새 IAM 역할을 생성합니다.

추론 연산자를 마이그레이션하기 전에 스크립트는 필수 종속성(S3 CSI 드라이버, FSx CSI 드라이버, cert-manager 및 metrics-server)이 존재하는지 확인합니다. 존재하지 않는 경우 추가 기능으로 배포됩니다.

추론 연산자 추가 기능 마이그레이션이 완료되면 스크립트는 원래 추론 연산자 Helm 차트를 통해 설치된 경우 S3, FSx 및 기타 종속성(ALB, KEDA, cert-manager, metrics-server)도 마이그레이션합니다. `--skip-dependencies-migration`를 사용하여 S3 CSI 드라이버, FSx CSI 드라이버, cert-manager 및 metrics-server에 대해이 단계를 건너뜁니다. ALB 및 KEDA는 추론 연산자와 동일한 네임스페이스에 추가 기능의 일부로 설치되며 추론 연산자 추가 기능의 일부로 마이그레이션됩니다.

**중요**  
마이그레이션 중에 새 모델은 마이그레이션이 완료될 때까지 배포되지 않으므로 배포하지 마십시오. 추론 연산자 추가 기능이 ACTIVE 상태가 되면 새 모델을 배포할 수 있습니다. 마이그레이션 시간은 일반적으로 15\~20분이 소요되며 현재 몇 개의 모델만 배포된 경우 30분 이내에 완료될 수 있습니다.

**마이그레이션 사전 조건:**
+ AWS CLI 적절한 자격 증명으로 구성됨
+ EKS 클러스터에 대한 액세스 권한으로 구성된 kubectl
+ Helm 설치됨
+ hyperpod-inference-operator의 기존 Helm 설치

**참고**  
이미 실행 중인 엔드포인트는 마이그레이션 프로세스 중에 중단되지 않습니다. 기존 엔드포인트는 마이그레이션 전반에 걸쳐 중단 없이 트래픽을 계속 제공합니다.

**마이그레이션 스크립트 가져오기:**

```
git clone https://github.com/aws/sagemaker-hyperpod-cli.git
cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator/migration
```

**사용량:**

```
./helm_to_addon.sh [OPTIONS] \
  --cluster-name <cluster-name> (Required) \
  --region <region> (Required) \
  --helm-namespace kube-system (Optional) \
  --auto-approve (Optional) \
  --skip-dependencies-migration (Optional) \
  --s3-mountpoint-role-arn <s3-mountpoint-role-arn> (Optional) \
  --fsx-role-arn <fsx-role-arn> (Optional)
```

**옵션:**
+ `--cluster-name NAME` – EKS 클러스터 이름(필수)
+ `--region REGION` – AWS 리전(필수)
+ `--helm-namespace NAMESPACE` - 차트 Helm이 설치된 네임스페이스(기본값: kube-system)(선택 사항)
+ `--s3-mountpoint-role-arn ARN` – S3 Mountpoint CSI 드라이버 IAM 역할 ARN(선택 사항)
+ `--fsx-role-arn ARN` – FSx CSI 드라이버 IAM 역할 ARN(선택 사항)
+ `--auto-approve` -이 플래그가 활성화된 경우 확인 프롬프트를 건너뜁니다. `step-by-step` 및 `auto-approve`는 상호 배타적`--auto-approve`입니다.이 제공된 경우 지정하지 마십시오`--step-by-step`(선택 사항).
+ `--step-by-step` - 검토를 위해 각 주요 단계 후에 일시 중지합니다. `--auto-approve`이 이미 추가된 경우 언급해서는 안 됩니다(선택 사항).
+ `--skip-dependencies-migration` - Helm 설치 종속성을 추가 기능으로 마이그레이션하지 않습니다. 종속성의 경우 추론 연산자 차트 Helm을 통해 설치되지 않았거나 별도로 관리하려는 경우(선택 사항)

**예**:

기본 마이그레이션(종속성 마이그레이션):

```
./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1
```

프롬프트 없이 자동 승인:

```
./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --auto-approve
```

FSx, S3 탑재 지점, 인증서 관리자 및 지표 서버에 대한 종속성 마이그레이션 건너뛰기:

```
./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --skip-dependencies-migration
```

기존 S3 및 FSx IAM 역할을 제공합니다.

```
./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --s3-mountpoint-role-arn arn:aws:iam::123456789012:role/s3-csi-role \
  --fsx-role-arn arn:aws:iam::123456789012:role/fsx-csi-role
```

**백업 위치:**

백업은에 저장됩니다. `/tmp/hyperpod-migration-backup-<timestamp>/` 

백업을 통해 안전한 마이그레이션 및 복구가 가능합니다.
+ **실패 시 롤백** - 마이그레이션에 실패하면 스크립트는 백업된 구성을 사용하여 클러스터를 마이그레이션 전 상태로 자동 복원할 수 있습니다.
+ **감사 추적** - 문제 해결 및 규정 준수를 위해 마이그레이션 전에 존재했던 내용에 대한 전체 레코드를 제공합니다.
+ **구성 참조** - 마이그레이션 전 구성과 마이그레이션 후 구성을 비교할 수 있습니다.
+ **수동 복구** - 필요한 경우 백업 디렉터리에서 특정 리소스를 수동으로 검사하고 복원할 수 있습니다.

**롤백:**

마이그레이션에 실패하면 이전 상태를 복원하기 위해 롤백을 시작하기 전에 스크립트에 사용자 확인 메시지가 표시됩니다.

## SageMaker HyperPod 추론 릴리스 정보: v2.3
<a name="sagemaker-hyperpod-inference-release-notes-20260203"></a>

**새로운 기능**

이 릴리스에서는 배포 구성 유연성을 높이기 위해 사용자 지정 리소스 정의(CRDs)에 새로운 선택적 필드를 도입합니다.

**Features**
+ **다중 인스턴스 유형**
  + **배포 안정성 향상** - 기본 옵션에 용량이 부족한 경우 대체 인스턴스 유형으로 자동 장애 조치를 통해 다중 인스턴스 유형 구성 지원
  + **지능형 리소스 예약** - Kubernetes 노드 선호도를 사용하여 원하는 리소스를 사용할 수 없는 경우에도 배포를 보장하면서 인스턴스 유형의 우선 순위를 지정합니다.
  + **최적화된 비용 및 성능** - 인스턴스 유형 기본 설정을 유지하고 클러스터 변동 중에 용량 관련 장애를 방지합니다.

**버그 수정**

이제 `invocationEndpoint` 사양의 필드에 대한 변경 사항이 적용됩니다`InferenceEndpointConfig`.
+ `invocationEndpoint` 필드가 패치되거나 업데이트되면 , Load Balancer`Ingress`, `SageMakerEndpointRegistration`및 SageMaker 엔드포인트와 같은 종속 리소스가 정규화로 업데이트됩니다.
+ `invocationEndpoint` 제공된 값은 `InferenceEndpointConfig` 사양 자체에 있는 그대로 저장됩니다. 이 값을 사용하여 Load Balancer 생성하고 활성화된 경우 SageMaker 엔드포인트를 생성하면 앞에 슬래시가 하나 있도록 정규화됩니다.
  + `v1/chat/completions`는 `Ingress`, AWS Load Balancer 및 SageMaker 엔드포인트에 `/v1/chat/completions` 대해 로 정규화됩니다. 의 경우 사양에 로 `SageMakerEndpointRegistration`표시됩니다`v1/chat/completions`.
  + `///invoke`는 `Ingress`, AWS Load Balancer 및 SageMaker 엔드포인트에 `/invoke` 대해 로 정규화됩니다. 의 경우 사양에 로 `SageMakerEndpointRegistration`표시됩니다`invoke`.

**Helm 설치:**

팔로우: [https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm\_chart](https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart)

추론 연산자만 설치하는 데 중점을 두는 경우 1단계, 즉 후에 `Set Up Your Helm Environment`를 수행합니다`cd HyperPodHelmChart/charts/inference-operator`. 추론 연산자 차트 디렉터리 자체에 있으므로 명령에서가 표시되는 모든 곳에서를 `.` 로 바`helm_chart/HyperPodHelmChart`꿉니다.

**이미 설치된 경우 연산자를 v2.3으로 업그레이드합니다.**

```
cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

helm upgrade hyperpod-inference-operator . \
  -n kube-system \
  -f current-values.yaml \
  --set image.tag=v2.3
```