기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
AWS Deep Learning AMI GPU PyTorch 2.4(Ubuntu 22.04)
시작하기에 관한 도움말은 DLAMI 시작하기 섹션을 참조하세요.
AMI 이름 형식
-
Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.${PATCH_VERSION}(Ubuntu 22.04) ${YYYY-MM-DD}
지원되는 EC2 인스턴스
-
중요 DLAMI 변경 사항을 참조하세요.
-
OSS Nvidia 드라이버를 사용하는 딥 러닝은 G4dn, G5, G6, Gr6, P4, P4de, P5, P5e, P5en을 지원합니다.
AMI에는 다음이 포함됩니다.
-
지원되는 AWS 서비스: EC2
-
운영 체제: Ubuntu 22.04
-
컴퓨팅 아키텍처: x86
-
Python: /opt/conda/envs/pytorch/bin/python
-
NVIDIA 드라이버:
-
OSS Nvidia 드라이버: 550.144.03
-
-
NVIDIA CUDA12.1 스택:
-
CUDA, NCCL 및 cuDDN 설치 경로: /usr/local/cuda-12.4/
-
기본 CUDA: 12.4
-
PATH /usr/local/cuda는 /usr/local/cuda-12.4/를 가리킵니다.
-
아래 env vars가 업데이트되었습니다.
-
LD_LIBRARY_PATH: /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86_64-linux/lib
-
PATH: /usr/local/cuda/bin/:/usr/local/cuda/include/
-
-
-
/usr/local/cuda/에 있는 컴파일된 시스템 NCCL 버전: 2.21.5
-
PyTorch conda 환경에서 컴파일된 PyTorch NCCL 버전: 2.20.5
-
-
NCCL 테스트 위치:
-
all_reduce, all_gather 및 reduce_scatter: /usr/local/cuda-xx.x/efa/test-cuda-xx.x/
-
NCCL 테스트를 실행하기 위해 LD_LIBRARY_PATH는 이미 필요한 경로로 업데이트되어 있습니다.
-
공통 PATH가 다음 LD_LIBRARY_PATH에 이미 추가됨:
-
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
-
-
-
LD_LIBRARY_PATH가 CUDA 버전 경로로 업데이트됨
-
/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
-
-
-
EFA 설치 관리자: 1.34.0
-
Nvidia GDRCopy: 2.4.1
-
Nvidia 트랜스포머 엔진: v1.11.0
-
AWS OFI NCCL 플러그인: EFA Installer-aws의 일부로 설치됨
-
설치 경로: /opt/aws-ofi-nccl/ . /opt/aws-ofi-nccl/lib 경로가 LD_LIBRARY_PATH에 추가됩니다.
-
링, message_transfer에 대한 테스트 경로: /opt/aws-ofi-nccl/tests
-
참고: PyTorch 패키지는 conda 패키지 aws-ofi-nccl-dlc 패키지로 동적으로 연결된 AWS OFI NCCL 플러그인과 함께 제공되며 PyTorch는 시스템 AWS OFI NCCL 대신 해당 패키지를 사용합니다.
-
-
AWS CLI v2를 aws2로, AWS CLI v1을 aws로
-
EBS 볼륨 유형: gp3
-
Python 버전: 3.11
-
SSM 파라미터를 사용하여 AMI-ID 쿼리(예시 리전은 us-east-1):
-
OSS Nvidia 드라이버:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.4-ubuntu-22.04/latest/ami-id \ --query "Parameter.Value" \ --output text
-
-
AWSCLI를 사용하여 AMI-ID 쿼리(예시 리전은 us-east-1):
-
OSS Nvidia 드라이버:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.? (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
-
Notices
P5/P5e 인스턴스
-
DeviceIndex는 각 NetworkCard에 고유하며, NetworkCard당 ENI의 한도보다 작은 음수가 아닌 정수여야 합니다. P5에서 NetworkCard당 ENI의 수는 2입니다. 즉, DeviceIndex에 유효한 유일한 값은 0 또는 1입니다. 다음은 awscli를 사용하는 EC2 P5 인스턴스 시작 명령의 예입니다. NetworkCardIndex가 번호 0~31이며 첫 번째 인터페이스의 경우 DeviceIndex는 0, 나머지 31개 인터페이스의 경우 DeviceIndex는 1로 설정됩니다.
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
릴리스 날짜: 2025-02-17
AMI 이름: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1(Ubuntu 22.04) 20250216
업데이트
-
NVIDIA Container Toolkit을 버전 1.17.3에서 버전 1.17.4로 업데이트했습니다.
-
자세한 내용은 https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
릴리스 정보 페이지를 참조하세요. -
Container Toolkit 버전 1.17.4에서는 이제 CUDA 호환 라이브러리 탑재가 비활성화됩니다. 컨테이너 워크플로에서 여러 CUDA 버전과의 호환성을 보장하려면 CUDA 호환성 계층을 사용하는 경우 자습서에 표시된 대로 CUDA 호환성 라이브러리를 포함하도록 LD_LIBRARY_PATH를 업데이트해야 합니다.
-
릴리스 날짜: 2025-01-21
AMI 이름: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1(Ubuntu 22.04) 20250119
업데이트
-
2025년 1월 NVIDIA GPU 디스플레이 드라이버 보안 공지
에 있는 CVE를 해결하기 위해 NVIDIA 드라이버를 버전 550.127.05에서 550.144.03으로 업그레이드했습니다.
릴리스 날짜: 2024-11-18
AMI 이름: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1(Ubuntu 22.04) 20241116
고정
-
커널 주소 공간 레이아웃 무작위화(KASLR) 기능의 결함을 해결하기 위해 Ubuntu 커널이 변경되었으므로, G4Dn/G5 인스턴스는 OSS Nvidia 드라이버에서 CUDA를 올바르게 초기화할 수 없습니다. 이 문제를 완화하기 위해 이 DLAMI에는 G4Dn 및 G5 인스턴스용 독점 드라이버를 동적으로 로드하는 기능이 포함되어 있습니다. 인스턴스가 제대로 작동할 수 있도록 하기 위해 해당 로드 작업에 초기화 기간이 잠시 소요될 수 있습니다.
-
이 서비스의 상태를 확인하기 위해 다음 명령을 사용할 수 있습니다.
-
sudo systemctl is-active dynamic_driver_load.serviceactive
릴리스 날짜: 2024-10-16
AMI 이름: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1(Ubuntu 22.04) 20241016
추가됨
-
트랜스포머 모델 가속화를 위한 Nvidia TransformerEngine v1.11.0 추가(자세한 내용은 https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/index.html
참조)
릴리스 날짜: 2024-09-30
AMI 이름: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1(Ubuntu 22.04) 20240929
업데이트
-
Nvidia Container Toolkit을 버전 1.16.1에서 1.16.2로 업그레이드하여 보안 취약성 CVE-2024-0133
을 해결했습니다.
릴리스 날짜: 2024-09-26
AMI 이름: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1(Ubuntu 22.04) 20240925
추가됨
-
Deep Learning AMI GPU PyTorch 2.4.1(Ubuntu 22.04) 시리즈의 최초 릴리스. NVIDIA 드라이버 R550, CUDA=12.4.1, cuDNN=8.9.7, PyTorch NCCL=2.20.5 및 EFA=1.34.0으로 보완된 conda 환경 pytorch를 포함합니다.