Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
AWS GPU AMI PyTorch 2.4 de aprendizaje profundo (Ubuntu 22.04)
Para obtener ayuda para comenzar, consulte Introducción a las DLAMI.
Formato de nombre de AMI
-
Controlador Nvidia AMI GPU PyTorch 2.4 de Deep Learning OSS $ {PATCH_VERSION} (Ubuntu 22.04) $ {AAAA-MM-DD}
Instancias de EC2 admitidas
-
Consulte Cambios importantes en las DLAMI.
-
El aprendizaje profundo con el controlador NVIDIA de código abierto admite G4dn, G5, G6, Gr6, P4, P4de, P5, P5e y P5en.
La AMI incluye lo siguiente:
-
AWS Servicio compatible: EC2
-
Sistema operativo: Ubuntu 22.04
-
Arquitectura de computación: x86
-
Python:/opt/conda/envs/pytorch/bin/python
-
Controlador de NVIDIA:
-
Controlador con software de código abierto de NVIDIA: 550.144.03
-
-
Pila NVIDIA CUDA12 1.1:
-
Ruta de instalación de CUDA, NCCL y CUDDN:/-12.4/ usr/local/cuda
-
CUDA predeterminado: 12.4
-
RUTAusr/local/cuda points to /usr/local/cuda/-12.4/
-
Se han actualizado las siguientes variables de entorno:
-
LD_LIBRARY_PATH tendrá/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86_64-linux/lib
-
PATH para tener//usr/local/cuda/bin/:/usr/local/cuda/include
-
-
-
Sistema compilado (versión NCCL) presente enusr/local/cuda/: 2.21.5
-
PyTorch Versión NCCL compilada del entorno conda: 2.20.5 PyTorch
-
-
Ubicación de las pruebas de NCCL:
-
all_reduce, all_gather y reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
-
Para ejecutar las pruebas de NCCL, LD_LIBRARY_PATH ya se ha actualizado con las rutas necesarias.
-
Los comunes ya PATHs están agregados a LD_LIBRARY_PATH:
-
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
-
-
-
LD_LIBRARY_PATH se ha actualizado con las rutas de la versión de CUDA
-
/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
-
-
-
Instalador de EFA: 1.34.0
-
Nvidia: 2.4.1 GDRCopy
-
NVIDIA Transformer Engine: v1.11.0
-
AWS Plugin OFI NCCL: se instala como parte del instalador EFA (AWS)
-
La ruta de instalación:/opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/libse añade a LD_LIBRARY_PATH.
-
Comprueba la ruta del anillo, message_transfer:/opt/aws-ofi-nccl/tests
-
Nota: el PyTorch paquete también viene con el complemento AWS OFI NCCL vinculado dinámicamente como paquete conda y PyTorch utilizará ese aws-ofi-nccl-dlc paquete en lugar del OFI NCCL del sistema. AWS
-
-
AWS CLI v2 como aws2 y v1 como aws AWS CLI
-
Tipo de volumen EBS: gp3
-
Versión de Python: 3.11
-
AMI-ID de la consulta con el parámetro de SSM (la región de ejemplo es us-east-1):
-
Controlador NVIDIA de código abierto:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.4-ubuntu-22.04/latest/ami-id \ --query "Parameter.Value" \ --output text
-
-
Consulta el AMI-ID con AWSCLI (por ejemplo, la región es us-east-1):
-
Controlador con software de código abierto de NVIDIA:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.? (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
-
Avisos
Instancias P5/P5e
-
DeviceIndex es único para cada uno NetworkCard y debe ser un entero no negativo inferior al límite de ENI por. NetworkCard En P5, el número de ENI NetworkCard es 2, lo que significa que los únicos valores válidos son 0 o 1. DeviceIndex A continuación, se muestra un ejemplo del comando de lanzamiento de una instancia EC2 P5 mediante awscli, que se muestra NetworkCardIndex del 0 al 31 y DeviceIndex como 0 para la primera interfaz y DeviceIndex como 1 para las 31 restantes.
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Fecha de lanzamiento: 17/02/2021
Nombre de AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20250216
Actualizado
-
Se ha actualizado el kit de herramientas de contenedores de NVIDIA de la versión 1.17.3 a la versión 1.17.4.
-
En la versión 1.17.4 del kit de herramientas de contenedores, el montaje de bibliotecas de compatibilidad con CUDA se ha desactivado. Para garantizar la compatibilidad con varias versiones de CUDA en los flujos de trabajo de contenedores, asegúrese de actualizar su LD_LIBRARY_PATH para incluir las bibliotecas de compatibilidad con CUDA, tal y como se muestra en el tutorial Si utiliza una capa de compatibilidad CUDA.
Fecha de la versión: 21-01-2025
Nombre de AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20250119
Actualizado
-
Se ha actualizado el controlador de NVIDIA de la versión 550.127.05 a la 550.144.03 para corregir los CVE que figuran en el boletín de seguridad de los controladores de pantalla de GPU de NVIDIA de enero de 2025
.
Fecha de la versión: 18/11/2024
Nombre de AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20241116
Fixed
-
Debido a un cambio en el kernel de Ubuntu para corregir un defecto en la funcionalidad de asignación al azar del diseño del espacio de direcciones del kernel (KASLR), las instancias G4Dn/G5 no pueden inicializar CUDA correctamente en el controlador con software de código abierto de NVIDIA. Para mitigar este problema, esta DLAMI incluye una funcionalidad que carga dinámicamente el controlador propietario para las instancias G4Dn y G5. Espere un breve período de inicialización para que se realice esta carga y así garantizar que sus instancias funcionen correctamente.
-
Puede utilizar los siguientes comandos para comprobar el estado y la condición del servicio:
-
sudo systemctl is-active dynamic_driver_load.serviceactive
Fecha de la versión: 16/10/2024
Nombre de AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20241016
Added
Fecha de la versión: 30/09/2024
Nombre de AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20240929
Actualizado
-
Se ha actualizado el kit de herramientas de contenedores de NVIDIA de la versión 1.16.1 a la 1.16.2 para corregir la vulnerabilidad de seguridad CVE-2024-0133
.
Fecha de la versión: 26/09/2024
Nombre de AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20240925
Added
-
Versión inicial de la serie Deep Learning AMI GPU PyTorch 2.4.1 (Ubuntu 22.04). Incluye un entorno conda pytorch complementado con el controlador NVIDIA R550, CUDA=12.4.1, CUDNN=8.9.7, NCCL=2.20.5 y EFA=1.34.0. PyTorch