View a markdown version of this page

AWS GPU AMI PyTorch 2.4 de aprendizaje profundo (Ubuntu 22.04) - AWS Deep Learning AMIs

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

AWS GPU AMI PyTorch 2.4 de aprendizaje profundo (Ubuntu 22.04)

Para obtener ayuda para comenzar, consulte Introducción a las DLAMI.

Formato de nombre de AMI

  • Controlador Nvidia AMI GPU PyTorch 2.4 de Deep Learning OSS $ {PATCH_VERSION} (Ubuntu 22.04) $ {AAAA-MM-DD}

Instancias de EC2 admitidas

  • Consulte Cambios importantes en las DLAMI.

  • El aprendizaje profundo con el controlador NVIDIA de código abierto admite G4dn, G5, G6, Gr6, P4, P4de, P5, P5e y P5en.

La AMI incluye lo siguiente:

  • AWS Servicio compatible: EC2

  • Sistema operativo: Ubuntu 22.04

  • Arquitectura de computación: x86

  • Python:/opt/conda/envs/pytorch/bin/python

  • Controlador de NVIDIA:

    • Controlador con software de código abierto de NVIDIA: 550.144.03

  • Pila NVIDIA CUDA12 1.1:

    • Ruta de instalación de CUDA, NCCL y CUDDN:/-12.4/ usr/local/cuda

    • CUDA predeterminado: 12.4

      • RUTAusr/local/cuda points to /usr/local/cuda/-12.4/

      • Se han actualizado las siguientes variables de entorno:

        • LD_LIBRARY_PATH tendrá/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86_64-linux/lib

        • PATH para tener//usr/local/cuda/bin/:/usr/local/cuda/include

    • Sistema compilado (versión NCCL) presente enusr/local/cuda/: 2.21.5

    • PyTorch Versión NCCL compilada del entorno conda: 2.20.5 PyTorch

  • Ubicación de las pruebas de NCCL:

    • all_reduce, all_gather y reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

    • Para ejecutar las pruebas de NCCL, LD_LIBRARY_PATH ya se ha actualizado con las rutas necesarias.

      • Los comunes ya PATHs están agregados a LD_LIBRARY_PATH:

        • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

    • LD_LIBRARY_PATH se ha actualizado con las rutas de la versión de CUDA

      • /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib

  • Instalador de EFA: 1.34.0

  • Nvidia: 2.4.1 GDRCopy

  • NVIDIA Transformer Engine: v1.11.0

  • AWS Plugin OFI NCCL: se instala como parte del instalador EFA (AWS)

    • La ruta de instalación:/opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/libse añade a LD_LIBRARY_PATH.

    • Comprueba la ruta del anillo, message_transfer:/opt/aws-ofi-nccl/tests

    • Nota: el PyTorch paquete también viene con el complemento AWS OFI NCCL vinculado dinámicamente como paquete conda y PyTorch utilizará ese aws-ofi-nccl-dlc paquete en lugar del OFI NCCL del sistema. AWS

  • AWS CLI v2 como aws2 y v1 como aws AWS CLI

  • Tipo de volumen EBS: gp3

  • Versión de Python: 3.11

  • AMI-ID de la consulta con el parámetro de SSM (la región de ejemplo es us-east-1):

    • Controlador NVIDIA de código abierto:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.4-ubuntu-22.04/latest/ami-id \ --query "Parameter.Value" \ --output text
  • Consulta el AMI-ID con AWSCLI (por ejemplo, la región es us-east-1):

    • Controlador con software de código abierto de NVIDIA:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.? (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

​Avisos

Instancias P5/P5e
  • DeviceIndex es único para cada uno NetworkCard y debe ser un entero no negativo inferior al límite de ENI por. NetworkCard En P5, el número de ENI NetworkCard es 2, lo que significa que los únicos valores válidos son 0 o 1. DeviceIndex A continuación, se muestra un ejemplo del comando de lanzamiento de una instancia EC2 P5 mediante awscli, que se muestra NetworkCardIndex del 0 al 31 y DeviceIndex como 0 para la primera interfaz y DeviceIndex como 1 para las 31 restantes.

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Fecha de lanzamiento: 17/02/2021

Nombre de AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20250216

Actualizado

Fecha de la versión: 21-01-2025

Nombre de AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20250119

Actualizado

Fecha de la versión: 18/11/2024

Nombre de AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20241116

Fixed
  • Debido a un cambio en el kernel de Ubuntu para corregir un defecto en la funcionalidad de asignación al azar del diseño del espacio de direcciones del kernel (KASLR), las instancias G4Dn/G5 no pueden inicializar CUDA correctamente en el controlador con software de código abierto de NVIDIA. Para mitigar este problema, esta DLAMI incluye una funcionalidad que carga dinámicamente el controlador propietario para las instancias G4Dn y G5. Espere un breve período de inicialización para que se realice esta carga y así garantizar que sus instancias funcionen correctamente.

    • Puede utilizar los siguientes comandos para comprobar el estado y la condición del servicio:

sudo systemctl is-active dynamic_driver_load.service active

Fecha de la versión: 16/10/2024

Nombre de AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20241016

Added

Fecha de la versión: 30/09/2024

Nombre de AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20240929

Actualizado
  • Se ha actualizado el kit de herramientas de contenedores de NVIDIA de la versión 1.16.1 a la 1.16.2 para corregir la vulnerabilidad de seguridad CVE-2024-0133.

Fecha de la versión: 26/09/2024

Nombre de AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20240925

Added
  • Versión inicial de la serie Deep Learning AMI GPU PyTorch 2.4.1 (Ubuntu 22.04). Incluye un entorno conda pytorch complementado con el controlador NVIDIA R550, CUDA=12.4.1, CUDNN=8.9.7, NCCL=2.20.5 y EFA=1.34.0. PyTorch