View a markdown version of this page

Alocação da cota de partição da GPU - SageMaker Inteligência Artificial da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Alocação da cota de partição da GPU

Você pode estender a alocação da cota de computação para suportar o particionamento da GPU, permitindo o compartilhamento refinado de recursos no nível da partição da GPU. Quando o particionamento de GPU está habilitado em GPUs compatíveis no cluster, cada GPU física pode ser particionada em várias GPUs isoladas com alocações definidas de computação, memória e multiprocessador de streaming. Para obter mais informações sobre particionamento de GPU, consulte. Usando partições de GPU na Amazon SageMaker HyperPod Você pode alocar partições de GPU específicas para equipes, permitindo que várias equipes compartilhem uma única GPU, mantendo o isolamento em nível de hardware e o desempenho previsível.

Por exemplo, uma instância ml.p5.48xlarge com 8 GPUs H100 pode ser particionada em partições de GPU, e você pode alocar partições individuais para equipes diferentes com base nos requisitos de suas tarefas. Quando você especifica as alocações de partições da GPU, a governança de HyperPod tarefas calcula as cotas proporcionais de vCPU e memória com base na partição da GPU, semelhante à alocação. GPU-level Essa abordagem maximiza a utilização da GPU eliminando a capacidade ociosa e permitindo o compartilhamento econômico de recursos em várias tarefas simultâneas na mesma GPU física.

Criação de cotas de computação

aws sagemaker create-compute-quota \ --name "fractional-gpu-quota" \ --compute-quota-config '{ "ComputeQuotaResources": [ { "InstanceType": "ml.p4d.24xlarge", "AcceleratorPartition": { "Count": 4, "Type": "mig-1g.5gb" } } ], "ResourceSharingConfig": { "Strategy": "LendAndBorrow", "BorrowLimit": 100 } }'

Verificando recursos de cota

# Check ClusterQueue kubectl get clusterqueues kubectl describe clusterqueue QUEUE_NAME # Check ResourceFlavors kubectl get resourceflavor kubectl describe resourceflavor FLAVOR_NAME