Elastic Fabric Adapter - AWS ParallelCluster

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Elastic Fabric Adapter

O Elastic Fabric Adapter (EFA) é um dispositivo de rede que tem recursos de OS-bypass para comunicações de rede de baixa latência com outras instâncias na mesma sub-rede. O EFA é exposto usando Libfabric e pode ser usado por aplicativos que usam o padrão MPI (Messaging Passing Interface).

Para usar o EFA com AWS ParallelCluster e um Slurm agendador, defina SlurmQueues//ComputeResourcesEfa/Enabledcomo. true

Para visualizar a lista de instâncias do Amazon EC2 compatíveis com EFAs, consulte Tipos de instância compatíveis no Guia do usuário do Amazon EC2 para instâncias do Linux.

Recomendamos que você execute suas instâncias habilitadas para EFA em um grupo de posicionamento. Dessa forma, as instâncias são executadas em um grupo de baixa latência em uma única zona de disponibilidade. Para obter mais informações sobre como configurar grupos de posicionamento com o AWS ParallelCluster, consulte SlurmQueues / Networking / PlacementGroup.

nota

O Elastic Fabric Adapter (EFA) não é compatível com diferentes zonas de disponibilidade. Para obter mais informações, consulte Scheduling/SlurmQueues/Networking/SubnetIds.

nota

Por padrão, as distribuições Ubuntu habilitam a proteção ptrace (rastreamento do processo). A proteção ptrace fica desativada para que o Libfabric funcione corretamente. Para ter mais informações, consulte Desabilitar a proteção ptrace no Guia do usuário do Amazon EC2.

Configuração de rede EFA padrão

A partir da AWS ParallelCluster versão 3.15.0, quando o EFA está ativado, configura AWS ParallelCluster automaticamente as interfaces de rede somente do EFA para separar o tráfego EFA do tráfego IP. Isso maximiza a largura de banda do EFA e minimiza o consumo de endereços IP. AWS ParallelCluster determina a configuração ideal com base nos recursos do tipo de instância.

Essa configuração padrão é recomendada para a maioria das cargas de trabalho, incluindo HPC fortemente acoplada e treinamento distribuído. AI/ML

Personalizando interfaces de rede EFA

Se sua carga de trabalho exigir uma configuração de rede diferente, como maximizar a largura de banda ENA em placas de rede secundárias ou configurar um subconjunto de placas de rede disponíveis, você poderá substituir as configurações padrão usando o parâmetro//. SlurmQueuesComputeResourcesLaunchTemplateOverrides Isso substitui toda a configuração da interface de rede dos nós de computação pela configuração definida em seu modelo de execução.

Para uma step-by-step explicação passo a passo, consulte. Personalize as interfaces de rede de nós de computação com substituições de modelos de lançamento

Atenção

Se você configurar as interfaces de rede de uma forma que não seja compatível com o tipo de instância, as instâncias não serão executadas. Para verificar as configurações de rede compatíveis com seu tipo de instância, consulte a Referência DescribeInstanceTypesde API do Amazon EC2.

Para ter mais informações, consulte Elastic Fabric Adapter no Guia do usuário do Amazon EC2 e Scale HPC workloads with elastic fabric adapter and AWS ParallelCluster no AWS Open Source Blog.