Configuração de rede EFA padrão Personalizando interfaces de rede EFA

Elastic Fabric Adapter

O Elastic Fabric Adapter (EFA) é um dispositivo de rede que tem OS-bypass recursos para comunicações de rede de baixa latência com outras instâncias na mesma sub-rede. O EFA é exposto usando Libfabric e pode ser usado por aplicativos que usam o padrão MPI (Messaging Passing Interface).

Para usar o EFA com AWS ParallelCluster um Slurm agendador, defina SlurmQueues//ComputeResourcesEfa/Enabledcomo. true

Para visualizar a lista de instâncias do Amazon EC2 compatíveis com EFAs, consulte Tipos de instância compatíveis no Guia do usuário do Amazon EC2 para instâncias do Linux.

Recomendamos que você execute suas EFA-enabled instâncias em um grupo de posicionamento. Dessa forma, as instâncias são executadas em um grupo de baixa latência em uma única zona de disponibilidade. Para obter mais informações sobre como configurar grupos de posicionamento com o AWS ParallelCluster, consulte SlurmQueues / Networking / PlacementGroup.

nota

O Elastic Fabric Adapter (EFA) não é compatível com diferentes zonas de disponibilidade. Para obter mais informações, consulte Scheduling/SlurmQueues/Networking/SubnetIds.

nota

Por padrão, as distribuições Ubuntu habilitam a proteção ptrace (rastreamento do processo). A proteção ptrace fica desativada para que o Libfabric funcione corretamente. Para ter mais informações, consulte Desabilitar a proteção ptrace no Guia do usuário do Amazon EC2.

Configuração de rede EFA padrão

A partir da AWS ParallelCluster versão 3.15.0, quando o EFA está ativado, configura AWS ParallelCluster automaticamente as interfaces de EFA-only rede para separar o tráfego EFA do tráfego IP. Isso maximiza a largura de banda do EFA e minimiza o consumo de endereços IP. AWS ParallelCluster determina a configuração ideal com base nos recursos do tipo de instância. Portanto, os nós de EFA-enabled computação são iniciados com mais de uma interface de rede, mesmo quando usam um tipo de instância de placa de rede única, desde que esse tipo de instância ofereça suporte a mais de uma interface de rede.

Essa configuração padrão é recomendada para a maioria das cargas de trabalho, incluindo HPC fortemente acoplada e treinamento distribuído. AI/ML

nota

O Amazon EC2 não atribui automaticamente um endereço IP público a uma instância iniciada com mais de uma interface de rede. EFA-enabled os nós de computação são iniciados com várias interfaces de rede. Esses nós de computação falham na inicialização se dependerem de um IP público atribuído automaticamente para acesso à Internet (uma sub-rede pública sem gateway NAT). Coloque esses nós de computação em uma sub-rede privada com um gateway NAT e defina como. AssignPublicIpfalse Anteriormente, esse requisito se aplicava somente aos tipos de instância com várias placas de rede.

Personalizando interfaces de rede EFA

Se sua carga de trabalho exigir uma configuração de rede diferente, como maximizar a largura de banda ENA em placas de rede secundárias ou configurar um subconjunto de placas de rede disponíveis, você poderá substituir as configurações padrão usando o parâmetro//. SlurmQueuesComputeResourcesLaunchTemplateOverrides Isso substitui toda a configuração da interface de rede dos nós de computação pela configuração definida em seu modelo de execução.

Para obter uma demonstração detalhada, consulte Personalize as interfaces de rede de nós de computação com substituições de modelos de lançamento.

Atenção

Se você configurar as interfaces de rede de uma forma que não seja compatível com o tipo de instância, as instâncias não serão executadas. Para verificar as configurações de rede compatíveis com seu tipo de instância, consulte a Referência DescribeInstanceTypesde API do Amazon EC2.

Para ter mais informações, consulte Elastic Fabric Adapter no Guia do usuário do Amazon EC2 e Scale HPC workloads with elastic fabric adapter and AWS ParallelCluster no AWS Open Source Blog.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Pilhas de solução de problemas que incluem o AWS ParallelCluster recurso personalizado

Habilitar o Intel MPI