Compartilhar via


Configurar o InfiniBand

Este artigo faz referência ao CentOS, uma distribuição do Linux que está se aproximando do status de EOL (fim da vida útil). Considere seu uso e planeje adequadamente. Para obter mais informações, veja as Orientações sobre fim da vida útil do CentOS.

Aplica-se a: ✔️ VMs do Linux ✔️ VMs do Windows ✔️ Conjuntos de dimensionamento flexíveis ✔️ Conjuntos de dimensionamento uniformes

Dica

Use a ferramenta do seletor de máquinas virtuais para encontrar o tamanho ideal para a sua carga de trabalho.

Este artigo compartilha algumas informações sobre instâncias compatíveis com RDMA a serem usadas em uma rede IB (InfiniBand). A arquitetura de rede InfiniBand apresenta um design completo de árvore de gordura (que é uma topologia de rede que fornece alta largura de banda e baixa latência), garantindo simetria bissecional sem bloqueio. Essa configuração fornece largura de banda igual entre duas VMs (máquinas virtuais) dentro do mesmo VMSS (conjunto de dimensionamento de máquinas virtuais).

Instâncias compatíveis com RDMA

A maioria dos tamanhos de VM do HPC tem um adaptador de rede para conectividade RDMA (acesso remoto direto à memória). Tamanhos selecionados da série N designados com 'r', também são compatíveis com RDMA. Essa interface é um complemento da interface de rede Ethernet padrão do Azure disponível em outros tamanhos de VM.

Essa interface secundária permite que as instâncias compatíveis com RDMA comuniquem-se através de uma rede InfiniBand, operando em taxas HDR para HBv4, HBv3, HBv2, taxas EDR para HB, HC, HX, NDv2 e taxas FDR para H16r, H16mr e outras máquinas virtuais da série N compatíveis com RDMA. Esses recursos RDMA podem melhorar a escalabilidade e o desempenho de aplicativos baseados em MPI (Interface de Passagem de Mensagem).

Observação

Suporte a SR-IOV: no Azure HPC, atualmente, há duas classes de VMs, dependendo se elas estão habilitadas para a InfiniBand em SR-IOV. Atualmente, quase todas as VMs habilitadas para RDMA ou de geração mais recentes no Azure são SR-IOV habilitado, exceto para H16r, H16mr e NC24r. O RDMA só é habilitado pela rede InfiniBand e tem suporte para todas as VMs compatíveis com RDMA. Só há suporte para IP sobre IB em VMs habilitadas para SR-IOV. O RDMA não está habilitado pela rede Ethernet.

  • Sistema operacional – distribuições do Linux, como CentOS, RHEL, AlmaLinux, Ubuntu, SUSE são comumente usadas. O Windows Server 2016 e versões mais recentes têm suporte em todas as VMs da série HPC. Observe que o Windows Server 2012 R2 não tem suporte para HBv2 em diante, bem como tamanhos de VM com mais de 64 núcleos (virtuais ou físicos). Consulte Imagens de VM para obter uma lista de imagens de VM Linux com suporte no Azure Marketplace e como elas podem ser configuradas adequadamente. As respectivas páginas de tamanho de VM também listam o suporte à pilha de software.

  • InfiniBand e drivers – em VMs habilitadas para InfiniBand, são necessários os drivers corretos para habilitar o RDMA. Confira Habilitar a InfiniBand para saber mais sobre extensões de VM ou instalação manual de drivers InfiniBand.

  • MPI – os tamanhos de VM habilitados para SR-IOV no Azure permitem usar quase todos os tipos de MPI com o Mellanox OFED. Consulte Configurar MPI para HPC para obter mais detalhes sobre como configurar MPI em VMs do HPC no Azure.

    Observação

    Espaço de endereço de rede RDMA: A rede RDMA no Azure reserva o espaço de endereço 172.16.0.0/16. Para executar aplicativos MPI em instâncias implantadas em uma rede virtual do Azure, verifique se o espaço do endereço de rede virtual não se sobrepõe à rede RDMA.

Opções de configuração de cluster

O Azure fornece várias opções para criar clusters de VMs de HPC que podem se comunicar usando a rede RDMA, incluindo:

  • Máquinas virtuais – implantar VMs HPC compatíveis com RDMA no mesmo conjunto de disponibilidade (ao usar o modelo de implantação do Azure Resource Manager). Se você usar o modelo de implantação clássico, implante as VMs no mesmo serviço de nuvem.

  • Conjuntos de dimensionamento de máquinas virtuais – em um conjunto de dimensionamento de máquinas virtuais, assegure-se de limitar a implantação a um único grupo de posicionamento para comunicação InfiniBand dentro do conjunto de dimensionamento. Por exemplo, em um modelo do Resource Manager, defina a singlePlacementGrouppropriedade comotrue.

Observe que o tamanho máximo do conjunto de dimensionamento que pode ser aumentado com singlePlacementGroup=true é limitado a 100 VMs por padrão. Se as necessidades de escala de trabalho do HPC forem maiores que 100 VMs em um único locatário, é possível solicitar um aumento, abrir uma solicitação de suporte no Atendimento ao cliente online, sem encargos. O limite do número de VMs para um único conjunto de dimensionamento pode ser aumentado para 300. Observe que, ao implantar VMs usando Conjuntos de disponibilidade, o limite máximo é de 200 VMs para cada conjunto.

Além disso, o VMSS serve como o limite de isolamento entre cargas de trabalho no mesmo cluster, garantindo que as instâncias em VMSSs diferentes permaneçam isoladas umas das outras para garantir a segurança.

Observação

MPI entre máquinas virtuais: se RDMA (por exemplo, usando a comunicação MPI) for necessário entre máquinas virtuais, verifique se as VMs estão no mesmo conjunto de dimensionamento de máquinas virtuais ou conjunto de disponibilidade.

Considerações de implantação

  • Assinatura do Azure – Para implantar um número maior de instâncias de computação intensiva, considere uma assinatura pré-paga ou outras opções de compra. Se estiver usando uma conta gratuita do Azure, você poderá usar apenas um número limitado de núcleos de computação do Azure.

  • Preços e disponibilidade – Verifique os preços e a disponibilidade da VM pelas regiões do Azure.

  • Cota de núcleos – Talvez seja preciso aumentar a cota de núcleos em sua assinatura do Azure, saindo do valor padrão. Sua assinatura também pode limitar o número de núcleos que você pode implantar em determinadas famílias de tamanho de VM, incluindo a série de H. Para solicitar um aumento de cota, abra uma solicitação de atendimento ao cliente online gratuitamente. (Os limites padrão podem variar dependendo de sua categoria de assinatura.)

    Observação

    Entre em contato com o Suporte do Azure se precisar de capacidade em larga escala. Cotas do Azure são limites de crédito, não garantias de capacidade. Independentemente de sua cota, você é cobrado apenas pelo núcleos utilizados.

  • Rede virtual – Não é necessário ter uma rede virtual do Azure para usar instâncias de computação intensiva. No entanto, para muitas implantações, é necessária pelo menos uma rede virtual do Azure baseada em nuvem ou uma conexão site a site se você precisar acessar recursos locais. Quando necessário, você precisará criar uma nova rede virtual para implantar as instâncias. Não há suporte para a adição de VMs de computação intensiva a uma rede virtual em um grupo de afinidades.

  • Redimensionamento – devido ao hardware especializado, só é possível redimensionar instâncias de computação intensiva dentro da mesma família de tamanho (série H ou série N). Por exemplo, somente é possível redimensionar uma VM da série H de um tamanho da série H para outro. Talvez sejam necessárias considerações adicionais sobre o suporte do driver InfiniBand e discos de NVMe para determinadas VMs.

Próximas etapas