Recomendações de rede para cargas de trabalho de IA na infraestrutura do Azure (IaaS)
Este artigo fornece recomendações de rede para organizações que executam cargas de trabalho de IA na infraestrutura do Azure (IaaS). Projetar uma rede bem otimizada pode melhorar a velocidade de processamento de dados, reduzir a latência e garantir que a infraestrutura de rede seja dimensionada junto com as crescentes demandas de IA.
Garanta largura de banda suficiente
Largura de banda suficiente refere-se à capacidade de uma rede para lidar com grandes volumes de dados sem atrasos ou interrupções. A alta largura de banda garante uma transferência de dados rápida e ininterrupta entre sistemas locais e o Azure, oferecendo suporte ao rápido treinamento de modelos de IA e reduzindo o tempo de inatividade no pipeline. Para organizações que transferem grandes conjuntos de dados do local para a nuvem para treinamento de modelos de IA, uma conexão de alta largura de banda é essencial. Use o Azure ExpressRoute para estabelecer uma conexão de alta velocidade dedicada, segura e confiável entre sua rede local e o Azure.
Minimizar a latência
Minimizar a latência envolve reduzir os atrasos na transferência de dados entre recursos em rede. A latência mais baixa proporciona um processamento de dados mais rápido, permitindo insights em tempo real e melhorando o desempenho de cargas de trabalho sensíveis à latência.
Otimize o posicionamento de recursos. Para minimizar a latência de cargas de trabalho de IA, como pré-processamento de dados, treinamento de modelo e inferência, implante máquinas virtuais (VMs) na mesma região ou zona de disponibilidade do Azure. A colocalização de recursos reduz a distância física, melhorando assim o desempenho da rede.
Use grupos de posicionamento de proximidade (PPGs). Para cargas de trabalho sensíveis à latência que exigem processamento em tempo real ou comunicação rápida entre processos, utilize PPGs para realocar fisicamente recursos em um datacenter do Azure. Os PPGs garantem que os recursos de computação, armazenamento e rede permaneçam próximos, minimizando a latência para cargas de trabalho exigentes. As soluções de orquestração e InfiniBand lidam com a proximidade do nó automaticamente.
Use imagens pré-configuradas do sistema operacional Linux. Simplifique a implantação de cluster selecionando imagens do sistema operacional Linux do Azure Marketplace pré-empacotadas com drivers InfiniBand, drivers NVIDIA, bibliotecas de comunicação e ferramentas de monitoramento. Essas imagens são otimizadas para desempenho e podem ser implantadas com o Azure CycleCloud para uma criação de cluster rápida e eficiente.
Implementar redes de alto desempenho
A rede de alto desempenho utiliza recursos avançados de rede para suportar cálculos intensivos de IA em grande escala, particularmente para tarefas aceleradas por GPU. Redes de alto desempenho garantem trocas de dados rápidas e eficientes entre GPUs, o que otimiza o treinamento de modelos e acelera os ciclos de desenvolvimento de IA.
Utilize o InfiniBand para cargas de trabalho de GPU. Para cargas de trabalho dependentes da aceleração da GPU e do treinamento distribuído em várias GPUs, use a rede InfiniBand do Azure. A capacidade de acesso remoto direto à memória (RDMA) GPUDirect da InfiniBand suporta comunicação direta GPU-to-GPU. Ele melhora a velocidade de transferência de dados e a eficiência do treinamento do modelo. Soluções de orquestração como o Azure CycleCloud e o Azure Batch manipulam a configuração de rede InfiniBand quando você usa as SKUs de VM apropriadas.
Escolha as VMs otimizadas para GPU do Azure. Selecione VMs que usam InfiniBand, como VMs da série ND, que são projetadas para comunicação entre GPUs de alta largura de banda e baixa latência. Essa configuração é essencial para treinamento e inferência distribuídos escaláveis, permitindo uma troca de dados mais rápida entre GPUs.
Otimize para processamento de dados em larga escala
A otimização para processamento de dados em larga escala envolve estratégias para gerenciar transferências de dados extensas e altas cargas computacionais. Usando paralelismo de dados e modelos, você pode dimensionar suas cargas de trabalho de IA e melhorar a velocidade de processamento. Use as máquinas virtuais otimizadas para GPU do Azure para lidar com cargas de trabalho de IA complexas e com uso intensivo de dados.
Aplique técnicas de paralelismo de dados ou modelos. Para gerenciar transferências de dados extensas em várias GPUs, implemente paralelismo de dados ou paralelismo de modelo, dependendo das suas necessidades de carga de trabalho de IA. Garanta o uso de memória de alta largura de banda (HBM), que é ideal para cargas de trabalho de alto desempenho devido à sua alta largura de banda, baixo consumo de energia e design compacto. O HBM suporta processamento rápido de dados, essencial para cargas de trabalho de IA que exigem o processamento de grandes conjuntos de dados.
Use recursos avançados de rede GPU. Para cenários de IA exigentes, escolha VMs do Azure como NDH100v5 e NDMI300Xv5. O Azure configura essas VMs com conexões dedicadas NVIDIA Quantum-2 CX7 InfiniBand de 400 Gb/s em conjuntos de escala de máquina virtual. Essas conexões suportam GPU Direct RDMA, permitindo transferências diretas de dados GPU-para-GPU que reduzem a latência e melhoram o desempenho geral do sistema.