Acelerador de zona de aterrissagem de computação de alto desempenho (HPC) do Azure
O acelerador de zona de aterrissagem de computação de alto desempenho (HPC) automatiza a implantação de um ambiente. Esse ambiente fornece uma estrutura base que você pode personalizar para criar um mecanismo de implantação de ponta a ponta para uma solução de cluster HPC completa no Azure. O acelerador é uma coleção de scripts de código aberto e modelos que podem preparar suas zonas de aterrissagem em escala empresarial. Ele pode fornecer uma abordagem de arquitetura específica e uma implementação de referência que aderem à arquitetura e às práticas recomendadas do Cloud Adoption Framework.
Os clientes adotam a HPC de várias maneiras para atender às suas necessidades de negócios, e você pode adaptar o acelerador de zona de aterrissagem de HPC para produzir uma arquitetura que se adapte à sua maneira. Usar o acelerador ajuda a colocar sua organização no caminho para uma escala sustentável.
Implementar uma zona de aterrissagem em escala empresarial
O acelerador de zona de aterrissagem HPC pressupõe que você está começando com uma zona de pouso em escala empresarial que foi implementada com êxito. Para obter mais informações sobre esse pré-requisito, consulte os seguintes artigos:
- Comece com as zonas de aterrissagem em escala empresarial do Cloud Adoption Framework
- Implementar uma zona de destino de escala de negócios do Cloud Adoption Framework
O que o acelerador de zona de pouso HPC fornece
A abordagem às zonas de aterrissagem do acelerador de zona de pouso HPC fornece os seguintes recursos para o seu projeto:
- Uma abordagem modular para que você possa personalizar variáveis de ambiente
- Diretrizes de design para avaliar decisões críticas
- A arquitetura de zona de destino
- Uma implementação que inclui:
- Uma referência implantável capaz de criar o ambiente para sua implantação de HPC
- Uma implementação de referência de HPC aprovada pela Microsoft para testar o ambiente implantado
Diretrizes de projeto para energia, manufatura e finanças
As arquiteturas das zonas de desembarque variam de acordo com o setor de negócios, além de variar de acordo com a organização. Esta seção lista artigos por setor que fornecem diretrizes para a criação de sua zona de pouso:
Energia (Petróleo e Gás)
- Locatários do Azure Billing e do Microsoft Entra para HPC de energia
- Gerenciamento de identidade e acesso para HPC do Azure em energia
- Gerenciamento para HPC do Azure em energia
- Topologia de rede e conectividade para HPC do Azure em energia
- Automação de plataforma e DevOps para HPC do Azure em energia
- Organização de recursos para HPC no setor de energia
- Governança para HPC em indústrias de energia
- Segurança para HPC do Azure em energia
- Computar cargas de trabalho de aplicativos HPC em grande escala em VMs do Azure
- Armazenamento para ambientes de energia HPC
Produção
- Fabricando locatários do Azure HPC Azure e locatários do Active Directory
- Gerenciamento de identidade e acesso do Azure para HPC na fabricação
- Gestão para HPC na indústria de transformação
- Topologia e conectividade de rede HPC de fabricação
- Automação de plataforma e DevOps para HPC do Azure no setor de manufatura
- Organização de recursos de HPC de manufatura
- Governança do Azure para HPC de fabricação
- Segurança para HPC em indústrias de manufatura
- Fabricação de armazenamento HPC
Finance
- Ofertas de cobrança do Azure e locatários do Active Directory para HPC financeira
- Finanças HPC Azure identidade e gerenciamento de acesso
- Gestão para HPC no setor financeiro
- Topologia de rede e conectividade para HPC no setor financeiro
- Automação de plataformas e DevOps para HPC no setor financeiro
- Organização de recursos para HPC do Azure no setor financeiro
- Governança para HPC financeiro
- Segurança para HPC no setor financeiro
- Armazenamento para HPC no setor financeiro
Diretrizes de design para escolher computação HPC para cargas de trabalho de IA
Escolher o SKU certo de computação otimizada para GPU para cargas de trabalho de IA é importante para otimizar o desempenho e controlar os custos. A Microsoft oferece muitos SKUs diferentes que são otimizados para cargas de trabalho que se beneficiam de mais potência da GPU. Há várias considerações ao escolher o SKU certo para cargas de trabalho de IA. Cargas de trabalho menores podem aproveitar apenas uma fração da CPU, GPU e largura de banda de SKUs mais poderosos, como o NDv4. Talvez você queira considerar outros SKUs de computação, como NCv4 e NDv2, para trabalhos menores. Aqui estão algumas considerações ao escolher o SKU certo de computação otimizada para GPU para cargas de trabalho de IA:
- Verificação. Considere fatores como o intervalo de ponto de verificação ao executar seus modelos de aprendizado de máquina. Isso pode afetar o desempenho da GPU durante a fase de treinamento. Estabeleça um equilíbrio entre a eficiência do armazenamento e a manutenção de operações suaves da GPU. Monitore o uso da GPU.
- Inferência. Os requisitos de inferência diferem dos requisitos de treinamento, com uma possível carga de CPU mais alta que pode maximizar o desempenho da CPU. Considere os requisitos de inferência do seu modelo ao selecionar uma SKU de computação. Monitore o uso da CPU.
- Treinamento. Considere os requisitos do seu modelo durante o treinamento, monitorando o uso da CPU e da GPU.
- Dimensionamento de Trabalho. Ao considerar o SKU de computação para suas cargas de trabalho de IA, considere o tamanho do trabalho. Trabalhos menores, como aqueles aproximadamente OPT 1.3B podem não aproveitar tamanhos maiores de SKU e podem deixar a energia da CPU e GPU ociosa, dependendo do estágio do trabalho (inferência, treinamento).
- Largura de banda. Uma largura de banda maior e de menor latência pode ser uma despesa quando não utilizada. Considere a InfiniBand apenas para os modelos maiores que exigirão a largura de banda extra.
Exiba os tamanhos de máquina virtual otimizados para GPU do Azure.
Exemplo: arquitetura conceitual de referência para energia
A arquitetura de referência conceitual a seguir é um exemplo que mostra áreas de projeto e práticas recomendadas para ambientes de energia .
Exemplo: arquitetura conceitual de referência para finanças
A arquitetura de referência conceitual a seguir é um exemplo que mostra áreas de design e práticas recomendadas para ambientes financeiros .
Exemplo: arquitetura de referência conceitual para manufatura
A arquitetura de referência conceitual a seguir é um exemplo que mostra áreas de projeto e práticas recomendadas para ambientes de fabricação .
Obter o acelerador de zona de aterrissagem HPC
O acelerador de zona de aterrissagem HPC está disponível no GitHub: Azure HPC OnDemand Platform Accelerator
Próximas etapas
Para obter considerações e recomendações para sua arquitetura de acelerador de zona de aterrissagem de HPC, examine as áreas críticas de design do acelerador de zona de aterrissagem de HPC no Gerenciamento de Identidade e Acesso do Azure.