Compartilhar via


Acelerador de zona de aterrissagem de computação de alto desempenho (HPC) do Azure

O acelerador de zona de aterrissagem de computação de alto desempenho (HPC) automatiza a implantação de um ambiente. Esse ambiente fornece uma estrutura base que você pode personalizar para criar um mecanismo de implantação de ponta a ponta para uma solução de cluster HPC completa no Azure. O acelerador é uma coleção de scripts de código aberto e modelos que podem preparar suas zonas de aterrissagem em escala empresarial. Ele pode fornecer uma abordagem de arquitetura específica e uma implementação de referência que aderem à arquitetura e às práticas recomendadas do Cloud Adoption Framework.

Os clientes adotam a HPC de várias maneiras para atender às suas necessidades de negócios, e você pode adaptar o acelerador de zona de aterrissagem de HPC para produzir uma arquitetura que se adapte à sua maneira. Usar o acelerador ajuda a colocar sua organização no caminho para uma escala sustentável.

Implementar uma zona de aterrissagem em escala empresarial

O acelerador de zona de aterrissagem HPC pressupõe que você está começando com uma zona de pouso em escala empresarial que foi implementada com êxito. Para obter mais informações sobre esse pré-requisito, consulte os seguintes artigos:

O que o acelerador de zona de pouso HPC fornece

A abordagem às zonas de aterrissagem do acelerador de zona de pouso HPC fornece os seguintes recursos para o seu projeto:

  • Uma abordagem modular para que você possa personalizar variáveis de ambiente
  • Diretrizes de design para avaliar decisões críticas
  • A arquitetura de zona de destino
  • Uma implementação que inclui:
    • Uma referência implantável capaz de criar o ambiente para sua implantação de HPC
    • Uma implementação de referência de HPC aprovada pela Microsoft para testar o ambiente implantado

Diretrizes de projeto para energia, manufatura e finanças

As arquiteturas das zonas de desembarque variam de acordo com o setor de negócios, além de variar de acordo com a organização. Esta seção lista artigos por setor que fornecem diretrizes para a criação de sua zona de pouso:

Diretrizes de design para escolher computação HPC para cargas de trabalho de IA

Escolher o SKU certo de computação otimizada para GPU para cargas de trabalho de IA é importante para otimizar o desempenho e controlar os custos. A Microsoft oferece muitos SKUs diferentes que são otimizados para cargas de trabalho que se beneficiam de mais potência da GPU. Há várias considerações ao escolher o SKU certo para cargas de trabalho de IA. Cargas de trabalho menores podem aproveitar apenas uma fração da CPU, GPU e largura de banda de SKUs mais poderosos, como o NDv4. Talvez você queira considerar outros SKUs de computação, como NCv4 e NDv2, para trabalhos menores. Aqui estão algumas considerações ao escolher o SKU certo de computação otimizada para GPU para cargas de trabalho de IA:

  • Verificação. Considere fatores como o intervalo de ponto de verificação ao executar seus modelos de aprendizado de máquina. Isso pode afetar o desempenho da GPU durante a fase de treinamento. Estabeleça um equilíbrio entre a eficiência do armazenamento e a manutenção de operações suaves da GPU. Monitore o uso da GPU.
  • Inferência. Os requisitos de inferência diferem dos requisitos de treinamento, com uma possível carga de CPU mais alta que pode maximizar o desempenho da CPU. Considere os requisitos de inferência do seu modelo ao selecionar uma SKU de computação. Monitore o uso da CPU.
  • Treinamento. Considere os requisitos do seu modelo durante o treinamento, monitorando o uso da CPU e da GPU.
  • Dimensionamento de Trabalho. Ao considerar o SKU de computação para suas cargas de trabalho de IA, considere o tamanho do trabalho. Trabalhos menores, como aqueles aproximadamente OPT 1.3B podem não aproveitar tamanhos maiores de SKU e podem deixar a energia da CPU e GPU ociosa, dependendo do estágio do trabalho (inferência, treinamento).
  • Largura de banda. Uma largura de banda maior e de menor latência pode ser uma despesa quando não utilizada. Considere a InfiniBand apenas para os modelos maiores que exigirão a largura de banda extra.

Exiba os tamanhos de máquina virtual otimizados para GPU do Azure.

Exemplo: arquitetura conceitual de referência para energia

A arquitetura de referência conceitual a seguir é um exemplo que mostra áreas de projeto e práticas recomendadas para ambientes de energia .

Diagram that shows an example architecture for an energy environment, including compute, storage, subnets, a database, and a front end for on-premises users.

Exemplo: arquitetura conceitual de referência para finanças

A arquitetura de referência conceitual a seguir é um exemplo que mostra áreas de design e práticas recomendadas para ambientes financeiros .

Diagram that shows an example architecture for a finance environment, including on-premises resources, virtual network, subnets, and network security groups.

Exemplo: arquitetura de referência conceitual para manufatura

A arquitetura de referência conceitual a seguir é um exemplo que mostra áreas de projeto e práticas recomendadas para ambientes de fabricação .

Diagram that shows an example architecture for a manufacturing environment, including on-premises and cloud resources and an HPC landing zone.

Obter o acelerador de zona de aterrissagem HPC

O acelerador de zona de aterrissagem HPC está disponível no GitHub: Azure HPC OnDemand Platform Accelerator

Próximas etapas

Para obter considerações e recomendações para sua arquitetura de acelerador de zona de aterrissagem de HPC, examine as áreas críticas de design do acelerador de zona de aterrissagem de HPC no Gerenciamento de Identidade e Acesso do Azure.