Compartilhar via


Início Rápido – Implantar o Workspace do Azure CycleCloud para Slurm usando o Marketplace

O Workspace do Azure CycleCloud para Slurm é um aplicativo gratuito do Marketplace que fornece uma maneira simples, segura e escalonável de gerenciar recursos de computação e armazenamento para cargas de trabalho de HPC e IA. Neste início rápido, você instalará o Workspace do CycleCloud para Slurm usando o aplicativo Marketplace.

Pré-requisitos

Para este início rápido, você precisará:

  1. Uma conta do Azure com uma assinatura ativa
  2. As funções de Colaborador e administrador de acesso do usuário no nível da assinatura

Como implantar?

  • Entre no portal do do Azure.
  • Clique na opção de + Create a Resource superior esquerdo
  • Na caixa Search services and marketplace, insira slurm e selecione Workspace do Azure CycleCloud para Slurm.
  • Na página Workspace do Azure CycleCloud para Slurm, selecione Criar.

Captura de tela do Workspace do Azure CycleCloud para o slurm marketplace

Básico

  • Na página Novo Workspace do Azure CycleCloud para Slurm, insira ou selecione os detalhes a seguir.
    • Assinatura: selecione a assinatura a ser usada se ainda não estiver selecionada.
    • Região: selecione a região do Azure na qual você deseja implantar o workspace do CycleCloud para o ambiente slurm.
    • grupo de recursos: selecione o grupo de recursos para a conta do Workspace do Azure CycleCloud para Slurm ou crie um novo.
    • Tamanho da VM do CycleCloud: escolha um novo tamanho de VM ou mantenha o padrão
    • de usuário administrador: insira um nome e uma senha para a conta de administrador do CycleCloud.
    • chave pública SSH do Administrador: selecione a chave SSH pública da conta de administrador diretamente ou se estiver armazenada em um recurso de chave SSH no Azure.

Captura de tela da tela de opções básicas

Sistema de arquivos

Diretório base dos usuários – Criar Novo

Especifique onde o diretório base dos usuários deve estar localizado. Criar um novo NFS interno usará a VM do agendador como um servidor NFS com um datadisk anexado. Captura de tela da montagem do sistema de arquivos para /shared e /home Builtin NFS criar nova tela de opções

Criar um novo a do Azure NetApp Files criará uma conta ANF, um pool e um volume do nível de capacidade e serviço especificados. Captura de tela da montagem do sistema de arquivos para arquivos /shared e /home do Azure NetApp criar nova tela de opções

Diretório base dos usuários – Usar Existente

Se você tiver um ponto de montagem NFS existente, selecione a opção Usar Existente e especifique as configurações para montá-la. Captura de tela da montagem do sistema de arquivos para /shared e /home use a tela de opções NFS externas

Montagem adicional do sistema de arquivos – Criar Novo

Se você precisar montar um sistema de arquivos adicional para os dados do projeto, poderá criar um novo ou especificar um existente. Você pode criar um novo volume do Azure NetApp Files ou um sistema de arquivos lustre gerenciado do Azure.

Captura de tela da montagem adicional do sistema de arquivos para criar novos do Azure NetApp Files

Captura de tela da montagem adicional do sistema de arquivos para criar novos do Lustre Gerenciado do Azure

Montagem adicional do sistema de arquivos – Usar Existente

Se você tiver um ponto de montagem NFS externo existente ou um Sistema de Arquivos lustre gerenciado do Azure, poderá especificar as opções de montagem.

Captura de tela da montagem adicional do sistema de arquivos para um NFS externo existente

Rede

Especifique aqui se você deseja criar uma nova Rede Virtual e sub-redes ou usar uma existente.

Criar uma nova Rede Virtual

Captura de tela das opções de rede para criar uma nova

  • Escolha a CIDR que corresponderá ao número de nós de computação que você está direcionando e especifique um endereço IP base,
  • É uma prática recomendada criar um Bastion se você não tiver conectividade direta fornecida por sua TI corporativa,
  • A criação de um Gateway nat é necessária para fornecer conectividade de saída à Internet. Isso se tornará obrigatório em 2025 e já é imposto políticas de pensamento por algumas empresas,
  • Emparelhe a uma Rede Virtual existente se você já tiver um HUB ao qual deseja emparelhar que possa fornecer serviços como o Bastion e um gateway de VPN. Tenha cuidado para escolher um endereço IP base compatível com sua VNET emparelhada. Verifique se a VNET emparelhada tem um gateway.

Usar rede virtual existente

Antes de usar uma rede virtual existente, verifique se há pré-requisitos no Planejar seu workspace do CycleCloud para implantação de slurm

Captura de tela das opções de rede para usar um existente

Configurações de slurm

Especifique o tamanho e a imagem da VM a serem usados para o Agendador e os nós de Logon. As imagens são as imagens HPC fornecidas no Azure Marketplace com as URIs associadas:

Nome da imagem URI
Alma Linux 8.7 almalinux:almalinux-hpc:8_7-hpc-gen2:latest
Ubuntu 20.04 microsoft-dsvm:ubuntu-hpc:2004:latest
Ubuntu 22.04 microsoft-dsvm:ubuntu-hpc:2204:latest
Imagem Personalizada Você precisará especificar uma URN de imagem ou uma ID de imagem

Se você escolher Custom Image deverá especificar uma URN de imagem para uma imagem existente do marketplace ou uma ID de imagem para uma imagem em uma Galeria de Computação do Azure.

Você também pode verificar o Use image on all nodes se quiser que o Agendador, os Nós de Logon e os nós de computação usem a mesma imagem.

Defina quantos nós de logon você deseja provisionar no início e o número máximo. Por fim, a habilitação de verificações de integridade executará verificações de integridade do nó para o HPC e as partições de GPU para remover automaticamente nós não íntegros quando eles forem iniciados.

Captura de tela das configurações do Slurm

Se você quiser habilitar a Contabilidade do Trabalho do Slurm, marque a caixa de seleção para exibir as opções de conectividade. Observe que você precisa ter um recurso de servidor flexível do Banco de Dados do Azure para MySQL implantado anteriormente. A conexão por meio do fornecimento de um FQDN ou IP privado estará disponível se você optar por fornecer sua própria rede virtual ou usar o emparelhamento VNET ao criar uma nova rede virtual como parte de sua implantação. Além disso, a conexão por meio do Ponto de Extremidade Privado estará disponível se você optar por criar uma nova rede virtual.

Captura de tela das opções de Configuração de Slurm para o banco de dados de contabilidade de trabalho, FQDN direto

Captura de tela das opções de Configuração de Slurm para o banco de dados de contabilidade de trabalho com o ponto de extremidade privado

Configurações de partição

O Workspace do Azure CycleCloud para Slurm vem com três partições de Slurm definidas:

  • HTC : para trabalhos não MPI embarassingly,
  • HPC: para trabalhos de MPI bem acoplados principalmente usando tipos de VM com suporte infiniBand,
  • GPU: para trabalhos de GPU de MPI e não MPI

Você pode definir a imagem e o número máximo de nós a serem provisionados dinamicamente pelo CycleCloud para cada partição. Somente a partição HTC permitirá o uso de instâncias spot, pois geralmente não é uma prática recomendada usar instâncias spot para trabalhos de HPC e GPU. No entanto, essas configurações podem ser substituídas após a implantação na interface do usuário do CycleCloud.

Captura de tela das opções de Configurações de Partição

Tags

Defina as marcas relevantes para os recursos necessários. Node Array marcas serão aplicadas às Máquinas Virtuais provisionadas dinamicamente pelo CycleCloud.

Captura de tela das opções de marcas

Revisão+Criar

Examine suas opções. Essa etapa também processará algumas validações. Captura de tela do de Revisão

Quando aprovado, clique no botão Criar para inicializar a implantação Captura de tela da Implantação em andamento

Siga o status e as etapas da implantação.

Verificar sua implantação

Conecte-se ao ccw-cyclecloud-vm usando o Bastion com o nome de usuário e as chaves SSH especificadas durante a implantação.

Captura de tela do menu Conectar com Bastion Captura de tela das opções de conexão Conectar com Bastion

Quando conectado, verifique os logs de cloud-init para verificar se tudo está correto.

$tail -f -n 25 /var/log/cloud-init-output.log
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Starting cluster ccws....
----------------------------
ccws : allocation -> started
----------------------------
Resource group: 
Cluster nodes:
    scheduler: Off -- --  
Total nodes: 1
CC start_cluster successful
/
exiting after install
Cloud-init v. 23.4-7.el8_10.alma.1 running 'modules:final' at Wed, 12 Jun 2024 10:15:53 +0000. Up 11.84 seconds.
Cloud-init v. 23.4-7.el8_10.alma.1 finished at Wed, 12 Jun 2024 10:28:15 +0000. Datasource DataSourceAzure [seed=/dev/sr0].  Up 754.29 seconds

Em seguida, estabeleça a conectividade entre o computador cliente e a VM do CycleCloud. Isso pode ser de sua TI corporativa, uma VPN, um túnel bastion, um IP público anexado se sua empresa permitir. Conecte-se à interface da Web navegando até https://<cycleccloud_ip>e autentique-se com o nome de usuário e a senha fornecidos durante a implantação. Confirme se o Agendador e o nó de Logon estão em execução.

Conectar-se ao nó de logon

Ao usar o Bastion, use um dos scripts do utilitário util/ssh_thru_bastion.sh ou util/tunnel_thru_bastion.sh para se conectar, fornecido aqui. Se não estiver usando um Bastion, você precisa estabelecer a conectividade direta por conta própria.