Partilhar via


Guia de início rápido - Implantar o Azure CycleCloud Workspace for Slurm usando o Marketplace

O Azure CycleCloud Workspace for Slurm é um aplicativo gratuito do Marketplace que fornece uma maneira simples, segura e escalável de gerenciar recursos de computação e armazenamento para cargas de trabalho de HPC e IA. Neste início rápido, você instalará o CycleCloud Workspace for Slurm usando o aplicativo Marketplace.

Pré-requisitos

Para este início rápido, você precisará:

  1. Uma conta do Azure com uma subscrição ativa
  2. O de Colaborador e funções de Administrador de Acesso de Usuário no nível de assinatura

Como implantar o ?

  • Entre no portal do Azure.
  • Clique na opção + Create a Resource superior esquerda
  • Na caixa Search services and marketplace, digite Slurm e selecione Azure CycleCloud Workspace for Slurm.
  • Na página Azure CycleCloud Workspace for Slurm, selecione Criar.

Captura de ecrã do Azure CycleCloud Workspace for Slurm marketplace

Básico

  • Na página conta Novo Azure CycleCloud Workspace for Slurm, insira ou selecione os seguintes detalhes.
    • Subscrição: Selecione a subscrição a utilizar se ainda não estiver selecionada.
    • Região: Selecione a região do Azure na qual você deseja implantar seu ambiente de trabalho CycleCloud para Slurm.
    • Grupo de recursos: Selecione o grupo de recursos para a conta do Azure CycleCloud Workspace for Slurm ou crie uma nova.
    • Tamanho da VM do CycleCloud: escolha um novo tamanho de VM ou mantenha o padrão
    • Admin User: Insira um nome e uma senha para a conta de administrador do CycleCloud.
    • de chave pública SSH do administrador: selecione a chave SSH pública da conta de administrador diretamente ou se armazenada em um recurso de chave SSH no Azure.

Captura de tela da tela Opções básicas

Sistema de ficheiros

Diretório inicial dos usuários - Criar novo

Especifique onde o diretório base dos usuários deve estar localizado. Crie um novo Builtin NFS usará a VM do agendador como um servidor NFS com um disco de dados anexado. Captura de tela da montagem do sistema de arquivos para /shared e /home Builtin NFS criar novas opções tela

Crie um novo Arquivos NetApp do Azure criará uma conta ANF, pool e volume da capacidade e nível de serviço especificados. Captura de tela da montagem do sistema de arquivos para arquivos NetApp do Azure /shared e /home criar novas opções

Diretório inicial dos usuários - Usar existente

Se você tiver um ponto de montagem NFS existente, selecione a opção Usar existente e especifique as configurações para montá-lo. Captura de tela da tela de montagem do sistema de arquivos para opções NFS externas /shared e /home use

Montagem adicional do sistema de arquivos - Criar novo

Se você precisar montar um sistema de arquivos adicional para os dados do projeto, poderá criar um novo ou especificar um existente. Você pode criar um novo volume de Arquivos NetApp do Azure ou um Sistema de Arquivos Azure Managed Lustre.

Captura de ecrã da montagem adicional do sistema de ficheiros para criar novos ficheiros NetApp do Azure

Captura de ecrã da montagem adicional do sistema de ficheiros para criar o novo Azure Managed Lustre

Montagem adicional do sistema de arquivos - Use Existing

Se você tiver um ponto de montagem NFS externo existente ou um sistema de arquivos Azure Managed Lustre, poderá especificar as opções de montagem.

Captura de tela da montagem adicional do sistema de arquivos para uma NFS externa existente

Ligação em rede

Especifique aqui se deseja criar uma nova rede virtual e sub-redes ou usar uma existente.

Criar uma nova Rede Virtual

Captura de tela das opções de rede para criar um novo

  • Escolha o CIDR que corresponderá ao número de nós de computação que você está segmentando e especifique um endereço IP base,
  • É uma prática recomendada criar um Bastion se você não tiver conectividade direta fornecida pela TI corporativa,
  • A criação de um gateway NAT é necessária para fornecer conectividade de saída à Internet. Isso se tornará obrigatório em 2025 e já é aplicado por algumas empresas,
  • Peer para uma rede virtual existente se você já tem um HUB ao qual você deseja emparelhar que pode fornecer serviços como Bastion e um gateway VPN. Tenha cuidado para escolher um endereço IP base que seja compatível com sua rede virtual emparelhada. Verifique a opção Permitir trânsito de gateway se a VNET emparelhada tiver um gateway.

Usar a Rede Virtual existente

Antes de usar uma rede virtual existente, verifique os pré-requisitos em planejar seu CycleCloud Workspace for Slurm Deployment

Captura de tela das opções de rede para usar um existente

Configurações de Slurm

Especifique o tamanho da VM e a imagem a serem usados para o Agendador e os nós de Logon. As imagens são as Imagens HPC fornecidas no Azure Marketplace com os URIs associados:

Nome da imagem URI
Alma Linux 8,7 almalinux:almalinux-hpc:8_7-hpc-gen2:mais recente
Ubuntu 20,04 microsoft-dsvm:ubuntu-hpc:2004:mais recente
Ubuntu 22,04 microsoft-dsvm:ubuntu-hpc:2204:mais recente
Imagem personalizada Você terá que especificar uma URN de imagem ou ID de imagem

Se você escolher Custom Image deverá especificar uma URN de imagem para uma imagem de mercado existente ou uma ID de imagem para uma imagem em uma Galeria de Computação do Azure.

Você também pode verificar o Use image on all nodes se quiser que o Agendador, os nós de login e os nós de computação usem a mesma imagem.

Defina quantos nós de login você deseja provisionar no início e o número máximo. Finalmente, a ativação das verificações de integridade executará verificações de integridade do nó para as partições HPC e GPU para remover automaticamente os nós não íntegros quando eles forem iniciados.

Captura de ecrã das definições do Slurm

Se você quiser habilitar a Contabilidade de Trabalho Slurm, marque a caixa de seleção para exibir as opções de conectividade. Observe que você precisa ter um recurso de servidor flexível do Banco de Dados do Azure para MySQL implantado anteriormente. A conexão por meio do fornecimento de um FQDN ou IP privado estará disponível se você optar por fornecer sua própria rede virtual ou usar emparelhamento VNET ao criar uma nova rede virtual como parte de sua implantação. Além disso, a conexão via Private Endpoint estará disponível se você optar por criar uma nova rede virtual.

Captura de tela das opções de Configuração de Slurm para banco de dados de contabilidade de trabalho, FQDN direto

Captura de tela das opções de Configuração de Slurm para o banco de dados de contabilidade de tarefas com o Private Endpoint

Configurações de partição

O Azure CycleCloud Workspace for Slurm vem com 3 partições Slurm definidas:

  • HTC : para trabalhos embarassingly não-MPI,
  • HPC: para trabalhos MPI firmemente acoplados, principalmente usando tipos de VM com suporte a InfiniBand,
  • GPU : para trabalhos de GPU MPI e não-MPI

Você pode definir a imagem e o número máximo de nós a serem provisionados dinamicamente pelo CycleCloud para cada partição. Apenas a partição HTC permitirá o uso de instâncias Spot, pois geralmente não é uma prática recomendada usar instâncias Spot para trabalhos de HPC e GPU. No entanto, essas configurações podem ser substituídas após a implantação na interface do usuário do CycleCloud.

Captura de ecrã das opções de Definições de Partição

Etiquetas

Defina as tags relevantes para os recursos necessários. Node Array tags serão aplicadas a máquinas virtuais provisionadas dinamicamente pelo CycleCloud.

Captura de ecrã do de opções de Etiquetas

Revisão+Criar

Reveja as suas opções. Esta etapa também processará algumas validações. Captura de ecrã do de avaliação

Quando aprovado, clique no botão Criar para inicializar a implantação Captura de tela da Implantação em andamento

Siga o status e as etapas de implantação.

Verifique sua implantação

Conecte-se ao ccw-cyclecloud-vm usando Bastion com o nome de usuário e as chaves SSH especificados durante a implantação.

Captura de ecrã do menu Ligar com Bastião Captura de ecrã das opções de ligação Ligar com Bastion

Quando estiver conectado, verifique os logs de inicialização na nuvem para verificar se tudo está correto.

$tail -f -n 25 /var/log/cloud-init-output.log
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Starting cluster ccws....
----------------------------
ccws : allocation -> started
----------------------------
Resource group: 
Cluster nodes:
    scheduler: Off -- --  
Total nodes: 1
CC start_cluster successful
/
exiting after install
Cloud-init v. 23.4-7.el8_10.alma.1 running 'modules:final' at Wed, 12 Jun 2024 10:15:53 +0000. Up 11.84 seconds.
Cloud-init v. 23.4-7.el8_10.alma.1 finished at Wed, 12 Jun 2024 10:28:15 +0000. Datasource DataSourceAzure [seed=/dev/sr0].  Up 754.29 seconds

Em seguida, estabeleça a conectividade entre sua máquina cliente e a VM do CycleCloud. Isso pode ser da sua TI corporativa, uma VPN, um túnel Bastion, um IP público anexado, se sua empresa permitir. Conecte-se à interface da Web navegando até https://<cycleccloud_ip>e autentique-se com o nome de usuário e a senha fornecidos durante a implantação. Confirme se o Agendador e o nó de Login estão em execução.

Conectar-se ao nó de login

Ao usar o Bastion, use um dos scripts do utilitário util/ssh_thru_bastion.sh ou util/tunnel_thru_bastion.sh para se conectar, desde aqui. Se não estiver usando um Bastion, você mesmo tem que estabelecer a conectividade direta.