O que é o Azure CycleCloud Workspace for Slurm?
O Slurm é um dos gerenciadores de carga de trabalho de código aberto mais populares e amplamente utilizados para IA/HPC e computação em nuvem. O Slurm permite que os usuários executem aplicativos paralelos e distribuídos em grande escala em um conjunto de nós de computação e fornece recursos como agendamento de tarefas, gerenciamento de recursos, tolerância a falhas e gerenciamento de energia. O Slurm é usado por muitos dos melhores supercomputadores, institutos de pesquisa, universidades e empresas do mundo.
No entanto, configurar e gerenciar clusters Slurm na nuvem pode ser desafiador e demorado, especialmente para usuários que não estão familiarizados com o ambiente de nuvem ou a configuração do Slurm. Os usuários devem lidar com tarefas como provisionamento e dimensionamento de nós de computação, instalação e atualização do software Slurm, configuração de rede e armazenamento, monitoramento da integridade e do desempenho do cluster e solução de problemas. Essas tarefas podem distrair os usuários de seus principais objetivos de pesquisa ou de negócios e reduzir a produtividade e a eficiência de suas cargas de trabalho de IA/HPC.
O Azure CycleCloud Workspace for Slurm é um modelo de solução do Azure Marketplace que permite aos usuários criar, configurar e implantar facilmente clusters Slurm predefinidos com o CycleCloud no Azure, sem exigir nenhum conhecimento prévio do Azure ou do Slurm. Os clusters Slurm serão pré-configurados com PMix v4, Pyxis, e enroot para suportar trabalhos Slurm de IA/HPC em contêineres. Os usuários podem acessar o nó de logon provisionado usando SSH ou Visual Studio Code para executar tarefas comuns, como enviar e gerenciar trabalhos Slurm.
Embora o Azure CycleCloud já permita que você faça alguns deles, ele não implanta a infraestrutura de IA/HPC para você. Os usuários devem lidar com tarefas como instalar e configurar o CycleCloud, configurar rede e armazenamento e criar e configurar o cluster Slurm. O Azure CycleCloud Workspace for Slurm executa essas tarefas para você em um Modelo de Solução do Marketplace que pode ser implantado diretamente do Portal do Azure ou por meio da CLI do Azure. Você estará pronto em minutos e não em dias ou semanas.
Quais são os benefícios do Azure CycleCloud Workspace for Slurm?
O Azure CycleCloud é uma ótima solução quando você deseja criar um ambiente de IA/HPC no Azure, seja para elevar e deslocar parte de sua carga de trabalho de IA/HPC local ou para criar uma nova. No entanto, criar um ambiente completo de IA/HPC de ponta a ponta não é uma tarefa fácil e você terá que decidir como precisaria projetar sua rede, qual componente de armazenamento usar como um sistema de arquivos compartilhado, qual tipo de VM para executar sua carga de trabalho e muitas pequenas coisas que podem tornar seu projeto complexo de entregar.
O Azure CycleCloud Workspace for Slurm oferece vários benefícios para usuários que desejam executar cargas de trabalho do Slurm no Azure, como:
Criação fácil e rápida de clusters: os usuários podem criar clusters Slurm no Azure em minutos, seguindo algumas etapas simples na GUI. Isso deve ser comparado a dias ou semanas de trabalho no passado sem o Azure CycleCloud Workspace for Slurm. Os usuários podem escolher entre uma variedade de tamanhos e tipos de máquina virtual (VM) do Azure e personalizar as configurações de cluster, como o número de nós, a configuração de rede, as opções de armazenamento dos Arquivos NetApp do Azure para o Sistema de Arquivos Azure Managed Lustre e os parâmetros do Slurm.
Gerenciamento de cluster flexível e dinâmico: os clusters Slurm serão dimensionados para cima ou para baixo pelo Azure CycleCloud. Os usuários também podem monitorar o status, o desempenho e a utilização do cluster, bem como exibir os logs e as métricas do cluster na GUI. Os usuários também podem excluir seus clusters Slurm quando eles não forem mais necessários e pagar apenas pelos recursos que usam.
Como faço para criar um espaço de trabalho do Azure CycleCloud para Slurm?
O Azure CycleCloud Workspace for Slurm pode ser implantado a partir do Azure Marketplace ou usando a CLI do Azure. Para implantar a partir do Marketplace, primeiro pesquise por Slurm e clique no botão Criar. Para implantar usando a CLI do Azure, você terá que criar um arquivo de parâmetro de entrada primeiro e, em seguida, implantar usando o comando az deployment sub create
. Instruções detalhadas podem ser encontradas aqui Como implantar um ambiente de espaço de trabalho CycleCloud Slurm usando a CLI
O que o Azure CycleCloud Workspace for Slurm não é?
O Azure CycleCloud Workspace for Slurm não é um serviço PaaS: toda a infraestrutura será implantada em seu locatário, permitindo que você implante tudo (implantação greenfield) ou especifique recursos existentes a serem reutilizados (implantação brownfield), como o Grupo de Recursos de destino, a Rede Virtual, os Arquivos NetApp do Azure e muito mais.
Qual é a aparência de um ambiente de trabalho implantado do Azure CycleCloud para Slurm
Visão geral
Aqui está a arquitetura típica do que será implantado pelo Azure CycleCloud Workspace for Slurm. Haverá recursos obrigatórios como uma máquina virtual para executar o CycleCloud, um sistema de arquivos compartilhado para os diretórios iniciais dos usuários, uma conta de armazenamento para o armazenamento de projetos do CycleCloud.
A Rede Virtual pode ser implantada pelo Azure CycleCloud Workspace for Slurm ou por um existente no qual os recursos serão criados. Opcionalmente, um sistema de arquivos Azure Managed Lustre será criado em sua própria sub-rede.
Se as regras de segurança da sua empresa não permitirem IP público (e muitas permitem), então você poderá criar um emparelhamento vnet para uma Rede Virtual existente em um padrão usual de hub e spoke. O hub conterá todos os serviços de conectividade, como um Gateway de Rede Virtual ou um Bastião do Azure.
Finalmente, em um IP sem público, sem ambiente VPN, um Bastion será necessário e fornecerá toda a conectividade segura para se conectar ao portal da web CycleCloud e SSH nos nós de login.