Partager via


Qu’est-ce qu’Azure CycleCloud Workspace pour Slurm ?

Slurm est l’un des gestionnaires de charges de travail open source les plus populaires et largement utilisés pour l’IA/HPC et le cloud computing. Slurm permet aux utilisateurs d’exécuter des applications parallèles et distribuées à grande échelle sur un ensemble de nœuds de calcul et fournit des fonctionnalités telles que la planification des travaux, la gestion des ressources, la tolérance de panne et la gestion de l’alimentation. Slurm est utilisé par de nombreux supercomputers, instituts de recherche, universités et entreprises du monde.

Toutefois, la configuration et la gestion des clusters Slurm sur le cloud peuvent être difficiles et fastidieuses, en particulier pour les utilisateurs qui ne connaissent pas l’environnement cloud ou la configuration Slurm. Les utilisateurs doivent gérer des tâches telles que l’approvisionnement et la mise à l’échelle de nœuds de calcul, l’installation et la mise à jour de logiciels Slurm, la configuration du réseau et du stockage, la surveillance de l’intégrité et des performances du cluster et la résolution des problèmes. Ces tâches peuvent distraire les utilisateurs de leurs principales recherches ou objectifs métier et réduire la productivité et l’efficacité de leurs charges de travail IA/HPC.

L’espace de travail Azure CycleCloud pour Slurm est un modèle de solution de la Place de marché Azure qui permet aux utilisateurs de créer, configurer et déployer facilement des clusters Slurm prédéfinis avec CycleCloud sur Azure, sans nécessiter de connaissances préalables sur Azure ou Slurm. Les clusters Slurm sont préconfigurés avec PMix v4, Pyxis et enroot pour prendre en charge les travaux Slurm AI/HPC conteneurisés. Les utilisateurs peuvent accéder au nœud de connexion provisionné à l’aide de SSH ou de Visual Studio Code pour effectuer des tâches courantes telles que l’envoi et la gestion des travaux Slurm.

Même si Azure CycleCloud vous permet déjà d’effectuer certaines de ces opérations, il ne déploie pas l’infrastructure IA/HPC pour vous. Les utilisateurs doivent gérer des tâches telles que l’installation et la configuration de CycleCloud, la configuration du réseau et du stockage, ainsi que la création et la configuration du cluster Slurm. Azure CycleCloud Workspace pour Slurm exécute ces tâches pour vous dans un modèle de solution de la Place de marché qui peut être déployé directement à partir du portail Azure ou via Azure CLI. Vous serez prêt en quelques minutes et non en jours ou semaines.

Quels sont les avantages d’Azure CycleCloud Workspace pour Slurm ?

Azure CycleCloud est une excellente solution lorsque vous souhaitez créer un environnement IA/HPC dans Azure, soit pour lever et déplacer une partie de votre charge de travail IA/HPC locale, soit pour en créer un nouveau. Toutefois, la création d’un environnement IA/HPC complet de bout en bout n’est pas une tâche facile et vous devrez décider de la façon dont vous devrez concevoir votre réseau, le composant de stockage à utiliser comme système de fichiers partagé, le type de machine virtuelle pour l’exécution de votre charge de travail et de nombreuses petites choses qui peuvent rendre votre projet complexe à fournir.

Azure CycleCloud Workspace pour Slurm offre plusieurs avantages aux utilisateurs qui souhaitent exécuter des charges de travail Slurm sur Azure, comme :

  • création de cluster facile et rapide: les utilisateurs peuvent créer des clusters Slurm sur Azure en quelques minutes, en suivant quelques étapes simples de l’interface utilisateur utilisateur. Cela doit être comparé aux jours ou semaines de travail dans le passé sans espace de travail Azure CycleCloud pour Slurm. Les utilisateurs peuvent choisir parmi diverses tailles et types de machines virtuelles Azure et personnaliser les paramètres de cluster tels que le nombre de nœuds, la configuration réseau, les options de stockage d’Azure NetApp Files vers Azure Managed Lustre Filesystem et les paramètres Slurm.

  • gestion flexible et dynamique des clusters: les clusters Slurm seront mis à l’échelle par Azure CycleCloud. Les utilisateurs peuvent également surveiller l’état, les performances et l’utilisation du cluster, ainsi que consulter les journaux et les métriques du cluster dans l’interface utilisateur graphique. Les utilisateurs peuvent également supprimer leurs clusters Slurm lorsqu’ils ne sont plus nécessaires et ne paient que les ressources qu’ils utilisent.

Comment créer un espace de travail Azure CycleCloud pour Slurm ?

L’espace de travail Azure CycleCloud pour Slurm peut être déployé à partir de la Place de marché Azure ou à l’aide d’Azure CLI. Pour déployer à partir de la Place de marché, commencez par rechercher Slurm, puis cliquez sur le bouton Créer. Pour déployer à l’aide d’Azure CLI, vous devez d’abord créer un fichier de paramètres d’entrée, puis déployer à l’aide de la commande az deployment sub create. Vous trouverez des instructions détaillées ici Comment déployer un environnement d’espace de travail Slurm CycleCloud à l’aide de l’interface CLI

Quel n’est pas l’espace de travail Azure CycleCloud pour Slurm ?

L’espace de travail Azure CycleCloud pour Slurm n’est pas un service PaaS : toute l’infrastructure sera déployée dans votre locataire, ce qui vous permet de déployer tout (déploiement greenfield) ou de spécifier des ressources existantes à réutiliser (déploiement brownfield), telles que le groupe de ressources cible, le réseau virtuel, Azure NetApp Files, etc.

À quoi ressemble un espace de travail Azure CycleCloud pour l’environnement déployé par Slurm

Vue d’ensemble de l’architecture

Voici l’architecture classique de ce qui sera déployé par l’espace de travail Azure CycleCloud pour Slurm. Il y aura des ressources obligatoires comme une machine virtuelle pour l’exécution de CycleCloud, un système de fichiers partagé pour les répertoires de base des utilisateurs, un compte de stockage pour le stockage des projets CycleCloud.

Le réseau virtuel peut être déployé par l’espace de travail Azure CycleCloud pour Slurm ou un réseau existant dans lequel les ressources seront créées. Si vous le souhaitez, un système de fichiers Azure Managed Lustre sera créé dans son propre sous-réseau.

Si les règles de sécurité de votre entreprise n’autorisent pas l’adresse IP publique (et beaucoup le font), vous pourrez créer un peering de réseaux virtuels à un réseau virtuel existant dans un modèle hub-and-spoke habituel. Le hub contiendra ensuite tous les services de connectivité, tels qu’une passerelle de réseau virtuel ou azure Bastion.

Enfin, dans une adresse IP non publique, aucun environnement VPN, un Bastion sera nécessaire et fournira toute la connectivité sécurisée pour se connecter au portail web CycleCloud et SSH dans les nœuds de connexion.

Étapes suivantes