Démarrage rapide - Déployer l’espace de travail Azure CycleCloud pour Slurm à l’aide de la Place de marché
Azure CycleCloud Workspace pour Slurm est une application de la Place de marché gratuite qui fournit un moyen simple, sécurisé et évolutif de gérer les ressources de calcul et de stockage pour les charges de travail HPC et AI. Dans ce guide de démarrage rapide, vous allez installer CycleCloud Workspace pour Slurm à l’aide de l’application Marketplace.
Conditions préalables
Pour ce guide de démarrage rapide, vous aurez besoin des éléments suivants :
- Un compte Azure avec un abonnement actif
- Les rôles Contributeur et Administrateur d’accès utilisateur au niveau de l’abonnement
Comment déployer ?
- Connectez-vous au portail Azure .
- Cliquez sur l’option
+ Create a Resource
supérieure gauche - Dans la zone
Search services and marketplace
, entrez Slurm, puis sélectionnez 'espace de travail Azure CycleCloud pour Slurm. - Dans la page Espace de travail Azure CycleCloud pour Slurm, sélectionnez Créer.
Capture d’écran
Notions de base
- Dans la page Nouvel espace de travail Azure CycleCloud pour le compte Slurm, entrez ou sélectionnez les détails suivants.
- abonnement: sélectionnez l’abonnement à utiliser s’il n’est pas déjà sélectionné.
- région: sélectionnez la région Azure dans laquelle vous souhaitez déployer votre environnement CycleCloud Workspace pour Slurm.
- groupe de ressources: sélectionnez le groupe de ressources pour le compte Azure CycleCloud Workspace pour Slurm, ou créez-en un.
- taille de machine virtuelle CycleCloud: choisissez une nouvelle taille de machine virtuelle ou conservez la taille par défaut.
- 'utilisateur administrateur: entrez un nom et un mot de passe pour le compte d’administrateur CycleCloud.
- clé publique SSH administrateur: sélectionnez la clé SSH publique du compte d’administrateur directement ou si elle est stockée dans une ressource de clé SSH dans Azure.
Capture d’écran
Système de fichiers
Répertoire d’accueil des utilisateurs - Créer
Spécifiez l’emplacement du répertoire de base des utilisateurs. Créez une nouvelle NFS intégrée utilisera la machine virtuelle du planificateur en tant que serveur NFS avec un datadisk attaché.
Créez une nouvelle Azure NetApp Files créez un compte, un pool et un volume anf de la capacité et du niveau de service spécifiés.
Répertoire de base des utilisateurs - Utiliser existant
Si vous disposez d’un point de montage NFS existant, sélectionnez l’option Utiliser l' existante et spécifiez les paramètres à monter.
Montage supplémentaire du système de fichiers - Créer
Si vous devez monter un système de fichiers supplémentaire pour vos données de projet, vous pouvez en créer un ou en spécifier un existant. Vous pouvez créer un volume Azure NetApp Files ou un système de fichiers Azure Managed Lustre.
Capture d’écran Azure NetApp Files
capture d’écran Azure Managed Lustre
Montage supplémentaire du système de fichiers - Utiliser existant
Si vous disposez d’un point de montage NFS externe existant ou d’un système de fichiers Azure Managed Lustre, vous pouvez spécifier les options de montage.
capture d’écran NFS externe existant
Réseautage
Spécifiez ici si vous souhaitez créer un réseau virtuel et des sous-réseaux ou utiliser un réseau virtuel existant.
Créer un réseau virtuel
capture d’écran
- Choisissez le CIDR qui correspondra au nombre de nœuds de calcul que vous ciblez et spécifiez une adresse IP de base,
- Il est recommandé de créer un Bastion si vous n’avez pas de connectivité directe fournie par votre informatique d’entreprise,
- La création d’une passerelle NAT est nécessaire pour fournir une connectivité sortante à Internet. Cela deviendra obligatoire en 2025 et est déjà appliqué des politiques de pensée par certaines entreprises,
- Appairez à un réseau virtuel existant si vous disposez déjà d’un hub auquel vous souhaitez appairer des services tels que Bastion et une passerelle VPN. Veillez à choisir une adresse IP de base compatible avec votre réseau virtuel appairé. Vérifiez le transit de passerelle d’autorisation si le réseau virtuel appairé a une passerelle.
Utiliser un réseau virtuel existant
Avant d’utiliser un réseau virtuel existant, vérifiez les conditions préalables requises dans Planifier votre espace de travail CycleCloud pour le déploiement Slurm
Capture d’écran existante
Paramètres Slurm
Spécifiez la taille et l’image de la machine virtuelle à utiliser pour le planificateur et les nœuds de connexion. Les images HPC sont fournies dans la Place de marché Azure avec les URI associés :
Nom de l’image | URI |
---|---|
Alma Linux 8.7 | almalinux :almalinux-hpc :8_7-hpc-gen2 :latest |
Ubuntu 20.04 | microsoft-dsvm :ubuntu-hpc :2004 :latest |
Ubuntu 22.04 | microsoft-dsvm :ubuntu-hpc :2204 :latest |
Image personnalisée | Vous devrez spécifier un URN d’image ou un ID d’image |
Si vous choisissez Custom Image
vous devez ensuite spécifier un URN d’image pour une image de la Place de marché existante ou un ID d’image pour une image dans une galerie de calcul Azure.
Vous pouvez également vérifier l'Use image on all nodes
si vous souhaitez que le planificateur, les nœuds de connexion et les nœuds de calcul utilisent la même image.
Définissez le nombre de nœuds de connexion que vous souhaitez provisionner au début et le nombre maximal. Enfin, l’activation des vérifications d’intégrité exécute les vérifications d’intégrité des nœuds pour hpC et les partitions GPU pour supprimer automatiquement les nœuds défectueux au démarrage.
Capture d’écran
Si vous souhaitez activer la comptabilité des travaux Slurm, cochez la case pour afficher les options de connectivité. Notez que vous devez disposer d’une ressource de serveur flexible Azure Database pour MySQL précédemment déployée. La connexion via la fourniture d’un nom de domaine complet ou d’une adresse IP privée est disponible si vous choisissez de fournir votre propre réseau virtuel ou d’utiliser le peering de réseaux virtuels lors de la création d’un réseau virtuel dans le cadre de votre déploiement. En outre, la connexion via un point de terminaison privé est disponible si vous choisissez de créer un réseau virtuel.
capture d’écran
capture d’écran des options de paramètre Slurm pour la base de données de comptabilité des travaux avec le point de terminaison privé
Paramètres de partition
Azure CycleCloud Workspace pour Slurm est fourni avec 3 partitions Slurm définies :
- HTC : pour les emplois non-MPI de façon embarassinging,
- HPC : pour les travaux MPI étroitement couplés principalement à l’aide de types de machines virtuelles avec prise en charge d’InfiniBand,
- GPU : pour les travaux GPU MPI et non-MPI
Vous pouvez définir l’image et le nombre maximal de nœuds à provisionner dynamiquement par CycleCloud pour chaque partition. Seule la partition HTC autorise l’utilisation d’instances Spot, car il n’est généralement pas recommandé d’utiliser des instances Spot pour les travaux HPC et GPU. Toutefois, ces paramètres peuvent être substitué après le déploiement dans l’interface utilisateur CycleCloud.
Capture d’écran
Étiquettes
Définissez les balises appropriées pour les ressources nécessaires.
Node Array
balises seront appliquées aux machines virtuelles approvisionnées dynamiquement par CycleCloud.
Capture d’écran
Vérifier+Créer
Passez en revue vos options. Cette étape traitera également certaines validations. capture d’écran
Une fois passé, cliquez sur le bouton Créer pour initialiser le déploiement
Suivez l’état et les étapes du déploiement.
Vérifier votre déploiement
Connectez-vous au ccw-cyclecloud-vm
à l’aide de Bastion avec le nom d’utilisateur et les clés SSH spécifiées pendant le déploiement.
Capture d’écran
Quand vous êtes connecté, vérifiez les journaux cloud-init pour vérifier que tout est correct.
$tail -f -n 25 /var/log/cloud-init-output.log
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Starting cluster ccws....
----------------------------
ccws : allocation -> started
----------------------------
Resource group:
Cluster nodes:
scheduler: Off -- --
Total nodes: 1
CC start_cluster successful
/
exiting after install
Cloud-init v. 23.4-7.el8_10.alma.1 running 'modules:final' at Wed, 12 Jun 2024 10:15:53 +0000. Up 11.84 seconds.
Cloud-init v. 23.4-7.el8_10.alma.1 finished at Wed, 12 Jun 2024 10:28:15 +0000. Datasource DataSourceAzure [seed=/dev/sr0]. Up 754.29 seconds
Ensuite, établissez la connectivité entre votre ordinateur client et la machine virtuelle CycleCloud. Cela peut provenir de votre informatique d’entreprise, d’un VPN, d’un tunnelling Bastion, d’une adresse IP publique attachée si votre entreprise l’autorise. Connectez-vous à l’interface web en accédant à https://<cycleccloud_ip>, et authentifiez-vous avec le nom d’utilisateur et le mot de passe fournis pendant le déploiement. Vérifiez que le planificateur et le nœud de connexion sont en cours d’exécution.
Se connecter au nœud de connexion
Lorsque vous utilisez Bastion, utilisez l’un des scripts utilitaires util/ssh_thru_bastion.sh ou util/tunnel_thru_bastion.sh pour vous connecter, fourni ici. Si vous n’utilisez pas bastion, vous devez établir vous-même la connectivité directe.