Schnellstart : Bereitstellen des Azure CycleCloud-Arbeitsbereichs für Slurm mithilfe des Marketplace
Azure CycleCloud Workspace für Slurm ist eine kostenlose Marketplace-Anwendung, die eine einfache, sichere und skalierbare Möglichkeit zum Verwalten von Compute- und Speicherressourcen für HPC- und KI-Workloads bietet. In dieser Schnellstartanleitung installieren Sie CycleCloud Workspace für Slurm mithilfe der Marketplace-Anwendung.
Voraussetzungen
Für diese Schnellstartanleitung benötigen Sie Folgendes:
- Ein Azure-Konto mit einem aktiven Abonnement
- Der Mitwirkende und Benutzerzugriffsadministrator Rollen auf Abonnementebene
Wie kann ich bereitstellen?
- Melden Sie sich beim Azure-Portalan.
- Klicken Sie auf die option oben links
+ Create a Resource
- Geben Sie im Feld
Search services and marketplace
Slurm- ein, und wählen Sie dann Azure CycleCloud-Arbeitsbereich für Slurmaus. - Wählen Sie auf der Seite Azure CycleCloud Workspace for SlurmCreateaus.
Grundlagen
- Geben Sie auf der Seite Neuen Azure CycleCloud Workspace für Slurm-Konto die folgenden Details ein, oder wählen Sie sie aus.
- Abonnement-: Wählen Sie das Abonnement aus, das verwendet werden soll, wenn es noch nicht ausgewählt ist.
- Region: Wählen Sie die Azure-Region aus, in der Sie Ihren CycleCloud-Arbeitsbereich für slurm-Umgebung bereitstellen möchten.
- Ressourcengruppe: Wählen Sie die Ressourcengruppe für das Azure CycleCloud-Arbeitsbereich für Slurm-Konto aus, oder erstellen Sie ein neues.
- CycleCloud VM Size: Wählen Sie eine neue VM-Größe aus, oder behalten Sie die Standardgröße bei
- Administratorbenutzer: Geben Sie einen Namen und ein Kennwort für das CycleCloud-Administratorkonto ein.
- Admin SSH Public Key: Wählen Sie den öffentlichen SSH-Schlüssel des Administratorkontos direkt oder wenn sie in einer SSH-Schlüsselressource in Azure gespeichert sind.
Dateisystem
Startverzeichnis der Benutzer – Neue Erstellen
Geben Sie an, wo sich das Heimverzeichnis der Benutzer befinden soll. Erstellen Sie eine neue Builtin NFS verwendet die Scheduler-VM als NFS-Server mit einer angefügten Datendisk.
Erstellen Sie eine neue Azure NetApp Files erstellt ein ANF-Konto, einen Pool und ein Volumen der angegebenen Kapazität und Serviceebene.
Heimverzeichnis der Benutzer – Vorhandenes Verwenden
Wenn Sie über einen VORHANDENEN NFS-Bereitstellungspunkt verfügen, wählen Sie die Option Vorhandene verwenden aus, und geben Sie die Einstellungen an, die sie bereitstellen sollen.
Zusätzliche Dateisystem-Bereitstellung – Erstellen einer neuen Datei
Wenn Sie ein zusätzliches Dateisystem für Ihre Projektdaten bereitstellen müssen, können Sie entweder eine neue datei erstellen oder eine vorhandene angeben. Sie können ein neues Azure NetApp Files-Volume oder ein Azure Managed Lustre Filesystem erstellen.
Zusätzliche Dateisystem-Bereitstellung – Vorhandenes Dateisystem verwenden
Wenn Sie über einen externen NFS-Bereitstellungspunkt oder ein Azure Managed Lustre Filesystem verfügen, können Sie die Bereitstellungsoptionen angeben.
Vernetzung
Geben Sie hier an, ob Sie ein neues virtuelles Netzwerk und Subnetze erstellen oder ein vorhandenes verwenden möchten.
Erstellen eines neuen virtuellen Netzwerks
- Wählen Sie den CIDR aus, der mit der Anzahl der Computeknoten übereinstimmt, die Sie verwenden, und geben Sie eine Basis-IP-Adresse an,
- Es ist eine bewährte Methode, eine Bastion zu erstellen, wenn Sie keine direkte Konnektivität von Ihrer Unternehmens-IT haben,
- Das Erstellen eines NAT-Gateways ist erforderlich, um ausgehende Verbindungen mit dem Internet bereitzustellen. Dies wird 2025 obligatorisch und wird bereits von einigen Unternehmen durchgesetzt,
- Peer to an existing Virtual Network if you already have a HUB to which you want to peer that can deliver services like Bastion and a VPN gateway. Achten Sie darauf, eine Basis-IP-Adresse zu wählen, die mit Ihrem peerierten VNET kompatibel ist. Überprüfen Sie die Übertragung des Gateways zulassen, wenn das peered-VNET über ein Gateway verfügt.
Vorhandenes virtuelles Netzwerk verwenden
Bevor Sie ein vorhandenes virtuelles Netzwerk verwenden, überprüfen Sie die Voraussetzungen in Plan your CycleCloud Workspace for Slurm Deployment
Slurm-Einstellungen
Geben Sie die GRÖßE und das Image des virtuellen Computers an, die für den Scheduler und die Anmeldeknoten verwendet werden sollen. Bilder sind die HPC-Images, die im Azure Marketplace mit den zugehörigen URIs bereitgestellt werden:
Bildname | URI |
---|---|
Alma Linux 8.7 | almalinux:almalinux-hpc:8_7-hpc-gen2:latest |
Ubuntu 20.04 | microsoft-dsvm:ubuntu-hpc:2004:latest |
Ubuntu 22.04 | microsoft-dsvm:ubuntu-hpc:2204:latest |
Benutzerdefiniertes Bild | Sie müssen einen Bild-URN oder eine Bild-ID angeben. |
Wenn Sie Custom Image
auswählen, müssen Sie dann einen Bild-URN für ein vorhandenes Marketplace-Image oder eine Bild-ID für ein Bild in einem Azure Compute Gallery angeben.
Sie können auch die Use image on all nodes
überprüfen, wenn der Scheduler, Anmeldeknoten und Computeknoten dasselbe Bild verwenden sollen.
Legen Sie fest, wie viele Anmeldeknoten Sie zu Beginn und die maximale Anzahl bereitstellen möchten. Zum Schluss führt das Aktivieren von Integritätsprüfungen Knotenintegritätsprüfungen für hpc und die GPU-Partitionen aus, um beim Start automatisch fehlerhafte Knoten zu entfernen.
Wenn Sie slurm Job Accounting aktivieren möchten, aktivieren Sie das Kontrollkästchen, um die Konnektivitätsoptionen anzuzeigen. Bitte beachten Sie, dass Sie über eine zuvor bereitgestellte Azure-Datenbank für mySQL flexible Serverressource verfügen müssen. Die Verbindung über die Bereitstellung eines FQDN oder einer privaten IP ist verfügbar, wenn Sie ihr eigenes virtuelles Netzwerk bereitstellen oder VNET-Peering verwenden möchten, wenn Sie ein neues virtuelles Netzwerk als Teil Ihrer Bereitstellung erstellen. Darüber hinaus ist die Verbindung über private Endpunkte verfügbar, wenn Sie ein neues virtuelles Netzwerk erstellen möchten.
Partitionseinstellungen
Azure CycleCloud Workspace für Slurm verfügt über 3 definierte Slurm-Partitionen:
- HTC : für embarassingly non-MPI Jobs,
- HPC: für eng gekoppelte MPI-Aufträge, die hauptsächlich VM-Typen mit InfiniBand-Unterstützung verwenden,
- GPU: für MPI- und NICHT-MPI-GPU-Aufträge
Sie können das Image und die maximale Anzahl von Knoten festlegen, die von CycleCloud für jede Partition dynamisch bereitgestellt werden sollen. Nur die HTC-Partition ermöglicht die Verwendung von Spot-Instanzen, da es in der Regel keine bewährte Methode ist, Spotinstanzen für HPC- und GPU-Aufträge zu verwenden. Diese Einstellungen können jedoch nach der Bereitstellung in der CycleCloud-Benutzeroberfläche außer Kraft gesetzt werden.
Schilder
Legen Sie die relevanten Tags für die erforderlichen Ressourcen fest.
Node Array
Tags werden dynamisch von CycleCloud bereitgestellten virtuellen Computern angewendet.
Überprüfen+Erstellen
Überprüfen Sie Ihre Optionen. Dieser Schritt wird auch für einige Überprüfungen verarbeitet. "Überprüfen"
Klicken Sie bei der Übergabe auf die Schaltfläche Erstellen, um die Bereitstellung zu initialisieren
Führen Sie den Bereitstellungsstatus und die Schritte aus.
Überprüfen Der Bereitstellung
Stellen Sie eine Verbindung mit dem ccw-cyclecloud-vm
mithilfe von Bastion mit dem Benutzernamen und den SSH-Schlüsseln her, die während der Bereitstellung angegeben sind.
Überprüfen Sie bei der Verbindung die Cloud-Init-Protokolle, um sicherzustellen, dass alles korrekt ist.
$tail -f -n 25 /var/log/cloud-init-output.log
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Starting cluster ccws....
----------------------------
ccws : allocation -> started
----------------------------
Resource group:
Cluster nodes:
scheduler: Off -- --
Total nodes: 1
CC start_cluster successful
/
exiting after install
Cloud-init v. 23.4-7.el8_10.alma.1 running 'modules:final' at Wed, 12 Jun 2024 10:15:53 +0000. Up 11.84 seconds.
Cloud-init v. 23.4-7.el8_10.alma.1 finished at Wed, 12 Jun 2024 10:28:15 +0000. Datasource DataSourceAzure [seed=/dev/sr0]. Up 754.29 seconds
Stellen Sie dann die Verbindung zwischen Ihrem Clientcomputer und der CycleCloud-VM her. Dies kann von Ihrer Unternehmens-IT, einem VPN, einem Bastion-Tunnelling, einer angefügten öffentlichen IP sein, wenn Ihr Unternehmen es zulässt. Stellen Sie eine Verbindung mit der Weboberfläche her, indem Sie zu https://<cycleccloud_ip>navigieren und sich mit dem Benutzernamen und kennwort authentifizieren, der während der Bereitstellung bereitgestellt wird. Vergewissern Sie sich, dass sowohl der Scheduler als auch der Anmeldeknoten ausgeführt werden.
Herstellen einer Verbindung mit dem Anmeldeknoten
Wenn Sie die Bastion verwenden, verwenden Sie eines der Hilfsskripts util/ssh_thru_bastion.sh oder util/tunnel_thru_bastion.sh, um eine Verbindung herzustellen, bereitgestellt hier. Wenn Sie keine Bastion verwenden, müssen Sie die direkte Verbindung selbst herstellen.