Freigeben über


Schnellstart : Bereitstellen des Azure CycleCloud-Arbeitsbereichs für Slurm mithilfe des Marketplace

Azure CycleCloud Workspace für Slurm ist eine kostenlose Marketplace-Anwendung, die eine einfache, sichere und skalierbare Möglichkeit zum Verwalten von Compute- und Speicherressourcen für HPC- und KI-Workloads bietet. In dieser Schnellstartanleitung installieren Sie CycleCloud Workspace für Slurm mithilfe der Marketplace-Anwendung.

Voraussetzungen

Für diese Schnellstartanleitung benötigen Sie Folgendes:

  1. Ein Azure-Konto mit einem aktiven Abonnement
  2. Der Mitwirkende und Benutzerzugriffsadministrator Rollen auf Abonnementebene

Wie kann ich bereitstellen?

  • Melden Sie sich beim Azure-Portalan.
  • Klicken Sie auf die option oben links + Create a Resource
  • Geben Sie im Feld Search services and marketplaceSlurm- ein, und wählen Sie dann Azure CycleCloud-Arbeitsbereich für Slurmaus.
  • Wählen Sie auf der Seite Azure CycleCloud Workspace for SlurmCreateaus.

Screenshot des Azure CycleCloud-Arbeitsbereichs für slurm marketplace

Grundlagen

  • Geben Sie auf der Seite Neuen Azure CycleCloud Workspace für Slurm-Konto die folgenden Details ein, oder wählen Sie sie aus.
    • Abonnement-: Wählen Sie das Abonnement aus, das verwendet werden soll, wenn es noch nicht ausgewählt ist.
    • Region: Wählen Sie die Azure-Region aus, in der Sie Ihren CycleCloud-Arbeitsbereich für slurm-Umgebung bereitstellen möchten.
    • Ressourcengruppe: Wählen Sie die Ressourcengruppe für das Azure CycleCloud-Arbeitsbereich für Slurm-Konto aus, oder erstellen Sie ein neues.
    • CycleCloud VM Size: Wählen Sie eine neue VM-Größe aus, oder behalten Sie die Standardgröße bei
    • Administratorbenutzer: Geben Sie einen Namen und ein Kennwort für das CycleCloud-Administratorkonto ein.
    • Admin SSH Public Key: Wählen Sie den öffentlichen SSH-Schlüssel des Administratorkontos direkt oder wenn sie in einer SSH-Schlüsselressource in Azure gespeichert sind.

Screenshot des Bildschirms

Dateisystem

Startverzeichnis der Benutzer – Neue Erstellen

Geben Sie an, wo sich das Heimverzeichnis der Benutzer befinden soll. Erstellen Sie eine neue Builtin NFS verwendet die Scheduler-VM als NFS-Server mit einer angefügten Datendisk. Screenshot des Dateisystem-Mounts für /shared und /home Builtin NFS erstellen neue Optionen bildschirm

Erstellen Sie eine neue Azure NetApp Files erstellt ein ANF-Konto, einen Pool und ein Volumen der angegebenen Kapazität und Serviceebene. Screenshot der Datei-System-Bereitstellung für /shared- und /home Azure NetApp-Dateien erstellen neue Optionen bildschirm

Heimverzeichnis der Benutzer – Vorhandenes Verwenden

Wenn Sie über einen VORHANDENEN NFS-Bereitstellungspunkt verfügen, wählen Sie die Option Vorhandene verwenden aus, und geben Sie die Einstellungen an, die sie bereitstellen sollen. Screenshot des Dateisystem-Mounts für /shared und /home verwenden Sie den Bildschirm mit externen NFS-Optionen

Zusätzliche Dateisystem-Bereitstellung – Erstellen einer neuen Datei

Wenn Sie ein zusätzliches Dateisystem für Ihre Projektdaten bereitstellen müssen, können Sie entweder eine neue datei erstellen oder eine vorhandene angeben. Sie können ein neues Azure NetApp Files-Volume oder ein Azure Managed Lustre Filesystem erstellen.

Screenshot der zusätzlichen Dateisystem-Bereitstellung zum Erstellen neuer Azure NetApp-Dateien

Screenshot der zusätzlichen Dateisystem-Bereitstellung zum Erstellen neuer azure Managed Lustre

Zusätzliche Dateisystem-Bereitstellung – Vorhandenes Dateisystem verwenden

Wenn Sie über einen externen NFS-Bereitstellungspunkt oder ein Azure Managed Lustre Filesystem verfügen, können Sie die Bereitstellungsoptionen angeben.

Screenshot der zusätzlichen Dateisystem-Bereitstellung für ein vorhandenes externes NFS-

Vernetzung

Geben Sie hier an, ob Sie ein neues virtuelles Netzwerk und Subnetze erstellen oder ein vorhandenes verwenden möchten.

Erstellen eines neuen virtuellen Netzwerks

Screenshot der Netzwerkoptionen zum Erstellen eines neuen

  • Wählen Sie den CIDR aus, der mit der Anzahl der Computeknoten übereinstimmt, die Sie verwenden, und geben Sie eine Basis-IP-Adresse an,
  • Es ist eine bewährte Methode, eine Bastion zu erstellen, wenn Sie keine direkte Konnektivität von Ihrer Unternehmens-IT haben,
  • Das Erstellen eines NAT-Gateways ist erforderlich, um ausgehende Verbindungen mit dem Internet bereitzustellen. Dies wird 2025 obligatorisch und wird bereits von einigen Unternehmen durchgesetzt,
  • Peer to an existing Virtual Network if you already have a HUB to which you want to peer that can deliver services like Bastion and a VPN gateway. Achten Sie darauf, eine Basis-IP-Adresse zu wählen, die mit Ihrem peerierten VNET kompatibel ist. Überprüfen Sie die Übertragung des Gateways zulassen, wenn das peered-VNET über ein Gateway verfügt.

Vorhandenes virtuelles Netzwerk verwenden

Bevor Sie ein vorhandenes virtuelles Netzwerk verwenden, überprüfen Sie die Voraussetzungen in Plan your CycleCloud Workspace for Slurm Deployment

Screenshot der Netzwerkoptionen für die Verwendung eines vorhandenen

Slurm-Einstellungen

Geben Sie die GRÖßE und das Image des virtuellen Computers an, die für den Scheduler und die Anmeldeknoten verwendet werden sollen. Bilder sind die HPC-Images, die im Azure Marketplace mit den zugehörigen URIs bereitgestellt werden:

Bildname URI
Alma Linux 8.7 almalinux:almalinux-hpc:8_7-hpc-gen2:latest
Ubuntu 20.04 microsoft-dsvm:ubuntu-hpc:2004:latest
Ubuntu 22.04 microsoft-dsvm:ubuntu-hpc:2204:latest
Benutzerdefiniertes Bild Sie müssen einen Bild-URN oder eine Bild-ID angeben.

Wenn Sie Custom Image auswählen, müssen Sie dann einen Bild-URN für ein vorhandenes Marketplace-Image oder eine Bild-ID für ein Bild in einem Azure Compute Gallery angeben.

Sie können auch die Use image on all nodes überprüfen, wenn der Scheduler, Anmeldeknoten und Computeknoten dasselbe Bild verwenden sollen.

Legen Sie fest, wie viele Anmeldeknoten Sie zu Beginn und die maximale Anzahl bereitstellen möchten. Zum Schluss führt das Aktivieren von Integritätsprüfungen Knotenintegritätsprüfungen für hpc und die GPU-Partitionen aus, um beim Start automatisch fehlerhafte Knoten zu entfernen.

Screenshot der Slurm-Einstellungen

Wenn Sie slurm Job Accounting aktivieren möchten, aktivieren Sie das Kontrollkästchen, um die Konnektivitätsoptionen anzuzeigen. Bitte beachten Sie, dass Sie über eine zuvor bereitgestellte Azure-Datenbank für mySQL flexible Serverressource verfügen müssen. Die Verbindung über die Bereitstellung eines FQDN oder einer privaten IP ist verfügbar, wenn Sie ihr eigenes virtuelles Netzwerk bereitstellen oder VNET-Peering verwenden möchten, wenn Sie ein neues virtuelles Netzwerk als Teil Ihrer Bereitstellung erstellen. Darüber hinaus ist die Verbindung über private Endpunkte verfügbar, wenn Sie ein neues virtuelles Netzwerk erstellen möchten.

Screenshot der Optionen für die Slurm-Einstellung für die Auftragsbuchhaltungsdatenbank, direkte FQDN-

Screenshot der Optionen für die Slurm-Einstellung für die Auftragsbuchhaltungsdatenbank mit privatem Endpunkt

Partitionseinstellungen

Azure CycleCloud Workspace für Slurm verfügt über 3 definierte Slurm-Partitionen:

  • HTC : für embarassingly non-MPI Jobs,
  • HPC: für eng gekoppelte MPI-Aufträge, die hauptsächlich VM-Typen mit InfiniBand-Unterstützung verwenden,
  • GPU: für MPI- und NICHT-MPI-GPU-Aufträge

Sie können das Image und die maximale Anzahl von Knoten festlegen, die von CycleCloud für jede Partition dynamisch bereitgestellt werden sollen. Nur die HTC-Partition ermöglicht die Verwendung von Spot-Instanzen, da es in der Regel keine bewährte Methode ist, Spotinstanzen für HPC- und GPU-Aufträge zu verwenden. Diese Einstellungen können jedoch nach der Bereitstellung in der CycleCloud-Benutzeroberfläche außer Kraft gesetzt werden.

Screenshot der Optionen für Partitionseinstellungen

Schilder

Legen Sie die relevanten Tags für die erforderlichen Ressourcen fest. Node Array Tags werden dynamisch von CycleCloud bereitgestellten virtuellen Computern angewendet.

Screenshot der Kategorienoptionen

Überprüfen+Erstellen

Überprüfen Sie Ihre Optionen. Dieser Schritt wird auch für einige Überprüfungen verarbeitet. Screenshot der "Überprüfen"

Klicken Sie bei der Übergabe auf die Schaltfläche Erstellen, um die Bereitstellung zu initialisieren Screenshot der in Bearbeitung

Führen Sie den Bereitstellungsstatus und die Schritte aus.

Überprüfen Der Bereitstellung

Stellen Sie eine Verbindung mit dem ccw-cyclecloud-vm mithilfe von Bastion mit dem Benutzernamen und den SSH-Schlüsseln her, die während der Bereitstellung angegeben sind.

Screenshot des Menüs Screenshot der Optionen

Überprüfen Sie bei der Verbindung die Cloud-Init-Protokolle, um sicherzustellen, dass alles korrekt ist.

$tail -f -n 25 /var/log/cloud-init-output.log
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Starting cluster ccws....
----------------------------
ccws : allocation -> started
----------------------------
Resource group: 
Cluster nodes:
    scheduler: Off -- --  
Total nodes: 1
CC start_cluster successful
/
exiting after install
Cloud-init v. 23.4-7.el8_10.alma.1 running 'modules:final' at Wed, 12 Jun 2024 10:15:53 +0000. Up 11.84 seconds.
Cloud-init v. 23.4-7.el8_10.alma.1 finished at Wed, 12 Jun 2024 10:28:15 +0000. Datasource DataSourceAzure [seed=/dev/sr0].  Up 754.29 seconds

Stellen Sie dann die Verbindung zwischen Ihrem Clientcomputer und der CycleCloud-VM her. Dies kann von Ihrer Unternehmens-IT, einem VPN, einem Bastion-Tunnelling, einer angefügten öffentlichen IP sein, wenn Ihr Unternehmen es zulässt. Stellen Sie eine Verbindung mit der Weboberfläche her, indem Sie zu https://<cycleccloud_ip>navigieren und sich mit dem Benutzernamen und kennwort authentifizieren, der während der Bereitstellung bereitgestellt wird. Vergewissern Sie sich, dass sowohl der Scheduler als auch der Anmeldeknoten ausgeführt werden.

Herstellen einer Verbindung mit dem Anmeldeknoten

Wenn Sie die Bastion verwenden, verwenden Sie eines der Hilfsskripts util/ssh_thru_bastion.sh oder util/tunnel_thru_bastion.sh, um eine Verbindung herzustellen, bereitgestellt hier. Wenn Sie keine Bastion verwenden, müssen Sie die direkte Verbindung selbst herstellen.