Freigeben über


Einrichten von InfiniBand

Dieser Artikel bezieht sich auf CentOS, eine Linux-Distribution, die sich dem End-of-Life-Status (EOL) nähert. Sie sollten Ihre Nutzung entsprechend planen. Weitere Informationen finden Sie im CentOS End-of-Life-Leitfaden.

Gilt für: ✔️ Linux-VMs ✔️ Windows-VMs ✔️ Flexible Skalierungsgruppen ✔️ Einheitliche Skalierungsgruppen

Tipp

Probieren Sie das Auswahltool für virtuelle Computer aus, um andere Größen zu ermitteln, die für Ihre Workload optimal sind.

Dieser Artikel enthält einige Informationen zu RDMA-fähigen Instanzen, die über ein InfiniBand (IB)-Netzwerk verwendet werden sollen.

RDMA-fähige Instanzen

Die meisten HPC-VM-Größen verfügen über eine Netzwerkschnittstelle für RDMA-Verbindungen (Remote Direct Memory Access). Ausgewählte Größen der N-Serie mit dem Zusatz „r“ sind ebenfalls RDMA-fähig. Diese Schnittstelle steht zusätzlich zur standardmäßigen Azure-Ethernet-Netzwerkschnittstelle in anderen VM-Größen zur Verfügung.

Mithilfe dieser zweiten Schnittstelle können die RDMA-fähigen Instanzen über ein InfiniBand-Netzwerk (IB) kommunizieren, das mit HDR-Raten für virtuelle Computer der Größen HBv4, HBv3, HBv2, EDR-Raten für virtuelle Computer der Größen HB, HC, HX, NDv2 sowie mit FDR-Raten für virtuelle Computer der Größen H16r und H16mr sowie andere für RDMA-fähige virtuelle Computer der N-Serie betrieben wird. Durch diese RDMA-Funktionen können Skalierbarkeit und Leistung von MPI-basierten Anwendungen (Message Passing Interface) gesteigert werden.

Hinweis

SR-IOV-Unterstützung: In Azure HPC gibt es derzeit zwei Klassen von virtuellen Computern, je nachdem, ob sie SR-IOV-fähig für InfiniBand sind. Derzeit sind fast alle für RDMA oder InfiniBand geeigneten VMs der neueren Generation in Azure SR-IOV-fähig – mit Ausnahme von H16r, H16mr und NC24r. RDMA kann nur über das IB-Netzwerk (InfiniBand) verwendet werden und wird für alle RDMA-fähigen virtuellen Computer unterstützt. „IP over IB“ wird nur auf den SR-IOV-fähigen virtuellen Computern unterstützt. RDMA kann nicht über das Ethernet-Netzwerk verwendet werden.

  • Betriebssystem: Häufig werden Linux-Distributionen wie CentOS, RHEL, AlmaLinux, Ubuntu und SUSE verwendet. Windows Server 2016 oder höher wird auf allen virtuellen Computern der HPC-Serie unterstützt. Beachten Sie, dass Windows Server 2012 R2 ab HBv2 als VM-Größe mit mehr als 64 (virtuellen oder physischen) Kernen nicht unterstützt wird. Unter VM-Images finden Sie eine Liste der unterstützten Linux-VM-Images in Azure Marketplace und Informationen dazu, wie diese entsprechend konfiguriert werden. Auf den jeweiligen Seiten zur VM-Größe ist auch die Unterstützung des Softwarestapels aufgeführt.

  • InfiniBand und Treiber: Auf InfiniBand-fähigen virtuellen Computern sind die entsprechenden Treiber erforderlich, um RDMA zu aktivieren. Weitere Informationen zu VM-Erweiterungen oder zur manuellen Installation von InfiniBand-Treibern finden Sie unter Aktivieren von InfiniBand.

  • MPI: Die SR-IOV-fähigen VM-Größen in Azure gestatten die Verwendung nahezu jeder Variante von MPI mit Mellanox OFED. Details zum Einrichten von MPI (Message Passing Interface) auf HPC-VMs in Azure finden Sie unter Einrichten von Message Passing Interface für HPC.

    Hinweis

    RDMA-Netzwerkadressbereich: Das RDMA-Netzwerk in Azure reserviert sich den Adressbereich 172.16.0.0/16. Wenn Sie MPI-Anwendungen auf Instanzen ausführen möchten, die in einem virtuellen Azure-Netzwerk bereitgestellt wurden, vergewissern Sie sich, dass der Adressraum des virtuellen Netzwerks sich nicht mit dem RDMA-Netzwerk überschneidet.

Konfigurationsoptionen für Cluster

Azure bietet mehrere Optionen zum Erstellen von Clustern von HPC-VMs, die über das RDMA-Netzwerk kommunizieren können, darunter Folgende:

  • Virtuelle Computer: Stellen Sie die RDMA-fähigen HPC-VMs in derselben Skalierungsgruppe oder Verfügbarkeitsgruppe bereit (wenn Sie das Azure Resource Manager-Bereitstellungsmodell verwenden). Stellen Sie die VMs bei Verwendung des klassischen Bereitstellungsmodells im gleichen Clouddienst bereit.

  • VM-Skalierungsgruppen: Stellen Sie bei Verwendung einer VM-Skalierungsgruppe sicher, dass Sie die Bereitstellung auf eine einzelne Platzierungsgruppe für InfiniBand-Kommunikation in der Skalierungsgruppe beschränken. Legen Sie z. B. in einer Resource Manager-Vorlage die Eigenschaft singlePlacementGroup auf true fest. Beachten Sie, dass die maximale Skalierungsgruppengröße, die mit singlePlacementGroup=true hochgefahren werden kann, standardmäßig auf 100 VMs begrenzt ist. Wenn Ihre Anforderung hinsichtlich der HPC-Aufträge mehr als 100 virtuelle Computer in einem einzelnen Mandanten umfasst, können Sie eine Erhöhung anfordern und eine kostenlose Anfrage für den Onlinekundensupport öffnen. Der Grenzwert für die Anzahl der virtuellen Computer in einer einzelnen Skalierungsgruppe kann auf 300 erhöht werden. Beachten Sie, dass bei der Bereitstellung von VMs mit Verfügbarkeitsgruppen der Höchstwert bei 200 VMs pro Verfügbarkeitsgruppe liegt.

    Hinweis

    MPI zwischen virtuellen Computern: Wenn RDMA (z. B. mithilfe der MPI-Kommunikation) zwischen virtuellen Computern (VMs) erforderlich ist, sollten Sie sicherstellen, dass sich die VMs in derselben VM-Skalierungsgruppe oder Verfügbarkeitsgruppe befinden.

  • Azure CycleCloud: Erstellen Sie in Azure CycleCloud einen HPC-Cluster zum Ausführen von MPI-Aufträgen.

  • Azure Batch: Erstellen Sie einen Azure Batch-Pool, um MPI-Workloads auszuführen. Informationen zur Verwendung rechenintensiver Instanzen zum Ausführen von MPI-Anwendungen mit Azure Batch finden Sie unter Verwendung von Tasks mit mehreren Instanzen zum Ausführen von MPI-Anwendungen (Message Passing Interface) in Azure Batch.

  • Microsoft HPC Pack - HPC Pack enthält eine Laufzeitumgebung für MS-MPI, die das Azure-RDMA-Netzwerk bei der Bereitstellung auf RDMA-fähigen Linux-VMs verwendet. Beispielbereitstellungen finden Sie unter Einrichten eines Linux-RDMA-Clusters mit HPC Pack zum Ausführen von MPI-Anwendungen.

Überlegungen zur Bereitstellung

  • Azure-Abonnement: Um eine größere Anzahl von rechenintensiven Instanzen bereitzustellen, sollten Sie ein Abonnement mit nutzungsbasierter Bezahlung oder andere Kaufoptionen in Erwägung ziehen. Bei Verwendung eines kostenlosen Azure-Kontoskönnen Sie nur eine begrenzte Anzahl von Azure-Compute-Kernen nutzen.

  • Preise und Verfügbarkeit: Informationen nach Azure-Regionen finden Sie unter VM-Preise und Verfügbarkeit.

  • Kontingent Speicherkerne: Es kann sein, dass Sie das Kontingent für die Speicherkerne in Ihrem Azure-Abonnement anpassen müssen, indem Sie den Standardwert erhöhen. Möglicherweise ist bei Ihrem Abonnement auch die Anzahl von Kernen beschränkt, die in bestimmten VM-Größenkategorien bereitgestellt werden können. In diesem Fall können Sie kostenlos eine Anfrage an den Onlinekundensupport richten und eine Erhöhung des Kontingents anfordern. (Standardgrenzwerte variieren unter Umständen je nach Abonnementkategorie.)

    Hinweis

    Wenn Sie einen umfangreichen Kapazitätsbedarf haben, wenden Sie sich an den Azure-Support. Azure-Kontingente sind Angebotsbeschränkungen, keine Kapazitätsgarantien. Unabhängig von Ihrem Kontingent werden nur die tatsächlich verwendeten Kerne in Rechnung gestellt.

  • Virtuelles Netzwerk: Ein virtuelles Azure-Netzwerk ist nicht erforderlich, um die rechenintensiven Instanzen zu verwenden. Für viele Bereitstellungen benötigen Sie jedoch mindestens ein cloudbasiertes virtuelles Azure-Netzwerk oder auch eine Site-to-Site-Verbindung für den Zugriff auf lokale Ressourcen. Erstellen Sie ggf. ein neues virtuelles Netzwerk zum Bereitstellen der Instanzen. Das Hinzufügen rechenintensiver virtueller Computer zu einem virtuellen Netzwerk in einer Affinitätsgruppe wird nicht unterstützt.

  • Größenanpassung: Aufgrund der speziellen Hardware können Sie die Größe rechenintensiver Instanzen nur innerhalb der gleichen Größenfamilie (H-Serie oder N-Serie) anpassen. So können Sie beispielsweise die Größe eines virtuellen Computers der H-Serie nur auf eine andere Größe der H-Serie festlegen. Für bestimmte virtuelle Computer müssen möglicherweise zusätzliche Überlegungen zur Unterstützung von InfiniBand-Treibern und NVMe-Datenträgern in Betracht gezogen werden.

Nächste Schritte