共用方式為


設定 InfiniBand

本文參考 CentOS,即接近生命週期結束 (EOL) 狀態的 Linux 發行版本。 請據以考慮您的使用和規劃。 如需詳細資訊,請參閱 CentOS 生命週期結束指導

適用於: ✔️ Linux VM ✔️ Windows VM ✔️ 彈性擴展集 ✔️ 統一擴展集

提示

請嘗試使用虛擬機器選取器工具,尋找最適合您工作負載的其他大小。

本文共用一些 RDMA 功能實例的相關信息,以透過 InfiniBand (IB) 網路使用。 InfiniBand 網路架構具有完整的脂肪樹狀結構設計(也就是提供高頻寬和低延遲的網路拓撲),可確保非封鎖、雙節對稱性。 此組態會在相同虛擬機擴展集 (VMSS) 內的任何兩部虛擬機 (VM) 之間提供相等的頻寬。

支援 RDMA 的執行個體

大部分 HPC VM 大小都提供網路介面,用於遠端直接記憶體存取 (RDMA) 連線。 所選取已加註 'r' 的 N 系列大小也可支援 RDMA。 這是可供其他 VM 大小使用的標準 Azure 乙太網路網路介面的額外界面。

此次要介面可讓支援 RDMA 的實例透過 InfiniBand 網路進行通訊,以 HBv4、HBv3、HBv2、HBv2、HB、HC、HX、NDv2 和 FDR 速率的 H16r、H16mr 和其他支援 RDMA 的 N 系列虛擬機的 HDR 速率運作。 這些 RDMA 功能可以提高訊息傳遞介面 (MPI) 型應用程式的延展性和效能。

注意

SR-IOV 支援:在 Azure HPC 中,目前有兩個類別的 VM,取決於是否已針對 InfiniBand 啟用 SR-IOV。 目前,除了 H16r、H16mr 和 NC24r 以外,在 Azure 上幾乎所有較新世代、支援 RDMA 或已啟用 InfiniBand 的 VM 都已啟用 SR-IOV。 RDMA 只會透過 InfiniBand 網路啟用,而且支援所有支援 RDMA 的 VM。 只有已啟用 SR-IOV 的 VM 才支援透過 IB 的 IP。 未透過乙太網路啟用 RDMA。

  • 操作系統 - 通常使用 CentOS、RHEL、AlmaLinux、Ubuntu、SUSE 等 Linux 散發套件。 所有 HPC 系列 VM 都支援 Windows Server 2016 和更新版本。 請注意,HBv2 以後不支援 Windows Server 2012 R2,因為 VM 大小超過 64 個 (虛擬或實體) 核心。 如需 Azure Marketplace 上支援的 Linux VM 映射清單,以及如何適當設定 VM 映射,請參閱 VM 映像 。 個別的 VM 大小頁面也會列出軟體堆疊支援。

  • InfiniBand 驅動程式和 - 在已啟用 InfiniBand 的 VM 上,需要適當的驅動程式才能啟用 RDMA。 請參閱 啟用 InfiniBand 以瞭解 VM 擴充功能或手動安裝 InfiniBand 驅動程式。

  • MPI - 在 Azure 上啟用 SR-IOV 的 VM 大小,幾乎可搭配任何類型的 MPI 使用 Mellanox OFED。 如需在 Azure 上的 HPC VM 上設定 MPI 的詳細資訊,請參閱設定 HPC 的 MPI

    注意

    RDMA 網路位址空間:Azure 中的 RDMA 網路會保留位址空間 172.16.0.0/16。 若要在 Azure 虛擬網路中已部署的執行個體上執行 MPI 應用程式,請確定虛擬網路位址空間不會與 RDMA 網路重疊。

叢集組態選項

Azure 提供數個選項來建立 HPC VM 的叢集,而這些 VM 可以使用 RDMA 網路進行通訊,包括:

  • 虛擬機器 - 在相同的擴展集或可用性設定組中部署支援 RDMA 的 HPC VM (當您使用 Azure Resource Manager 部署模型時)。 如果您使用傳統部署模型,請將 VM 部署在相同的雲端服務中。

  • 虛擬機器擴展集 - 在虛擬機器擴展集中,確定您將部署限制為擴展集內 InfiniBand 通訊的單一放置群組。 例如,在 Resource Manager 範本中,將 singlePlacementGroup 屬性設定為 true

請注意,可以啟動 singlePlacementGroup=true 的最大擴展集大小預設為 100 部 VM。 如果您的 HPC 作業規模需求高於單一租用戶中 100 部 VM,您可以要求增加,免費開啟線上客戶支援要求。 單一擴展集中 VM 數目的限制可以增加到 300。 請注意,使用可用性設定組部署 VM 時,上限是每個可用性設定組 200 部 VM。

此外,VMSS 可作為相同叢集內工作負載之間的隔離界限,確保不同 VMSS 中的實例彼此保持隔離,以確保安全性。

注意

虛擬機之間的 MPI:如果虛擬機之間需要 RDMA(例如使用 MPI 通訊),請確定 VM 位於相同的虛擬機擴展集或可用性設定組中。

部署考量

  • Azure 訂用帳戶 – 若要部署的不只是少數的計算密集執行個體,請考慮隨用隨付訂用帳戶或其他購買選項。 如果您使用 Azure 免費帳戶,您只能使用有限數目的 Azure 計算核心。

  • 定價和可用性 - 依據 Azure 區域檢查 VM 定價可用性

  • 核心配額 – 您可能需要從預設值增加 Azure 訂用帳戶的核心配額。 您的訂用帳戶可能也會限制您可以在特定 VM 大小系列 (包括 H 系列) 中部署的核心數目。 若要要求增加配額,可免費開啟線上客戶支援要求。 (預設限制會視您的訂用帳戶類別而有所不同。)

    注意

    如果您有大規模的容量需求,請連絡 Azure 支援。 Azure 配額為信用額度,而不是容量保證。 無論您的配額有多少,您只需針對您使用的核心付費。

  • 虛擬網路 – 使用計算密集型執行個體時,並不需要 Azure 虛擬網路 。 不過,您可能需要至少一個以雲端為基礎的 Azure 虛擬網路來處理許多部署,或者如果您需要存取內部部署資源,則需要站對站連線。 如有需要,請建立新的虛擬網路來部署執行個體。 不支援將計算密集型 VM 新增至同質群組中的虛擬網路。

  • 調整大小 - 因為其特殊硬體,所以您只能夠在相同大小系列內重新調整計算密集型執行個體的大小 (H 系列或 N 系列)。 例如,您只能將 H 系列 VM 的大小,從某一個 H 系列大小重新調整為另一個大小。 某些 VM 可能需要考慮 InfiniBand 驅動程式支援和 NVMe 磁碟的其他考量。

下一步