共用方式為


搭配叢集 VM 使用 GPU

適用於:Azure Local,版本 22H2

您可以將圖形處理單位 (GPU) 包含在叢集中,以提供 GPU 加速給叢集 VM 中執行的工作負載。 GPU 加速可透過離散裝置指派 (DDA) 提供,這可讓您將一或多個實體 GPU 奉獻給 VM,或透過 GPU 分割。 叢集 VM 可以利用 GPU 加速,以及透過故障轉移的高可用性等叢集功能。 目前不支援虛擬機 (VM) 的即時移轉,但 VM 可以自動重新啟動,並在發生失敗時放置 GPU 資源的位置。

在本文中,您將瞭解如何使用 GPU 搭配叢集 VM,以使用離散裝置指派為工作負載提供 GPU 加速。 本文會引導您準備叢集、將 GPU 指派給叢集 VM,以及使用 Windows Admin Center 和 PowerShell 故障轉移該 VM。

如需在 Azure Local 23H2 版中管理 GPU 的資訊,請參閱 為 Azure Local 準備 GPU

必要條件

開始搭配叢集 VM 使用 GPU 之前,有幾個需求和考慮事項:

  • 您需要一個執行 Azure Local 版本 22H2 的 Azure Local 叢集。
  • 您需要執行 Windows Server 2025 或更新版本的 Windows Server 故障轉移叢集。
  • 您必須在叢集中的所有伺服器上安裝相同的 GPU 製造和模型。

  • 檢閱並遵循 GPU 製造商的指示,在叢集中的每個伺服器上安裝必要的驅動程式和軟體。

  • 視硬體廠商而定,您可能也需要設定任何 GPU 授權需求。

  • 您需要已安裝 Windows Admin Center 的電腦。 此電腦可能是您的其中一個叢集節點。

  • 建立要指派 GPU 的 VM。 根據使用離散裝置指派部署圖形裝置中的指示,設定 DDA 的快取行為、停止動作和記憶體對應 I/O (MMIO) 屬性來準備該 VM。

  • 在每部伺服器上安裝安全性風險降低驅動程式、停用 GPU,以及將它們從主機卸除,以準備每部伺服器的 GPU。 若要深入瞭解此程式,請參閱 使用離散裝置指派部署圖形裝置。

  • 依照使用離散裝置指派規劃裝置中的步驟,在叢集中準備 GPU 裝置。

  • 確定您的裝置在 VM 內配置了足夠的 MMIO 空間。 如需詳細資訊,請參閱 MMIO 空間

  • 建立要指派 GPU 的 VM。 根據使用離散裝置指派部署圖形裝置中的指示,設定 DDA 的快取行為、停止動作和記憶體對應 I/O (MMIO) 屬性來準備該 VM。

  • 在每部伺服器上安裝安全性風險降低驅動程式、停用 GPU,以及將它們從主機卸除,以準備每部伺服器的 GPU。 若要深入瞭解此程式,請參閱 使用離散裝置指派部署圖形裝置。

注意

您的系統必須支援具有 GPU 支援的 Azure 本機解決方案。 若要瀏覽選項,請瀏覽 Azure 在地目錄

準備叢集

當必要條件完成時,您可以準備叢集以搭配叢集 VM 使用 GPU。

準備叢集牽涉到建立資源集區,其中包含可供指派給 VM 的 GPU。 叢集會使用此集區來判斷指派給 GPU 資源集區之任何已啟動或已移動 VM 的 VM 位置。

使用 Windows Admin Center,請遵循下列步驟來準備叢集以搭配叢集 VM 使用 GPU。

若要準備叢集,並將 VM 指派給 GPU 資源集區:

  1. 啟動 Windows Admin Center 並確保已安裝 GPU 擴充功能。

  2. 從頂端下拉功能表中選取 [叢集管理員],然後連接到您的叢集。

  3. 設定功能表中,選取擴充功能>GPU

  4. 在 [工具] 功能表上的 [延伸模組] 底下,選取 [GPU] 以開啟工具。

    Windows Admin Center 中 GPU 工具的螢幕快照。

  5. 在工具的主頁面上,選取 [GPU 集 區] 索引卷標,然後選取 [ 建立 GPU 集區]。

    Windows Admin Center 中 [建立 GPU 集區] 頁面的螢幕快照。

  6. 在 [ 新增 GPU 集區 ] 頁面上,指定下列專案,然後選取 [ 儲存]:

    1. 伺服器名稱
    2. GPU 集區 名稱
    3. 您要新增至集區的 GPU

    Windows Admin Center 中 [新增 GPU 集區] 頁面的螢幕快照,以指定伺服器、集區名稱和 GPU。

    程式完成之後,您會收到顯示新 GPU 集區和主機伺服器名稱的成功提示。

將 VM 指派給 GPU 資源集區

您現在可以將 VM 指派給 GPU 資源集區。 您可以將一或多個 VM 指派給叢集 GPU 資源集區,並從叢集 GPU 資源集區移除 VM。

請遵循下列步驟,使用 Windows Admin Center 將現有的 VM 指派給 GPU 資源集區。

注意

您也需要在 VM 內從 GPU 製造商安裝驅動程式,讓 VM 中的應用程式可以利用指派給他們的 GPU。

  1. 在 [ 將 VM 指派給 GPU 集區 ] 頁面上,指定下列專案,然後選取 [ 指派]:

    1. 伺服器名稱
    2. GPU 集區 名稱
    3. 您想要從 GPU 集區將 GPU 指派給的虛擬機

    您也可以定義記憶體對應IO(MMIO) 空間的進階設定值,以判斷單一 GPU 的資源需求。

    Windows Admin Center 中 [將 VM 指派至 GPU 集區] 頁面的螢幕快照,其中從 GPU 集區將 VM 指派給 GPU。

    程式完成之後,您會收到確認提示,其中顯示您已成功將 GPU 從 GPU 資源集區指派給 VM,其會顯示在 [指派的 VM] 底下

    成功提示的螢幕快照,其中顯示已指派給 VM 的 GPU,以及顯示在 [指派的 VM] 底下的 VM。

若要從 GPU 資源集區取消指派 VM:

  1. 在 [ GPU 集區 ] 索引標籤上,選取您要取消指派的 GPU,然後選取 [ 取消指派 VM]。

  2. 在 [ 從 GPU 集 區取消指派 VM] 頁面上的 [ 虛擬機 ] 列表框中,指定 VM 的名稱,然後選取 [ 取消指派]。

    [從 GPU 集區取消指派 VM] 頁面的螢幕快照,其中顯示要取消指派的 VM。

    程式完成之後,您會收到成功提示,指出 VM 已從 GPU 集區取消指派,且在 [指派狀態] 下,GPU 會顯示 [可用] (未指派)。

當您啟動 VM 時,叢集可確保 VM 位於具有此叢集範圍集區中可用 GPU 資源的伺服器上。 叢集也會透過 DDA 將 GPU 指派給 VM,以允許從 VM 內的工作負載存取 GPU。

使用指派的 GPU 故障轉移 VM

若要測試叢集保持 GPU 工作負載可用的能力,請在 VM 以指派的 GPU 執行所在的伺服器上執行清空作業。 若要清空伺服器,請遵循故障轉移叢集維護程式中指示。 叢集會在叢集中的另一部伺服器上重新啟動 VM,只要另一部伺服器在您建立的集區中有足夠的可用 GPU 資源。

若要測試叢集保持 GPU 工作負載可用的能力,請在 VM 以指派的 GPU 執行所在的伺服器上執行清空作業。 若要清空伺服器,請遵循故障轉移叢集維護程式中指示。 叢集會在叢集中的另一部伺服器上重新啟動 VM,只要另一部伺服器在您建立的集區中有足夠的可用 GPU 資源。

如需搭配叢集 VM 使用 GPU 的詳細資訊,請參閱:

如需搭配 VM 和 GPU 分割使用 GPU 的詳細資訊,請參閱: