共用方式為


GPU 分割

適用於:Azure 本機版本 23H2 和 22H2

GPU 分割可讓您與多部虛擬機器 (VM) 共用實體 GPU 裝置。 使用 GPU 資料分割或 GPU 虛擬化時,每個 VM 都會取得 GPU 的專用部分,而不是整個 GPU。

GPU 資料分割功能使用單一根 IO 虛擬化 (SR-IOV) 介面,為每個 VM 提供硬體支援的安全性界限與可預測的效能。 每個 VM 只能存取其專用的 GPU 資源,而安全硬體分割可防止其他 VM 未經授權存取。

Windows Server 引進了 GPU 分割即時移轉。 使用 GPU 分割即時移轉有特定需求。 除了建議的即時移轉最佳做法之外,您的叢集主機還需要具有輸入/輸出記憶體管理單元 (IOMMU) DMA 位元追蹤功能的處理器。 例如,支援 Intel VT-D 或 AMD-Vi 的處理器。 如果您使用 Windows Server 和即時移轉,而處理器沒有 IOMMU 功能,則 VM 會在有 GPU 資源可用時自動重新啟動。

GPU 資料分割是為獨立伺服器所設計的。 您可以在獨立節點之間即時移轉 VM,以因應計劃性停機。不過,如果客戶需要使用叢集功能來因應非計劃性停機,則必須改用 Windows Server 2025 Datacenter。

使用 GPU 分割的時機

某些工作負載,例如虛擬桌面基礎結構 (VDI)、人工智慧 (AI) 和 器學習 (ML) 推斷需要 GPU 加速,GPU 分割有助於降低整體基礎結構的總擁有成本。

例如:

  • VDI 應用程式:分散式邊緣客戶會在需要 GPU 加速的 VDI 環境中執行基本的生產力應用程式 (例如 Microsoft Office) 和圖形密集的視覺效果工作負載。 針對這類工作負載,您可以透過 DDA 或 GPU 分割達成必要的 GPU 加速。 透過 GPU 分割,您可以建立多個分割區,並將每個分割區指派給裝載 VDI 環境的 VM。 GPU 分割可協助您達到所需的密度,並讓支援的使用者數量呈指數成長。

  • 使用 ML 進行推斷:零售店和製造廠的客戶可以在邊緣執行推斷,這需要為其伺服器提供 GPU 支援。 在伺服器上使用 GPU,您可以執行 ML 模型以快速取得結果,然後在資料傳送到雲端之前採取行動。 可以選擇傳輸完整的資料集,以繼續重新訓練和改進您的 ML 模型。 除了將整個實體 GPU 指派給 VM 的 DDA 之外,GPU 分割可讓您在同一個 GPU 上平行執行多個推斷應用程式,但在不同的實體分割區中,從而最大限度地利用 GPU。

支援的客體作業系統

Windows Server 2025 及更新版本上的 GPU 資料分割支援這些客體作業系統:

Azure 本機上的 GPU 分割功能支援下列來賓作業系統:

  • Windows 10 或更新版本
  • Windows 10 企業版多工作階段或更新版本
  • Windows Server 2019 或更新版本
  • Linux Ubuntu 18.04 LTS、Linux Ubuntu 20.04 LTS、Linux Ubuntu 22.04 LTS

支援的 GPU

下列 GPU 支援 GPU 分割:

  • NVIDIA A2
  • NVIDIA A10
  • NVIDIA A16
  • NVIDIA A40
  • NVIDIA L2
  • NVIDIA L4
  • NVIDIA L40
  • NVIDIA L40S

注意

NVIDIA 驅動程式目前不支援使用 GPU 資料分割進行即時移轉。

我們建議您與原始設備製造商 (OEM) 合作夥伴和 GPU 獨立硬體供應商 (IHV) 合作,透過適當的設定和必要軟體來規劃、訂購和設定系統,以滿足您所需的工作負載。 但是,如果您想透過離散裝置指派 (DDA) 來使用 GPU 加速,我們可支援更多的 GPU。 請聯絡您的 OEM 合作夥伴和 IHV,以取得支援 DDA 的 GPU 清單。 如需透過 DDA 使用 GPU 加速的詳細資訊,請參閱離散裝置指派 (DDA)

為了獲得最佳效能,建議您為叢集中所有伺服器的 GPU 建立同質設定。 同質設定包含安裝相同品牌和型號的 GPU,以及在叢集中所有伺服器的 GPU 中設定相同的分割區計數。 例如,在已安裝一或多個 GPU 之兩部伺服器組成的叢集中,所有 GPU 必須具有相同的品牌、型號和大小。 每個 GPU 上的分割區計數也必須相符。

限制

使用 GPU 分割功能時,請考慮下列限制:

  • 如果您未使用同質設定,則不支援 GPU 分割。 以下是一些不受支援的設定範例:

    • 在同一叢集中混合不同廠商的 GPU。

    • 在同一叢集中使用相同廠商之不同產品系列的不同 GPU 模型。

  • 您無法將實體 GPU 指派為 離散裝置指派 (DDA) 或可分割的 GPU。 您可以將它指派為 DDA 或可分割的 GPU,但不能同時指派為這兩者。

  • 您只能將單一 GPU 分割區指派給 VM。

  • 分割區會自動指派給 VM。 您無法針對特定 VM 選擇特定的分割區。

  • 目前,Azure 本機上的 GPU 分割不支援 VM 的即時移轉。 但是,如果發生失敗,VM 會自動重新啟動並位於有可用 GPU 資源的位置。
  • 您可以使用 Windows Admin Center 或使用 PowerShell 分割 GPU。 建議您使用 Windows Admin Center 來設定和指派 GPU 分割區。 Windows Admin Center 會自動驗證叢集中所有伺服器的 GPU 是否有同質設定。 它提供適當的警告和錯誤,以採取任何所需的更正動作。

  • 如果使用 PowerShell 佈建 GPU 分割,您必須在叢集中的每個伺服器上執行佈建步驟。 您必須手動確定叢集中所有伺服器的 GPU 都保持同質設定。

  • 即時移轉已指派 GPU 分割區的虛擬機器時,Hyper-V 即時移轉會自動回復為使用 TCP/IP 和壓縮。 移轉虛擬機器可能會提高主機的 CPU 使用率。 此外,比起沒有附加 GPU 分割區的虛擬機器,即時移轉可能會花費更長的時間。