共用方式為


Azure 基礎結構上 AI 工作負載的網路建議 (IaaS)

本文針對在 Azure 基礎結構 (IaaS) 上執行 AI 工作負載的組織提供網路建議。 設計優化的網路可以增強數據處理速度、降低延遲,並確保網路基礎結構隨著 AI 需求成長而進行調整。

確保有足夠的頻寬

足夠的頻寬是指網路容量來處理大量數據,而不會延遲或中斷。 高頻寬可確保內部部署系統與 Azure 之間的快速、不間斷數據傳輸,支援快速 AI 模型定型,並減少管線中的停機時間。 對於將大型數據集從內部部署傳輸到雲端以進行 AI 模型訓練的組織而言,高頻寬連線至關重要。 使用 Azure ExpressRoute 在內部部署網路與 Azure 之間建立專用、安全且可靠的高速連線。

將延遲降到最低

將延遲降至最低牽涉到減少網路資源之間數據傳輸的延遲。 較低的延遲可提供更快速的數據處理、啟用即時深入解析,以及改善延遲敏感性工作負載的效能。

  • 優化資源放置。 若要將 AI 工作負載的延遲降到最低,例如數據前置處理、模型定型和推斷,請在相同的 Azure 區域或可用性區域內部署虛擬機(VM)。 共置資源可減少實體距離,進而改善網路效能。

  • 使用鄰近放置群組 (PPG)。 對於需要即時處理或快速進程間通訊的延遲敏感性工作負載,請使用 PPG 在 Azure 資料中心內實際共置資源。 PPG 可確保計算、記憶體和網路資源保持緊密結合,將要求工作負載的延遲降到最低。 協調流程解決方案和 InfiniBand 會自動處理節點鄰近性。

  • 使用預先設定的LinuxOS映像。 從預先封裝 InfiniBand 驅動程式、NVIDIA 驅動程式、通訊連結庫和監視工具的 Azure Marketplace 中選取 Linux OS 映射,以簡化叢集部署。 這些映像已針對效能進行優化,並可透過 Azure CycleCloud 進行部署,以快速且有效率地建立叢集。

實作高效能網路功能

高效能網路利用進階網路功能來支持大規模、密集的 AI 計算,特別是 GPU 加速工作。 高效能網路可確保 GPU 之間的快速、有效率的數據交換,以優化模型定型並加速 AI 開發週期。

  • 針對 GPU 工作負載使用 InfiniBand。 對於相依於 GPU 加速和跨多個 GPU 的分散式定型工作負載,請使用 Azure 的 InfiniBand 網路。 InfiniBand 的 GPUDirect 遠端直接記憶體存取 (RDMA) 功能支援直接 GPU 對 GPU 通訊。 其可改善數據傳送速率和模型定型效率。 當您使用適當的 VM SKU 時,協調流程解決方案,例如 Azure CycleCloud 和 Azure Batch 會處理 InfiniBand 網路設定。

  • 選擇 Azure 的 GPU 優化 VM。 選取使用 InfiniBand 的 VM,例如 ND 系列 VM,其專為高頻寬、低延遲的 GPU 間通訊所設計。 此設定對於可調整的分散式定型和推斷而言非常重要,可加快 GPU 之間的數據交換速度。

針對大規模數據處理進行優化

大規模數據處理的優化涉及管理大量數據傳輸和高計算負載的策略。 藉由使用數據和模型平行處理原則,您可以調整 AI 工作負載並增強處理速度。 使用 Azure 的 GPU 優化虛擬機來處理複雜的數據密集型 AI 工作負載。

  • 套用數據或模型平行處理原則技術。 若要管理跨多個 GPU 的大量數據傳輸,請根據您的 AI 工作負載需求實作數據平行處理原則或模型平行處理原則。 請確定使用高頻寬記憶體 (HBM),因為高頻寬、低耗電量和精簡設計,因此非常適合高效能工作負載。 HBM 支援快速數據處理,對於需要處理大型數據集的 AI 工作負載而言至關重要。

  • 使用進階 GPU 網路功能。 針對需要 AI 案例,請選擇 NDH100v5 和 NDMI300Xv5 等 Azure VM。 Azure 會將這些 VM 設定為虛擬機擴展集內的專用 400 Gb/秒 NVIDIA Quantum-2 CX7 InfiniBand 連線。 這些連線支援 GPU Direct RDMA,啟用直接 GPU 對 GPU 資料傳輸,以減少延遲並增強整體系統效能。

後續步驟