共用方式為


Azure 基礎結構上 AI 工作負載的管理建議 (IaaS)

本文針對在 Azure 基礎結構 (IaaS) 上執行 AI 工作負載的組織提供管理建議。 在 Azure 上有效管理 AI 工作負載需要持續監視、優化做法,以及強大的備份和復原策略。 這些工作可將停機時間降到最低,並確保 AI 作業的可靠性。

監視 AI 基礎結構

監視 AI 基礎結構牽涉到追蹤及評估 Azure IaaS 上 AI 部署中所有元件的效能、健康情況和可用性。 主動式監視可讓組織在影響作業之前偵測並解決潛在問題。

  • 根據預設,請確定監視。 部署虛擬機和 Azure 虛擬機器擴展集 所需的 Azure 監視器代理程式,包括 Azure Arc 連線的伺服器。 將它們連線到管理訂用帳戶中的中央 Log Analytics 工作區。 請考慮使用 Azure 監視器基準警示 (AMBA)。

  • 使用 Azure Update Manager。 您可以從單一管理平面監視 Azure 中和內部部署/其他雲端平台 (由 Azure Arc 連線) 機器上的 Windows 和 Linux 更新合規性。 您還可以使用更新管理員,以即時進行更新,或將更新排程在定義的維護視窗內執行。

  • 監視虛擬機。監視虛擬機(VM)主機數據(實體主機)和 VM 客體數據(操作系統和應用程式)。 請考慮使用 VM Insights 來簡化上線、存取預先定義的效能圖表,以及利用相依性對應。 追蹤現成 VM 收回和維護事件,以有效管理中斷。 深入瞭解已排程的事件

  • 監視網路。監視和診斷網路問題,而不登入您的 VM。 取得封包層級的即時效能資訊。 針對效能診斷工具效能問題進行疑難解答。 追蹤 所有已部署網路資源的拓撲、健康情況和計量。

  • 監視記憶體。 監視記憶體的效能,例如本機 SSD、 連接的磁碟、檔案共用和 Azure 記憶體帳戶

  • 使用協調器監視功能(如果適用的話)。 請考慮使用協調器的內建監視功能,例如 Azure CycleCloud、Azure Batch 和 Azure Kubernetes Service (AKS)。 遵循您選擇的協調器的指引:

    • 適用於 Slurm 的 Azure CycleCloud 或 Azure CycleCloud 工作區: 追蹤 CPU、磁碟和網路計量。 將數據從 Azure CycleCloud 叢集儲存至 Log Analytics,並建立自定義計量儀錶板。 如需詳細資訊,請參閱 監視 Azure CycleCloud節點健康情況檢查 是一組自動化測試,可確保 HPC/AI 硬體狀況良好。 您可以在 Azure CycleCloud 中執行這項檢查,作為叢集部署的一部分,或使用 GitHub 存放庫指示個別執行。 請確定您注意檔中的相容性矩陣。 在適當情況下執行,以確保在執行 AI 工作負載之前,先識別任何狀況不良的節點。

    • Azure Batch: 收集作業和工作計量,例如使用中工作、工作持續時間、作業開始時間、工期、工作開始時間。 同時收集集區計量,例如閑置節點、執行中的節點、CPU 使用量、磁碟 I/O。 如需詳細資訊,請參閱 Azure Batch 監視

    • Azure Kubernetes Service。 使用適用於容器的 Azure 監視器。 監視Pod效能、節點健康情況和資源使用率。 設定警示和自定義儀錶板。

管理商務持續性和災害復原

管理 Azure 上 AI 應用程式的商務持續性和災害復原,可確保組織可以從中斷中快速復原。 藉由實作即時復寫、自動化復原和一般備份等策略,組織會保護其 AI 基礎結構免於數據遺失和作業停機。

  • 使用 Azure Site Recovery。 Site Recovery 會使用即時複寫和復原自動化,以跨區域複寫工作負載。 VM 工作負載的內建平台功能符合低 RPO 和 RTO 需求。 您可以使用 Site Recovery 來執行復原演練,而不會影響生產工作負載。 您也可以使用 Azure 原則來啟用複寫和稽核 VM 保護。

  • 使用協調器功能(如果適用的話)。 使用您的協調器來復原失敗的計算節點。 例如,如果失敗,請將 Azure Batch 設定為自動 重試工作

  • 排程備份。 判斷您是否需要每天或每周備份對數據集和模型的累加變更。 備份也可以包含資料庫或整個數據集。

  • 確保數據合規性。 請確定備份策略符合數據保護法規。 符合數據落地需求,並將備份儲存在適當的地理位置。

  • 建立快照集。 您可以使用排程器的功能來擷取快照集。 例如, CycleCloud 可以將基礎應用程式資料存放區的時間點快照集當作恢復點。

後續步驟