Azure 基礎結構上 AI 工作負載的管理建議 (IaaS)
本文針對在 Azure 基礎結構 (IaaS) 上執行 AI 工作負載的組織提供管理建議。 在 Azure 上有效管理 AI 工作負載需要持續監視、優化做法,以及強大的備份和復原策略。 這些工作可將停機時間降到最低,並確保 AI 作業的可靠性。
監視 AI 基礎結構
監視 AI 基礎結構牽涉到追蹤及評估 Azure IaaS 上 AI 部署中所有元件的效能、健康情況和可用性。 主動式監視可讓組織在影響作業之前偵測並解決潛在問題。
根據預設,請確定監視。 部署虛擬機和 Azure 虛擬機器擴展集 所需的 Azure 監視器代理程式,包括 Azure Arc 連線的伺服器。 將它們連線到管理訂用帳戶中的中央 Log Analytics 工作區。 請考慮使用 Azure 監視器基準警示 (AMBA)。
使用 Azure Update Manager。 您可以從單一管理平面監視 Azure 中和內部部署/其他雲端平台 (由 Azure Arc 連線) 機器上的 Windows 和 Linux 更新合規性。 您還可以使用更新管理員,以即時進行更新,或將更新排程在定義的維護視窗內執行。
監視虛擬機。監視虛擬機(VM)主機數據(實體主機)和 VM 客體數據(操作系統和應用程式)。 請考慮使用 VM Insights 來簡化上線、存取預先定義的效能圖表,以及利用相依性對應。 追蹤現成 VM 收回和維護事件,以有效管理中斷。 深入瞭解已排程的事件。
監視網路。監視和診斷網路問題,而不登入您的 VM。 取得封包層級的即時效能資訊。 針對效能診斷工具的效能問題進行疑難解答。 追蹤 所有已部署網路資源的拓撲、健康情況和計量。
監視記憶體。 監視記憶體的效能,例如本機 SSD、 連接的磁碟、檔案共用和 Azure 記憶體帳戶。
使用協調器監視功能(如果適用的話)。 請考慮使用協調器的內建監視功能,例如 Azure CycleCloud、Azure Batch 和 Azure Kubernetes Service (AKS)。 遵循您選擇的協調器的指引:
適用於 Slurm 的 Azure CycleCloud 或 Azure CycleCloud 工作區: 追蹤 CPU、磁碟和網路計量。 將數據從 Azure CycleCloud 叢集儲存至 Log Analytics,並建立自定義計量儀錶板。 如需詳細資訊,請參閱 監視 Azure CycleCloud。 節點健康情況檢查 是一組自動化測試,可確保 HPC/AI 硬體狀況良好。 您可以在 Azure CycleCloud 中執行這項檢查,作為叢集部署的一部分,或使用 GitHub 存放庫指示個別執行。 請確定您注意檔中的相容性矩陣。 在適當情況下執行,以確保在執行 AI 工作負載之前,先識別任何狀況不良的節點。
Azure Batch: 收集作業和工作計量,例如使用中工作、工作持續時間、作業開始時間、工期、工作開始時間。 同時收集集區計量,例如閑置節點、執行中的節點、CPU 使用量、磁碟 I/O。 如需詳細資訊,請參閱 Azure Batch 監視。
Azure Kubernetes Service。 使用適用於容器的 Azure 監視器。 監視Pod效能、節點健康情況和資源使用率。 設定警示和自定義儀錶板。
管理商務持續性和災害復原
管理 Azure 上 AI 應用程式的商務持續性和災害復原,可確保組織可以從中斷中快速復原。 藉由實作即時復寫、自動化復原和一般備份等策略,組織會保護其 AI 基礎結構免於數據遺失和作業停機。
使用 Azure Site Recovery。 Site Recovery 會使用即時複寫和復原自動化,以跨區域複寫工作負載。 VM 工作負載的內建平台功能符合低 RPO 和 RTO 需求。 您可以使用 Site Recovery 來執行復原演練,而不會影響生產工作負載。 您也可以使用 Azure 原則來啟用複寫和稽核 VM 保護。
使用協調器功能(如果適用的話)。 使用您的協調器來復原失敗的計算節點。 例如,如果失敗,請將 Azure Batch 設定為自動 重試工作 。
排程備份。 判斷您是否需要每天或每周備份對數據集和模型的累加變更。 備份也可以包含資料庫或整個數據集。
確保數據合規性。 請確定備份策略符合數據保護法規。 符合數據落地需求,並將備份儲存在適當的地理位置。
建立快照集。 您可以使用排程器的功能來擷取快照集。 例如, CycleCloud 可以將基礎應用程式資料存放區的時間點快照集當作恢復點。