Azure 基礎結構上 AI 工作負載的治理建議 (IaaS)
本文針對在 Azure 基礎結構 (IaaS) 上執行 AI 工作負載的組織提供治理建議。 這些建議可協助組織建立資源管理、成本控制、安全性和營運效率的結構化架構。 遵循這些做法,您可以負責任地調整 AI 工作負載,並確保它們符合合規性、安全性和財務目標。
資源管理
資源控管會建立管理 Azure 資源的規則和標準。 藉由強制執行治理原則,組織可以確保合規性、標準化資源使用和控制成本,以支援負責任地調整 AI 作業。
強制執行標籤使用方式。 使用 Azure 原則 來強制執行規則,例如資源位置、允許的 SKU 和強制標籤。 例如,建立原則來限制特定高成本 VM 的部署,以有效管理預算。
套用治理原則以確保合規性和標準化。 使用 Azure 原則 來強制執行規則,例如資源位置、允許的 SKU 和強制標記。 例如,建立原則來限制特定高成本 VM 的部署,以控制預算。
使用資源群組進行生命週期管理。 在共用通用生命週期的資源群組內部署 AI 資源。 資源群組可讓您共同部署、設定及刪除資源。 它們也提供額外的治理(原則)、安全性(RBAC)和成本(預算)界限。
標準化命名慣例。 實作 AI 資源的標準化命名慣例。 這種做法可改善追蹤和管理。 使用每個 Azure 資源的命名規則和限制,並遵循建議的縮寫,因為許多資源通常會有名稱長度限制。
以程式代碼控管基礎結構。 使用 適用於雲端的 Microsoft Defender 來監視並強制執行 IaC 安全性。 此工具可協助偵測 IaC 設定錯誤,並確保安全部署。
成本管理
成本管理會監視和控制與 Azure 上 AI 工作負載相關的費用。 有效的成本管理可讓組織設定預算、追蹤支出,以及維護 AI 專案的財務可持續性。
使用標籤來配置成本。 設定 Azure 原則 定義,以強制對資源進行標記。 使用標籤依專案、成本中心、環境和擁有者來分類資源,以取得更佳的管理與計費。
使用標記繼承。 使用 成本管理中的標記繼承 ,將計費、資源群組和訂用帳戶標籤套用至子資源使用量記錄。
管理計費帳戶。 使用 Microsoft計費 來監督計費帳戶並處理發票。 將計費帳戶指派給每個 AI 專案或小組,以利進行精確的費用追蹤。
監視成本。 使用 Microsoft成本管理 來設定預算警示、成本異常警示和排程警示。 以這種方式監視成本可協助組織維護財務專業領域。
檢視消費模式。 使用 Azure 成本分析 工具來定期檢閱支出模式。 此程式會識別趨勢,並顯示可能節省成本的區域,特別是在 VM 使用量中。
允許特定的虛擬機 SKU。 使用 Azure 原則只允許符合 AI 預算的虛擬機器 SKU。 內建原則定義 允許的虛擬機 SKU 可以強制執行此控件。
請考慮自動調整。 使用虛擬機擴展集,根據需求動態調整 VM 計數,將成本優化。
設定 VM autoshutdown。 使用自動關閉功能來排程 VM 在停機期間關閉,降低不必要的成本。
安全性治理
安全性控管可解決跨 AI 工作負載的健全保護措施需求。 藉由實作安全策略和訪問控制,組織可以保護敏感數據和資源。 它可降低風險,並支援 Azure 上安全的 AI 環境。
與 Microsoft Entra 識別碼整合。 使用 Microsoft Entra ID,跨 AI 工作負載進行集中式身分識別管理和單一登錄 (SSO) 功能。
為每個環境實作不同的訪問控制。 將每個部署管線的身分識別限制為其指定的環境,降低意外部署的風險。
啟用 Azure Defender。 啟用 Azure Defender 以進行進階威脅防護。 Azure Defender 可增強工作負載的安全性,包括虛擬機、記憶體帳戶和資料庫,提升 AI 工作負載的健全安全性狀態。
作業控管
作業控管可確保對 AI 工作負載進行一致的監視和管理。 藉由使用工具來監視、警示和自動化部署,組織可以維護系統健康情況、儘早偵測問題,並提升作業效率,進而促進可靠且穩定的 AI 作業。
部署監視代理程式。 請確定 Azure 監視器代理程式預設會針對虛擬機、Azure 虛擬機器擴展集 和 Azure Arc 連線的伺服器進行部署。 將它們連線到管理訂用帳戶內的中央 Log Analytics 工作區。
設定警示。 啟用 建議的警示規則 ,以接收計量偏差的通知。
使用 CI/CD 管線。 實作 持續整合和持續傳遞 (CI/CD) ,將程式代碼測試和部署自動化至不同的環境。