共用方式為


Azure 基礎結構上 AI 工作負載的治理建議 (IaaS)

本文針對在 Azure 基礎結構 (IaaS) 上執行 AI 工作負載的組織提供治理建議。 這些建議可協助組織建立資源管理、成本控制、安全性和營運效率的結構化架構。 遵循這些做法,您可以負責任地調整 AI 工作負載,並確保它們符合合規性、安全性和財務目標。

資源管理

資源控管會建立管理 Azure 資源的規則和標準。 藉由強制執行治理原則,組織可以確保合規性、標準化資源使用和控制成本,以支援負責任地調整 AI 作業。

  • 強制執行標籤使用方式。 使用 Azure 原則 來強制執行規則,例如資源位置、允許的 SKU 和強制標籤。 例如,建立原則來限制特定高成本 VM 的部署,以有效管理預算。

  • 套用治理原則以確保合規性和標準化。 使用 Azure 原則 來強制執行規則,例如資源位置、允許的 SKU 和強制標記。 例如,建立原則來限制特定高成本 VM 的部署,以控制預算。

  • 使用資源群組進行生命週期管理。 在共用通用生命週期的資源群組內部署 AI 資源。 資源群組可讓您共同部署、設定及刪除資源。 它們也提供額外的治理(原則)、安全性(RBAC)和成本(預算)界限。

  • 標準化命名慣例。 實作 AI 資源的標準化命名慣例。 這種做法可改善追蹤和管理。 使用每個 Azure 資源的命名規則和限制,並遵循建議的縮寫,因為許多資源通常會有名稱長度限制。

  • 以程式代碼控管基礎結構。 使用 適用於雲端的 Microsoft Defender 來監視並強制執行 IaC 安全性。 此工具可協助偵測 IaC 設定錯誤,並確保安全部署。

成本管理

成本管理會監視和控制與 Azure 上 AI 工作負載相關的費用。 有效的成本管理可讓組織設定預算、追蹤支出,以及維護 AI 專案的財務可持續性。

  • 使用標籤來配置成本。 設定 Azure 原則 定義,以強制對資源進行標記。 使用標籤依專案、成本中心、環境和擁有者來分類資源,以取得更佳的管理與計費。

  • 使用標記繼承。 使用 成本管理中的標記繼承 ,將計費、資源群組和訂用帳戶標籤套用至子資源使用量記錄。

  • 管理計費帳戶。 使用 Microsoft計費 來監督計費帳戶並處理發票。 將計費帳戶指派給每個 AI 專案或小組,以利進行精確的費用追蹤。

  • 監視成本。 使用 Microsoft成本管理 來設定預算警示、成本異常警示和排程警示。 以這種方式監視成本可協助組織維護財務專業領域。

  • 檢視消費模式。 使用 Azure 成本分析 工具來定期檢閱支出模式。 此程式會識別趨勢,並顯示可能節省成本的區域,特別是在 VM 使用量中。

  • 允許特定的虛擬機 SKU。 使用 Azure 原則只允許符合 AI 預算的虛擬機器 SKU。 內建原則定義 允許的虛擬機 SKU 可以強制執行此控件。

  • 請考慮自動調整。 使用虛擬機擴展集,根據需求動態調整 VM 計數,將成本優化。

  • 設定 VM autoshutdown。 使用自動關閉功能來排程 VM 在停機期間關閉,降低不必要的成本。

安全性治理

安全性控管可解決跨 AI 工作負載的健全保護措施需求。 藉由實作安全策略和訪問控制,組織可以保護敏感數據和資源。 它可降低風險,並支援 Azure 上安全的 AI 環境。

  • 與 Microsoft Entra 識別碼整合。 使用 Microsoft Entra ID,跨 AI 工作負載進行集中式身分識別管理和單一登錄 (SSO) 功能。

  • 為每個環境實作不同的訪問控制。 將每個部署管線的身分識別限制為其指定的環境,降低意外部署的風險。

  • 啟用 Azure Defender。 啟用 Azure Defender 以進行進階威脅防護。 Azure Defender 可增強工作負載的安全性,包括虛擬機、記憶體帳戶和資料庫,提升 AI 工作負載的健全安全性狀態。

作業控管

作業控管可確保對 AI 工作負載進行一致的監視和管理。 藉由使用工具來監視、警示和自動化部署,組織可以維護系統健康情況、儘早偵測問題,並提升作業效率,進而促進可靠且穩定的 AI 作業。

  • 部署監視代理程式。 請確定 Azure 監視器代理程式預設會針對虛擬機、Azure 虛擬機器擴展集 和 Azure Arc 連線的伺服器進行部署。 將它們連線到管理訂用帳戶內的中央 Log Analytics 工作區。

  • 設定警示。 啟用 建議的警示規則 ,以接收計量偏差的通知。

  • 使用 CI/CD 管線。 實作 持續整合和持續傳遞 (CI/CD) ,將程式代碼測試和部署自動化至不同的環境。

後續步驟