Azure 上 AI 工作負載的管理建議
本文針對在 Azure 上執行 AI 工作負載的組織提供管理建議。 其著重於 Azure AI 平臺即服務 (PaaS) 解決方案,包括 Azure AI Foundry、Azure OpenAI、Azure Machine Learning 和 Azure AI 服務。 其涵蓋產生式和非產生式 AI 工作負載。
在 Azure 上有效管理 AI 工作負載牽涉到監督部署、模型效能、作業、數據和災害復原,以支援您的 AI 工作負載。 適當的管理可協助確保 AI 工作負載在其生命週期中可靠、可信任且安全。
管理 AI 部署
管理 AI 部署可協助工作負載小組從概念證明階段移至生產環境,其設定一致,可改善整個小組的安全性與合規性。 Azure 提供 Azure AI Foundry 中樞和專案等工具, 強制執行治理和安全性。 Azure 機器學習 具有其中樞工作區的類似功能。 如需詳細資訊,請參閱 管理 AI 部署。
管理 AI 模型
管理 AI 模型包括監視其輸出、效能,以及與負責任 AI 原則的一致。 AI 模型可能會隨著時間而漂移,因為變更數據、用戶行為或其他外部因素。 如果未解決,這些變更可能會導致不正確的結果或道德考慮。
監視模型輸出。 實作監視和測試程式,以確保這些工作負載與負責任的 AI 目標保持一致。
監視產生的 AI。 針對產生的 AI 工作負載,請使用 Azure AI Foundry 的內建 評估 和 手動 監視功能。 如果您使用提示流程, 請監視提示流程部署。 也請考慮使用 負責任的 AI 工具來 補充模型監視。
監視非行性 AI。 針對非產生 AI 工作負載,監視數據處理階段和模型效能計量,以確保預測保持準確且可靠。 在 Azure 機器學習 中啟用模型監視。 針對 Azure AI 服務,針對您使用的每個 AI 服務啟用監視。
監視模型效能。 偵測到效能或精確度下降時,監視有助於找出問題的來源。 如同所有工作負載,請使用 Azure 監視器和 Application Insights 來監視 AI 工作負載的效能。
監視產生的 AI 效能。 在產生 AI 中,監視回應時間的延遲或向量搜尋結果的正確性,以增強用戶體驗。 在 Azure AI Foundry 中,啟用追蹤,以收集每個要求的追蹤數據、匯總的度量標準和使用者意見反應。
監視非行性 AI 效能。 擷取部署在 Azure 機器學習 中的模型效能計量。 針對 Azure AI 服務,針對每個 Azure AI 服務啟用 診斷記錄 。
請考慮要監視的產生 AI 閘道。 Azure API 管理 之類的反向 Proxy 可讓您實作非平臺原生的記錄和監視。 API 管理 可讓您收集來源IP、輸入文字和輸出文字。 如需詳細資訊,請參閱 實作 Azure OpenAI 服務語言模型的記錄和監視。
管理 AI 作業
AI 作業管理牽涉到標準化 Azure AI 工作負載的計算資源和監視平台資源。 它可確保小組有效率地使用正確的計算資源,並從平臺資源擷取計量和記錄。
監視平台資源。 使用診斷設定來擷取所有重要服務的記錄和計量,例如 Azure AI Foundry、Azure Machine Learning,以及 Azure AI 服務。 特定服務應擷取稽核記錄和相關的服務特定記錄。 根據您的架構特定需求實作自定義監視警示。 範例包括容器登錄、Azure Machine Learning 和 Azure OpenAI 的警示。 為 AI 架構中的每個服務設定建議的監視警示。 如需詳細資訊,請參閱 Azure 監視器基準警示。
標準化計算管理。 您需要特定動作的計算資源,例如提示流程和定型模型。 機器學習 之類的服務有不同的計算選項,例如計算實例、叢集和無伺服器選項。 標準化計算類型、運行時間和關機期間。 如需服務特定的計算選項,請參閱 Azure AI Foundry 和 Machine Learning。
管理 AI 數據
高質量數據是精確 AI 模型的基礎。 追蹤模型漂移可協助維護一段時間內 AI 預測的相關性,並可讓組織視需要調整模型以反映目前的情況。
監視數據漂移。 在衍生式和非行性 AI 中持續追蹤精確度和數據漂移,以確保模型保持相關。 監視可以在模型預測或大型語言模型回應偏離預期行為時發出警示。 此偏差表示需要重新定型或調整。 設定自定義警示以偵測效能閾值。 此方法可在發生問題時進行早期介入。 在 Azure AI Foundry 中使用
評估 ,以及 Machine Learning中支援的計量。 確保品質數據處理。 針對 機器學習服務,定型數據必須格式化、清除並準備好供模型取用。 對於衍生式 AI,基礎數據的格式必須正確,且可能進行區塊化、擴充和內嵌以用於 AI 模型取用。 如需詳細資訊,請參閱 設計和開發RAG解決方案指南。
管理商務持續性
實作多區域部署,以確保產生式和非產生式 AI 系統的高可用性和復原能力 如需詳細資訊,請參閱 azure AI Foundry