Azure 上 AI 工作負載的治理建議

發行項
01/30/2025

本文針對在 Azure 上執行 AI 工作負載的組織提供治理建議。其著重於 Azure AI 平臺即服務（PaaS）解決方案，包括 Azure AI Foundry、Azure OpenAI、Azure Machine Learning 和 Azure AI 服務。其涵蓋產生式和非產生式 AI 工作負載。

有效的治理支持負責任地使用 AI。它可讓企業優化其 AI 投資，同時降低與安全性、成本和法規合規性相關聯的風險。

控管 AI 模型

AI 模型治理是指管理 AI 模型的程式，以確保其產生可靠、安全且道德的輸出。控制模型輸入和輸出有助於降低風險。這些風險包括有害的內容和非預期的 AI 使用。兩者都可能會影響用戶和組織。這些程式支援負責任的 AI 部署，並防範潛在的法律和道德挑戰。

控制您使用的模型。 使用 Azure 原則來管理您的小組允許從 Azure AI Foundry 模型目錄部署哪些特定模型。您可以選擇使用內建原則或建立自定義原則。由於此方法使用允許名單，請先從 稽核的 影響開始。稽核效果可讓您監視小組所使用的模型，而不需要限制部署。一旦您瞭解工作負載團隊的 AI 開發和實驗需求，就只應切換到拒絕設定，這樣您就不會不必要地阻礙他們的進度。如果您將原則切換至拒絕，則不會自動移除小組已部署的不符合規範模型。您必須手動修正這些模型。
建立偵測 AI 風險的程式。 使用適用於雲端的 Defender 之類的工具來探索產生式 AI 工作負載，並探索預先部署產生 AI 成品的風險。建立一個原則，以定期紅小組產生 AI 模型。記載已識別的風險，並持續更新您的 AI 治理原則，以減輕新興問題。
定義產生的 AI 模型的基準內容篩選。 使用 Azure AI 內容安全性來定義已核准 AI 模型的基準內容篩選。此安全系統會透過一組分類模型，為您的模型執行提示和完成。這些分類模型會偵測並協助防止各種類別中有害內容的輸出。內容安全性提供提示防護、地面偵測和受保護材質文字偵測等功能。它會掃描影像和文字。建立應用程式小組傳達不同治理需求的程式。
地面產生的 AI 模型。 使用系統訊息和擷取增強世代（RAG）模式來管理產生 AI 模型的輸出。使用提示流程或開放原始碼紅色小組架構 PyRIT 等工具來測試地面的有效性。

控管 AI 成本

AI 成本控管牽涉到管理與 AI 工作負載相關聯的費用，以將效率最大化並降低不必要的支出。有效的成本控制可確保 AI 投資符合商務目標，以防止未預期的成本過度布建或使用量過低。這些做法可讓組織在財務上優化其 AI 作業。

使用正確的計費模型。 如果您有可預測的工作負載，請在 Azure AI 服務中使用 AI 承諾層。針對 Azure OpenAI 模型，請使用布建的輸送量單位（PTU），其成本可能低於隨用隨付（取用型）定價。通常會結合 PTU 端點和以耗用量為基礎的端點，以進行成本優化。在 AI 模型主要端點和次要耗用量型 AI 端點上使用 PTU 來進行溢出。如需詳細資訊，請參閱介紹多個 Azure OpenAI 實例的網關。
為您的使用案例選擇正確的模型。 選取符合您需求的 AI 模型，而不會產生過多的成本。除非使用案例需要更昂貴的模型，否則請使用成本較低的模型。若要微調，請將每個計費週期內的時間使用量最大化，以避免產生額外費用。如需詳細資訊，請參閱 Azure OpenAI 模型和定價。另請參閱 Azure AI Foundry 模型目錄和模型部署的計費資訊。
設定佈建限制。 根據預期的工作負載，為每個模型配置布建配額，以避免不必要的成本。持續監視動態配額，以確保它們符合實際需求，並據以調整它們，以維持最佳輸送量，而不需要超支。
使用正確的部署類型。 Azure OpenAI 模型可讓您使用不同的部署類型。全域部署在特定 OpenAI 模型上提供較低的每個令牌成本定價。
評估裝載選項。 根據您的解決方案需求，選擇正確的裝載基礎結構。例如，對於產生式 AI 工作負載，選項包括受控在線端點、Azure Kubernetes Service （AKS）和 Azure App 服務，每個都有自己的計費模型。選取選項，為您的特定需求提供效能與成本之間的最佳平衡。
在取用型服務中控制客戶端行為。 藉由強制執行網路控制、密鑰和角色型存取控制（RBAC）等安全性通訊協定，限制對 AI 服務的用戶端存取。請確定用戶端使用 API 條件約束，例如最大令牌和最大完成。可能的話，批次要求以將效率優化。保持提示簡潔，但提供必要的內容以減少令牌耗用量。
請考慮使用產生式 AI 閘道。 產生式 AI 閘道可讓您追蹤令牌使用方式、節流令牌使用方式、套用斷路器，以及路由至不同的 AI 端點，以控制成本。
建立原則以關閉計算實例。 定義並強制執行原則，指出 AI 資源必須在 Azure AI Foundry 和 Azure Machine Learning 中的虛擬機和計算實例上使用自動關機功能。自動關機適用於非生產環境和生產工作負載，您可以在某些時段內離線。

如需更多成本管理指引，請參閱在 Azure OpenAI 基準架構中管理 AI 成本和成本優化。

控管 AI 平臺

AI 平臺治理包括將原則控制套用至 Azure 上的各種 AI 服務，例如 Azure AI Foundry 和 Azure Machine Learning。使用平台層級治理可在整個 AI 生態系統中強制執行一致的安全性、合規性和操作原則。這項對齊支援有效的監督，可強化整體 AI 管理和可靠性。

使用內建治理原則。 使用 Azure 原則，針對您所使用的每個 AI 平臺套用內建原則定義。它包含 Azure AI Foundry、Azure Machine Learning、Azure AI 服務、Azure AI 搜尋服務等。
啟用 Azure 登陸區域 AI 原則。 針對 Azure 登陸區域使用者，部署包含一組針對 Azure AI 平臺服務的建議內建原則。在 Azure 登陸區域部署期間，選取您想要在 [工作負載特定合規性] 類別下使用的原則方案。這些原則集包括 Azure OpenAI、Azure 機器學習和 Azure AI 搜尋服務，以及 Azure Bot 服務。

治理 AI 安全性

AI 安全性控管可解決保護 AI 工作負載免於可能危害數據、模型或基礎結構的威脅的需求。健全的安全性做法可保護這些系統免於未經授權的存取和數據外洩。此保護可確保 AI 解決方案的完整性和可靠性，這對於維護使用者信任和法規合規性至關重要。

在每個訂用帳戶上啟用適用於雲端的 Defender。 適用於雲端的 Defender 提供符合成本效益的方法，可偵測未安全部署資源中的組態。您也應該啟用 AI 威脅防護。
設定存取控制。 將最低許可權的使用者存取權授與集中式 AI 資源。例如，從讀者 Azure 角色開始，如果有限的許可權降低應用程式開發速度，請提升至參與者 Azure 角色。
使用受控識別。 在所有支援的 Azure 服務上使用受控識別。對需要存取 AI 模型端點的應用程式資源授與最低許可權存取權。
使用 Just-In-Time 存取。 使用特殊許可權身分識別管理（PIM）進行 Just-In-Time 存取。

控管 AI 作業

AI 作業控管著重於管理和維護穩定的 AI 服務。這些作業支持長期可靠性和效能。集中式監督和持續性計劃可協助組織避免停機，以確保 AI 的商務價值一致。這些工作有助於有效率的 AI 部署和持續的營運效率。

檢閱和管理 AI 模型。 開發管理模型版本設定的原則，特別是當模型升級或淘汰時。您必須維持與現有系統的相容性，並確保模型版本之間的順暢轉換。
定義商務持續性和災害復原計劃。 為您的 AI 端點和 AI 數據建立商務持續性和災害復原的原則。為裝載 AI 模型端點的資源設定基準災害復原。這些資源包括 Azure AI Foundry、Azure Machine Learning、Azure OpenAI或 Azure AI 服務。所有 Azure 數據存放區，例如 Azure Blob 儲存體、Azure Cosmos DB 和 Azure SQL 資料庫，都提供您應該遵循的可靠性和災害復原指引。
定義 AI 資源的基準計量。 啟用建議的警示規則，以接收指出工作負載健康情況下降的偏差通知。如需範例，請參閱 Azure AI 搜尋、Azure Machine Learning、Azure AI Foundry 提示流程部署，以及個別 Azure AI 服務的指引。

控管 AI 法規合規性

AI 中的法規合規性要求組織遵循業界標準和法律義務，以降低與責任相關的風險，並建立信任。合規性措施可協助組織避免處罰，並改善客戶和監管機構的信譽。遵循這些標準會為負責任且符合規範的 AI 使用建立堅實的基礎。

自動化合規性。 使用 Microsoft Purview 合規性管理員來評估及管理雲端環境的合規性。在您的產業中使用適用於 Azure 原則的法規合規性計劃。根據您使用的 AI 服務套用其他原則，例如 Azure AI Foundry 和 Azure Machine Learning。
開發業界特定的合規性檢查清單。 法規和標準因產業和位置而異。您必須知道法規需求，並編譯反映與您產業相關的法規需求的檢查清單。使用 ISO/IEC 23053：2022 等標準（使用機器學習的人工智慧系統架構），來稽核套用至 AI 工作負載的原則。

控管 AI 數據

AI 數據控管牽涉到原則，以確保將數據饋送至 AI 模型是適當的、符合規範且安全的。數據控管可保護隱私權和智慧財產權，進而增強 AI 輸出的可靠性和品質。這些措施有助於降低與數據誤用相關的風險，並符合法規和道德標準。

建立編錄數據的程式。 使用 Microsoft Purview 之類的工具，在整個組織中實作統一的數據目錄和分類系統。將這些原則整合到您的 CI/CD 管線中，以進行 AI 開發。
維護資料安全性界限。 編錄數據可協助您確保不會將敏感數據饋送至公開的 AI 端點。當您從特定數據源建立索引時，索引處理程式可以移除數據周圍的安全性界限。請確定任何內嵌至 AI 模型的數據會根據集中式標準進行分類和審查。
防止著作權侵權。 在 Azure AI 內容安全性中使用內容篩選系統，例如受保護的材料偵測，以篩選出受版權保護的材料。如果您要對 AI 模型進行基礎、定型或微調，請確定您使用合法取得且適當授權的數據，並實作保護措施，以防止模型侵犯著作權。定期檢閱智慧財產權合規性的輸出。
實作基礎數據的版本控制。 例如，在RAG中建立基礎數據的版本控制程式。版本控制可確保您可以追蹤基礎數據或其結構的任何變更。您可以視需要還原變更，協助維護部署之間的一致性。

後續步驟

管理 PaaS AI

共用方式為