生成式 AI 應用程式的模型監測 (預覽)

發行項
09/04/2024

在生產環境中監視模型是 AI 生命週期中不可或缺的一部分。資料與取用者行為的變更可能會隨著時間影響您的生成式 AI 應用程式，導致過時的系統對業務成果產生負面影響，並讓組織面臨合規性、經濟和信譽風險。

重要

生成式 AI 應用程式的模型監測目前處於公開預覽階段。這些預覽是在沒有服務等級協定的情況下提供，不建議用於生產工作負載。可能不支援特定功能，或可能已經限制功能。如需詳細資訊，請參閱 Microsoft Azure 預覽版增補使用條款。

適用於生成式 AI 應用程式的 Azure Machine Learning 模型監測可讓您更輕鬆地定期監視生產環境中 LLM 應用程式的安全和品質，以確保其能產生最大的業務影響。監視最終有助於維護您的生成式 AI 應用程式的品質和安全。功能和整合包括：

使用模型資料收集器收集生產資料。
負責任 AI 評估計量，例如根據性、連貫性、流暢度、相關性和相似度，這些計量與 Azure Machine Learning 提示流程評估計量互通。
能夠根據組織目標設定違規的警示，並定期執行監視
取用 Azure Machine Learning 工作室中工作區內豐富的儀表板。
與 Azure Machine Learning 提示流程評估計量整合、分析收集的生產資料以提供及時警示，以及一段時間計量的視覺效果。

如需整體模型監測基本概念，請參閱使用 Azure Machine Learning 進行模型監測 (預覽)。在本文中，您會了解如何監視受控線上端點支援的生成式 AI 應用程式。您採取的步驟如下︰

設定必要條件
建立您的監視
確認監視狀態
取用監視結果

評估計量

計量是由以特定評估指示 (提示範本) 設定的下列最先進 GPT 語言模型所產生，這些模型可作為序列到序列工作的評估工具模型。相較於標準生成式 AI 評估計量，這項技術已顯示出強大的經驗結果，並與人類判斷高度相互關聯。如需提示流程評估的詳細資訊，請參閱提交大量測試和評估流程 (預覽)，以取得提示流程評估的詳細資訊。

支援這些 GPT 模型，並且會設定為 Azure OpenAI 資源：

GPT-3.5 Turbo
GPT-4
GPT-4-32k

支援下列計量。如需每個計量的詳細資訊，請參閱監視評估計量描述和使用案例

根據性：評估模型產生的答案與輸入來源的資訊一致程度。
相關性：評估模型所產生回應的相關程度，且與指定的問題直接相關。
連貫性：評估語言模型以順暢流動、自然閱讀，以及類似人類語言的方式產生輸出的程度。
流暢度：評估生成式 AI 預測答案的語言熟練度。會評估產生的文字遵守文法規則、語法結構，以及詞彙適當使用方式的程度，從而產生語言正確和聽起來很自然的回應。
相似度：評估有根據事實句子 (或文件) 與 AI 模型所產生預測句子之間的相似度。

計量設定需求

需要下列輸入 (資料行名稱) 來測量產生安全與品質：

提示文字 - 提供的原始提示 (也稱為「輸入」或「問題」)
完成文字 - 傳回的 API 呼叫最終完成項目 (也稱為「輸出」或「答案」)
內容文字 - 與原始提示一起傳送至 API 呼叫的任何內容資料。例如，如果您想要只從特定認證資訊來源/網站取得搜尋結果，您可以在評估步驟中定義。這是可透過提示流程設定的選擇性步驟。
有根據事實文字 - 使用者定義文字為「事實來源」(選擇性)

資料資產中設定的哪些參數會根據下表決定您可以產生的計量：

計量	提示	Completion	上下文	有根據事實
連貫性	必要	必要	-	-
流暢度	必要	必要	-	-
根據性	必要	必要	必要	-
相關性	必要	必要	必要	-
相似性	必要	必要	-	必要

必要條件

Azure OpenAI 資源：您必須建立具有足夠配額的 Azure OpenAI 資源。此資源會作為您的評估端點使用。
受控識別：建立使用者指派的受控識別 (UAI)，並使用使用 CLI v2 連結使用者指派的受控識別中的指導，且具有足夠的角色存取權，將其連結至工作區，如下一個步驟中所述。
角色存取：若要指派具有必要權限的角色，您必須擁有資源的擁有者或 Microsoft.Authorization/roleAssignments/write 權限。更新連線和權限可能需要幾分鐘的時間才會生效。這些額外角色必須指派給您的 UAI：
- 資源：工作區
- 角色：Azure Machine Learning 資料科學家
工作區連線：遵循本指南，您可以使用受控識別來代表用來計算監視計量的 Azure OpenAI 端點認證。不要在流程中使用連線之後刪除連線。
- API 版本：2023-03-15-preview
提示流程部署：遵循本指南建立提示流程執行階段、執行您的流程，並確定您已使用本文作為指南設定部署
- 流程輸入和輸出：您必須適當地為流程輸出命名，並在建立監視時記住這些資料行名稱。在本文中，我們會使用下列項目：
  - 輸入 (必要)：「提示」
  - 輸出 (必要)：「完成」
    - 輸出 (選擇性)：「內容」|「有根據事實」
- 資料收集：在「部署」中 (提示流程部署精靈的步驟 #2)，[推斷資料收集] 切換必須使用模型資料收集器啟用
- 輸出：在「輸出」中 (提示流程部署精靈的步驟 #3)，確認您已選取以上所列的必要輸出 (例如，完成 | 內容 | 有根據事實)，符合您的計量設定需求

注意

如果您的計算執行個體位於 VNet 後方，請參閱提示流程中的網路隔離。

建立您的監視

在 [監視] 概觀頁面中建立您的監視

設定基本監視設定

在監視建立精靈中，將 [模型工作類型] 變更為 [提示和完成]，如螢幕擷取畫面中的 (A) 所示。

設定資料資產

如果您已使用模型資料收集器，請選取您的兩個資料資產 (輸入和輸出)。

選取監視訊號

在螢幕擷取畫面中設定工作區連線 (A)。
1. 您必須正確設定工作區連線，否則會看到下列項目：
輸入 Azure OpenAI 評估工具部署名稱 (B)。
(選擇性) 聯結生產資料輸入和輸出：監視服務會自動聯結生產模型輸入和輸出 (C)。您可以視需要自訂此項目，但不需要採取任何動作。根據預設，聯結資料行是 correlationid。
(選擇性) 設定計量閾值：可接受的個別執行個體分數固定在 3/5。您可以調整範圍 [1,99] % 之間的可接受整體通過率百分比