共用方式為


監視評估計量描述和使用案例

在本文中,您會了解在 Azure Machine Learning 中監視和評估生成式 AI 模型時所使用的計量,以及使用生成式 AI 模型監測的建議做法。

重要

監視目前處於公開預覽階段。 此預覽版是在沒有服務等級協定的情況下提供,不建議用於生產工作負載。 可能不支援特定功能,或可能已經限制功能。 如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款

模型監測會追蹤生產中的模型效能,目標是從資料科學和作業觀點了解模型效能。 為了實作監視,Azure Machine Learning 會使用透過串流資料上資料分析取得的監視訊號。 每個監視訊號都有一或多個計量。 您可以設定這些計量的閾值,以便透過 Azure Machine Learning 或 Azure 監視器接收有關模型或資料異常的警示。

根據性

根據性會評估模型產生的答案與輸入來源的資訊一致程度。 答案會驗證為針對使用者定義有根據事實來源中內容的宣告:即使答案為 true (事實上正確),如果無法針對來源文字進行驗證,則會將其評分為無根據。 回應會驗證為針對有根據事實來源中「內容」的宣告 (例如您的輸入來源或資料庫)。

  • 使用時機:您擔心您的應用程式會產生資訊,而資訊不會包含在您的生成式 AI 定型知識中 (也稱為無法驗證的資訊)。
  • 如何閱讀:如果模型的答案具有高度根據,則表示 AI 系統回應中涵蓋的事實可由輸入來源或內部資料庫驗證。 相反地,低根據性分數表示輸入來源或內部資料庫可能無法充分支援或驗證 AI 系統回應中提及的事實。 在這種情況下,模型的產生答案只能單獨以其預先定型的知識為基礎,這可能不符合指定輸入的特定內容或領域
  • Scale \(規模\):
    • 1 =「無根據」:表示輸入來源或內部資料庫無法驗證回應。
    • 5 =「完美根據性」:表示 AI 系統回應中涵蓋的事實可由輸入來源或內部資料庫驗證。

相關性

相關性計量會測量模型所產生回應的相關程度,且與指定的問題直接相關。 當使用者與生成式 AI 模型互動時,他們會提出問題或輸入提示,預期產生有意義且內容適當的答案。

  • 使用時機:您想要達到應用程式答案的高相關性,以增強您的生成式 AI 系統的使用者體驗和公用程式。
  • 如何閱讀:答案在能夠從有根據事實來源的內容中擷取問題的關鍵點方面進行評分。 如果模型的答案高度相關,表示 AI 系統會理解輸入,而且可以產生一致且內容適當的輸出。 相反地,低相關性分數表示產生的回應可能偏離主題、缺乏內容,或無法充分解決使用者預期的查詢。  
  • Scale \(規模\):
    • 1 =「不相關」表示產生的回應可能偏離主題、缺乏內容,或無法充分解決使用者預期的查詢。  
    • 5 =「完美相關」表示內容適當輸出。

連貫性

連貫性會評估語言模型以順暢流動、自然閱讀,以及類似人類語言的方式產生輸出的程度。 Bot 如何以簡短且清楚的方式傳達其訊息,使用簡單且適當的語言,並避免不必要的或混淆的資訊? 使用者了解並遵循 Bot 回應有多容易,以及回應是否符合使用者的需求和期望?

  • 使用時機:您想要測試模型產生的回應在真實世界應用程式中的可讀性以及對使用者的友善程度。
  • 如何閱讀:如果模型的答案高度連貫,則表示 AI 系統會產生平順且結構良好的文字且轉換順暢。 整個文字中的一致內容可增強可讀性和理解性。 低連貫性表示模型預測答案中的句子品質不佳,而且不會自然地結合在一起。 產生的文字可能缺乏邏輯流程,而且句子可能會脫節,因此讀者很難了解整體內容或預期訊息。 答案會以清楚、簡潔、適當的語言,以及符合已定義使用者需求和期望的能力來評分
  • Scale \(規模\):
    • 1 =「不連貫」:表示模型預測答案中的句子品質不佳,而且不會自然地結合在一起。 產生的文字可能缺乏邏輯流程,而且句子可能會脫節,因此讀者很難了解整體內容或預期訊息。
    • 5 =「完美連貫」:表示 AI 系統產生平順且結構良好的文字,具整段文字有順暢的轉換和一致的內容,以增強可讀性和理解性。

流暢度

流暢度會評估生成式 AI 預測答案的語言能力。 會評估產生的文字遵守文法規則、語法結構,以及詞彙適當使用方式的程度,從而產生語言正確和聽起來很自然的回應。 答案會以個別句子的品質,以及其是否正確撰寫和文法正確來衡量。 評估語言模型產生符合適當文法、語法和詞彙使用方式的文字能力時,此計量相當重要。

  • 使用時機:您想要評估生成式 AI 預測答案的文法和語言正確性。
  • 如何閱讀:如果模型的答案高度連貫,則表示 AI 系統遵循文法規則並使用適當的詞彙。 整個文字中的一致內容可增強可讀性和理解性。 相反地,低流暢度分數表示有文法錯誤和怪異措辭的掙扎,使文字不太適合實際應用。  
  • Scale \(規模\):
    • 1 =「停頓」表示有文法錯誤和怪異措辭的掙扎,使文字不太適合實際應用。  
    • 5 =「完美流暢度」表示 AI 系統遵循文法規則,並使用適當的詞彙。 整個文字中的一致內容可增強可讀性和理解性。

相似性

相似度會量化有根據事實句子 (或文件) 與 AI 模型所產生預測句子之間的相似度。 其計算方式是先計算有根據事實和模型預測的句子層級內嵌。 這些內嵌代表句子的高維度向量表示法,擷取其語意意義和內容。

  • 使用時機:您想要客觀評估 AI 模型的效能 (適用於可存取有根據真實所需回應的文字產生工作)。 Ada 相似度可讓您比較產生的文字與所需的內容。
  • 如何閱讀:答案會藉由擷取與指定問題的有根據事實答案相同的資訊和意義,對與有根據事實答案的相等程度進行評分。 高 Ada 相似度分數表示模型的預測與有根據事實內容類似,表示正確且相關的結果。 相反地,低 Ada 相似度分數表示預測與實際有根據事實之間的不符或分歧,可能表示模型效能的不準確或缺陷。
  • Scale \(規模\):
    • 1 =「不相等」表示預測與實際有根據事實之間的不符或分歧,可能表示模型效能的不準確或缺陷。
    • 5 =「完美相等」表示模型的預測與有根據事實內容類似,表示正確且相關的結果。

下一步