共用方式為


步驟 5: 找出品質問題的根本原因

已醒目提示逐一查看步驟的工作流程

如需本節中的範例程式碼,請參閱 GitHub 存放庫

預期時間:60 分鐘。

需求

  • POC 的評估結果可在 MLflow 中找到。 如果您已遵循步驟 4。評估 POC 的品質,結果可在 MLflow 中使用。
  • 先前步驟的所有需求。

概觀

品質問題最可能的根本原因是擷取和產生步驟。 若要先判斷焦點的位置,請使用您在上一個步驟中執行的 Mosaic AI 代理程式評估 LLM 評委輸出,找出影響您應用程式品質的最頻繁根本原因。

評估集的每個資料列都會標記如下:

  • 整體評定:通過或失敗。
  • 根本原因Improve RetrievalImprove Generation
  • 根本原因理由:簡短描述選取根本原因的原因。

指示

此方法取決於您的評估集是否包含問題的基礎性回覆。 這些回覆會儲存在 expected_response 中。 如果您已有 expected_response 可用,請使用資料表根本原因分析,如果有基準真相可用。 否則,請使用資料表根本原因分析,如果無法使用基準真相

  1. 開啟 B_quality_iteration/01_root_cause_quality_issues 筆記本
  2. 執行與您使用案例相關的儲存格,例如,如果您執行或沒有 expected_response
  3. 檢閱輸出資料表,以判斷應用程式中最常見的根本原因
  4. 針對每個根本原因,請遵循下列步驟來進一步偵錯並識別潛在的修正:

如果基準真相可用,根本原因分析

注意

如果您已經為每個問題擷取了人為標記的基準真相文件,您可以選擇用 retrieval/ground_truth/document_recall/average 的分數來取代 retrieval/llm_judged/chunk_relevance/precision/average 的分數。

區塊相關性精確度 根據性 正確性 與查詢的相關性 問題摘要 根本原因 整體評分
<50% 失敗 失敗 失敗 擷取很差。 Improve Retrieval 失敗
<50% 失敗 失敗 通過 LLM 會產生相關的回覆,但擷取很差。 例如,LLM 會忽略擷取,並使用其訓練知識來回答。 Improve Retrieval 失敗
<50% 失敗 通過 通過或失敗 擷取品質很差,但 LLM 無論怎樣,都能得到正確的答案。 Improve Retrieval 失敗
<50% 通過 失敗 失敗 回覆是以擷取為基礎,但擷取不佳。 Improve Retrieval 失敗
<50% 通過 失敗 通過 已擷取內容中的相關回覆,但擷取可能與預期的答案無關。 Improve Retrieval 失敗
<50% 通過 通過 通過或失敗 擷取會尋找足夠的資訊,讓 LLM 正確回答。 通過
>50% 失敗 失敗 通過或失敗 幻覺。 Improve Generation 失敗
>50% 失敗 通過 通過或失敗 幻覺,正確,但會產生不在內容中的詳細資料。 Improve Generation 失敗
>50% 通過 失敗 失敗 良好的擷取,但 LLM 不提供相關的回覆。 Improve Generation 失敗
>50% 通過 失敗 通過 良好的擷取和相關回覆,但不正確。 Improve Generation 失敗
>50% 通過 通過 通過 沒有問題。 通過

無法使用基準真相的根本原因分析

區塊相關性精確度 根據性 與查詢的相關性 問題摘要 根本原因 整體評分
<50% 失敗 失敗 擷取品質不佳。 Improve Retrieval 失敗
<50% 失敗 通過 擷取品質不佳。 Improve Retrieval 失敗
<50% 通過 失敗 回覆是以擷取為基礎,但擷取不佳。 Improve Retrieval 失敗
<50% 通過 通過 以擷取的內容和相關內容為根據的相關回覆,但擷取很差。 Improve Retrieval 通過
>50% 失敗 失敗 幻覺。 Improve Generation 失敗
>50% 失敗 通過 幻覺。 Improve Generation 失敗
>50% 通過 失敗 良好的擷取和地面,但 LLM 不提供相關的回覆。 Improve Generation 失敗
>50% 通過 通過 良好的擷取和相關回覆。 收集基準真相,以瞭解答案是否正確。 通過

後續步驟

請參閱下列頁面來偵錯您所識別的問題: