步驟 5: 找出品質問題的根本原因
如需本節中的範例程式碼,請參閱 GitHub 存放庫。
預期時間:60 分鐘。
需求
- POC 的評估結果可在 MLflow 中找到。 如果您已遵循步驟 4。評估 POC 的品質,結果可在 MLflow 中使用。
- 先前步驟的所有需求。
概觀
品質問題最可能的根本原因是擷取和產生步驟。 若要先判斷焦點的位置,請使用您在上一個步驟中執行的 Mosaic AI 代理程式評估 LLM 評委輸出,找出影響您應用程式品質的最頻繁根本原因。
評估集的每個資料列都會標記如下:
- 整體評定:通過或失敗。
- 根本原因:
Improve Retrieval
或Improve Generation
。 - 根本原因理由:簡短描述選取根本原因的原因。
指示
此方法取決於您的評估集是否包含問題的基礎性回覆。 這些回覆會儲存在 expected_response
中。 如果您已有 expected_response
可用,請使用資料表根本原因分析,如果有基準真相可用。 否則,請使用資料表根本原因分析,如果無法使用基準真相。
- 開啟 B_quality_iteration/01_root_cause_quality_issues 筆記本。
- 執行與您使用案例相關的儲存格,例如,如果您執行或沒有 expected_response
- 檢閱輸出資料表,以判斷應用程式中最常見的根本原因
- 針對每個根本原因,請遵循下列步驟來進一步偵錯並識別潛在的修正:
如果基準真相可用,根本原因分析
注意
如果您已經為每個問題擷取了人為標記的基準真相文件,您可以選擇用 retrieval/ground_truth/document_recall/average
的分數來取代 retrieval/llm_judged/chunk_relevance/precision/average
的分數。
區塊相關性精確度 | 根據性 | 正確性 | 與查詢的相關性 | 問題摘要 | 根本原因 | 整體評分 |
---|---|---|---|---|---|---|
<50% | 失敗 | 失敗 | 失敗 | 擷取很差。 | Improve Retrieval |
失敗 |
<50% | 失敗 | 失敗 | 通過 | LLM 會產生相關的回覆,但擷取很差。 例如,LLM 會忽略擷取,並使用其訓練知識來回答。 | Improve Retrieval |
失敗 |
<50% | 失敗 | 通過 | 通過或失敗 | 擷取品質很差,但 LLM 無論怎樣,都能得到正確的答案。 | Improve Retrieval |
失敗 |
<50% | 通過 | 失敗 | 失敗 | 回覆是以擷取為基礎,但擷取不佳。 | Improve Retrieval |
失敗 |
<50% | 通過 | 失敗 | 通過 | 已擷取內容中的相關回覆,但擷取可能與預期的答案無關。 | Improve Retrieval |
失敗 |
<50% | 通過 | 通過 | 通過或失敗 | 擷取會尋找足夠的資訊,讓 LLM 正確回答。 | 無 | 通過 |
>50% | 失敗 | 失敗 | 通過或失敗 | 幻覺。 | Improve Generation |
失敗 |
>50% | 失敗 | 通過 | 通過或失敗 | 幻覺,正確,但會產生不在內容中的詳細資料。 | Improve Generation |
失敗 |
>50% | 通過 | 失敗 | 失敗 | 良好的擷取,但 LLM 不提供相關的回覆。 | Improve Generation |
失敗 |
>50% | 通過 | 失敗 | 通過 | 良好的擷取和相關回覆,但不正確。 | Improve Generation |
失敗 |
>50% | 通過 | 通過 | 通過 | 沒有問題。 | 無 | 通過 |
無法使用基準真相的根本原因分析
區塊相關性精確度 | 根據性 | 與查詢的相關性 | 問題摘要 | 根本原因 | 整體評分 |
---|---|---|---|---|---|
<50% | 失敗 | 失敗 | 擷取品質不佳。 | Improve Retrieval |
失敗 |
<50% | 失敗 | 通過 | 擷取品質不佳。 | Improve Retrieval |
失敗 |
<50% | 通過 | 失敗 | 回覆是以擷取為基礎,但擷取不佳。 | Improve Retrieval |
失敗 |
<50% | 通過 | 通過 | 以擷取的內容和相關內容為根據的相關回覆,但擷取很差。 | Improve Retrieval |
通過 |
>50% | 失敗 | 失敗 | 幻覺。 | Improve Generation |
失敗 |
>50% | 失敗 | 通過 | 幻覺。 | Improve Generation |
失敗 |
>50% | 通過 | 失敗 | 良好的擷取和地面,但 LLM 不提供相關的回覆。 | Improve Generation |
失敗 |
>50% | 通過 | 通過 | 良好的擷取和相關回覆。 收集基準真相,以瞭解答案是否正確。 | 無 | 通過 |
後續步驟
請參閱下列頁面來偵錯您所識別的問題: