步骤 5。 确定质量问题的根本原因
有关本部分中的示例代码,请参阅 GitHub 存储库。
预期时间:60 分钟。
要求
- POC 的评估结果在 MLflow 中可用。 如果遵循了步骤 4。评估 POC 的质量,结果可在 MLflow 中使用。
- 上述步骤中的所有要求。
概述
质量问题最可能的根本原因是检索和生成步骤。 若要确定首先关注的位置,请使用在上一步中运行的马赛克 AI 代理评估 LLM 评委的输出来确定影响应用质量的、出现次数最频繁的根本原因。
评估集的每一行都按如下所示进行标记:
- “总体评估”:成功或失败。
- 根本原因:
Improve Retrieval
或Improve Generation
。 - 根本原因理由:简要说明选择某根本原因的理由。
说明
方法取决于评估集是否包含对问题的基础性响应。 这些响应存储在 expected_response
中。 如果 expected_response
可用,请使用表根本原因分析(如果有基本事实可用)。 否则,使用表,根本原因分析(如果基本事实不可用)。
- 打开 B_quality_iteration/01_root_cause_quality_issues 笔记本。
- 运行与用例相关的单元格,例如,是否有 expected_response
- 查看输出 tables 以确定应用程序中最常见的根本原因
- 对于每个根本原因,请按照以下步骤进一步调试和识别潜在的修补程序:
如果基本事实可用的根本原因分析
注意
如果你有人为标记的地实,应该为每个问题检索文档,则可以选择将 retrieval/llm_judged/chunk_relevance/precision/average
替换为 retrieval/ground_truth/document_recall/average
的分数。
区块相关性精度 | 真实性 | 正确性 | 与查询的相关性 | 问题摘要 | 根本原因 | 总体评级 |
---|---|---|---|---|---|---|
<50% | 失败 | 失败 | 失败 | 检索不佳。 | Improve Retrieval |
失败 |
<50% | 失败 | 失败 | 通过 | LLM 会生成相关的响应,但检索不佳。 例如,LLM 会忽略检索,并使用其训练知识来回答。 | Improve Retrieval |
失败 |
<50% | 失败 | 通过 | 成功或失败 | 检索质量不佳,但 LLM 无论如何都能得到正确的答案。 | Improve Retrieval |
失败 |
<50% | 通过 | 失败 | 失败 | 响应以检索为基础,但检索不佳。 | Improve Retrieval |
失败 |
<50% | 通过 | 失败 | 通过 | 在检索的上下文中提供的相关响应,但检索可能与预期答案无关。 | Improve Retrieval |
失败 |
<50% | 通过 | 通过 | 成功或失败 | 检索可找到足够的信息,以便 LLM 正确回答。 | 无 | 通过 |
>50% | 失败 | 失败 | 成功或失败 | 幻觉。 | Improve Generation |
失败 |
>50% | 失败 | 通过 | 成功或失败 | 幻觉,正确,但生成的详细信息不符合上下文。 | Improve Generation |
失败 |
>50% | 通过 | 失败 | 失败 | 良好的检索,但 LLM 未提供相关的响应。 | Improve Generation |
失败 |
>50% | 通过 | 失败 | 通过 | 良好的检索和相关响应,但不正确。 | Improve Generation |
失败 |
>50% | 通过 | 通过 | 通过 | 没有问题。 | 无 | 通过 |
如果地基本事实不可用的根本原因分析
区块相关性精度 | 真实性 | 与查询的相关性 | 问题摘要 | 根本原因 | 总体评级 |
---|---|---|---|---|---|
<50% | 失败 | 失败 | 检索质量不佳。 | Improve Retrieval |
失败 |
<50% | 失败 | 通过 | 检索质量不佳。 | Improve Retrieval |
失败 |
<50% | 通过 | 失败 | 响应以检索为基础,但检索不佳。 | Improve Retrieval |
失败 |
<50% | 通过 | 通过 | 相关响应位于检索的上下文中且相关,但检索不佳。 | Improve Retrieval |
通过 |
>50% | 失败 | 失败 | 幻觉。 | Improve Generation |
失败 |
>50% | 失败 | 通过 | 幻觉。 | Improve Generation |
失败 |
>50% | 通过 | 失败 | 良好的检索并有事实依据,但 LLM 未提供相关的响应。 | Improve Generation |
失败 |
>50% | 通过 | 通过 | 良好的检索和相关响应。 收集基本事实,以了解答案是否正确。 | 无 | 通过 |
下一步
请参阅以下页面来调试你发现的问题: