步骤 5。 确定质量问题的根本原因

突出显示迭代步骤的工作流

有关本部分中的示例代码,请参阅 GitHub 存储库

预期时间:60 分钟。

要求

  • POC 的评估结果在 MLflow 中可用。 如果遵循了步骤 4。评估 POC 的质量,结果可在 MLflow 中使用。
  • 上述步骤中的所有要求。

概述

质量问题最可能的根本原因是检索和生成步骤。 若要确定首先关注的位置,请使用在上一步中运行的马赛克 AI 代理评估 LLM 评委的输出来确定影响应用质量的、出现次数最频繁的根本原因。

评估集的每一行都按如下所示进行标记:

  • “总体评估”:成功或失败。
  • 根本原因Improve RetrievalImprove Generation
  • 根本原因理由:简要说明选择某根本原因的理由。

说明

方法取决于评估集是否包含对问题的基础性响应。 这些响应存储在 expected_response 中。 如果 expected_response 可用,请使用表根本原因分析(如果有基本事实可用)。 否则,使用表,根本原因分析(如果基本事实不可用)

  1. 打开 B_quality_iteration/01_root_cause_quality_issues 笔记本
  2. 运行与用例相关的单元格,例如,是否有 expected_response
  3. 查看输出 tables 以确定应用程序中最常见的根本原因
  4. 对于每个根本原因,请按照以下步骤进一步调试和识别潜在的修补程序:

如果基本事实可用的根本原因分析

注意

如果你有人为标记的地实,应该为每个问题检索文档,则可以选择将 retrieval/llm_judged/chunk_relevance/precision/average 替换为 retrieval/ground_truth/document_recall/average的分数。

区块相关性精度 真实性 正确性 与查询的相关性 问题摘要 根本原因 总体评级
<50% 失败 失败 失败 检索不佳。 Improve Retrieval 失败
<50% 失败 失败 通过 LLM 会生成相关的响应,但检索不佳。 例如,LLM 会忽略检索,并使用其训练知识来回答。 Improve Retrieval 失败
<50% 失败 通过 成功或失败 检索质量不佳,但 LLM 无论如何都能得到正确的答案。 Improve Retrieval 失败
<50% 通过 失败 失败 响应以检索为基础,但检索不佳。 Improve Retrieval 失败
<50% 通过 失败 通过 在检索的上下文中提供的相关响应,但检索可能与预期答案无关。 Improve Retrieval 失败
<50% 通过 通过 成功或失败 检索可找到足够的信息,以便 LLM 正确回答。 通过
>50% 失败 失败 成功或失败 幻觉。 Improve Generation 失败
>50% 失败 通过 成功或失败 幻觉,正确,但生成的详细信息不符合上下文。 Improve Generation 失败
>50% 通过 失败 失败 良好的检索,但 LLM 未提供相关的响应。 Improve Generation 失败
>50% 通过 失败 通过 良好的检索和相关响应,但不正确。 Improve Generation 失败
>50% 通过 通过 通过 没有问题。 通过

如果地基本事实不可用的根本原因分析

区块相关性精度 真实性 与查询的相关性 问题摘要 根本原因 总体评级
<50% 失败 失败 检索质量不佳。 Improve Retrieval 失败
<50% 失败 通过 检索质量不佳。 Improve Retrieval 失败
<50% 通过 失败 响应以检索为基础,但检索不佳。 Improve Retrieval 失败
<50% 通过 通过 相关响应位于检索的上下文中且相关,但检索不佳。 Improve Retrieval 通过
>50% 失败 失败 幻觉。 Improve Generation 失败
>50% 失败 通过 幻觉。 Improve Generation 失败
>50% 通过 失败 良好的检索并有事实依据,但 LLM 未提供相关的响应。 Improve Generation 失败
>50% 通过 通过 良好的检索和相关响应。 收集基本事实,以了解答案是否正确。 通过

下一步

请参阅以下页面来调试你发现的问题:

< 上一步:步骤 4. 评估 POC 质量

下一步:步骤 5.1. 调试检索质量 >