步骤 3. 通过利益干系人反馈策展评估集

突出显示了评估集的工作流

有关本部分中的示例代码,请参阅 GitHub 存储库

预期时间:10-60 分钟。 时间因利益干系人提供的回复质量而异。 如果回复混乱或包含大量无关的询问,则需要花费更多时间筛选和清理数据。

概述和预期结果

此步骤将启动评估集,其中包含利益干系人通过评审应用提供的反馈。 请注意,你可以仅通过问题来启动评估集,因此,即使利益干系人只与应用聊天并非提供反馈,也可以执行此步骤。

有关代理评估评估集的架构,请参阅 代理评估输入架构。 本部分的其余部分引用了此架构中的字段。

在此步骤结束时,你将获得包含以下项的评估集:

  • 具有大拇指向上标志 👍 的请求:
    • request:由用户输入。
    • expected_response:由用户编辑的回复。 如果用户未编辑回复,则显示由模型生成的回复。
  • 具有大拇指向下标志 👎 的请求:
    • request:由用户输入。
    • expected_response:由用户编辑的回复。 如果用户未编辑回复,则回复为 null。
  • 无反馈的请求(无大拇指向上标志 👍,也无大拇指向下标志 👎)
    • request:由用户输入。

对于所有请求,如果用户对于从 retrieved_context 中的某个区块选择大拇指向上标志 👍,则则该区块的 doc_uri 将包含在问题的 expected_retrieved_context 中。

重要

Databricks 建议评估集至少包含 30 个问题。 阅读评估集深入探讨,详细了解什么是“好”的评估集。

要求

  • 利益干系人已使用 POC 并提供反馈。
  • 上述步骤中的所有要求。

说明

  1. 打开 04_create_evaluation_set 笔记本,然后单击“全部运行”。
  2. 检查评估集以了解包含的数据。 你需要验证评估集是否包含一组具有代表性且具有挑战性的问题。 根据需要调整评估集。
  3. 默认情况下,评估集将保存到 00_global_config 笔记本EVALUATION_SET_FQN 中配置的 Delta 表。

下一步

有了评估集后,即可使用它来评估 POC 应用的质量、成本和延迟。 请参阅步骤 4.评估 POC 的质量

< 上一步:步骤 2。部署 POC 并收集反馈

下一步:步骤 4。评估 POC 质量 >