步骤 3. 通过利益干系人反馈策展评估集
有关本部分中的示例代码,请参阅 GitHub 存储库。
预期时间:10-60 分钟。 时间因利益干系人提供的回复质量而异。 如果回复混乱或包含大量无关的询问,则需要花费更多时间筛选和清理数据。
概述和预期结果
此步骤将启动评估集,其中包含利益干系人通过评审应用提供的反馈。 请注意,你可以仅通过问题来启动评估集,因此,即使利益干系人只与应用聊天并非提供反馈,也可以执行此步骤。
有关代理评估评估集的架构,请参阅 代理评估输入架构。 本部分的其余部分引用了此架构中的字段。
在此步骤结束时,你将获得包含以下项的评估集:
- 具有大拇指向上标志 👍 的请求:
request
:由用户输入。expected_response
:由用户编辑的回复。 如果用户未编辑回复,则显示由模型生成的回复。
- 具有大拇指向下标志 👎 的请求:
request
:由用户输入。expected_response
:由用户编辑的回复。 如果用户未编辑回复,则回复为 null。
- 无反馈的请求(无大拇指向上标志 👍,也无大拇指向下标志 👎)
request
:由用户输入。
对于所有请求,如果用户对于从 retrieved_context
中的某个区块选择大拇指向上标志 👍,则则该区块的 doc_uri
将包含在问题的 expected_retrieved_context
中。
重要
Databricks 建议评估集至少包含 30 个问题。 阅读评估集深入探讨,详细了解什么是“好”的评估集。
要求
- 利益干系人已使用 POC 并提供反馈。
- 上述步骤中的所有要求。
说明
- 打开 04_create_evaluation_set 笔记本,然后单击“全部运行”。
- 检查评估集以了解包含的数据。 你需要验证评估集是否包含一组具有代表性且具有挑战性的问题。 根据需要调整评估集。
- 默认情况下,评估集将保存到 00_global_config 笔记本的
EVALUATION_SET_FQN
中配置的 Delta 表。
下一步
有了评估集后,即可使用它来评估 POC 应用的质量、成本和延迟。 请参阅步骤 4.评估 POC 的质量。