步骤 3. 通过利益干系人反馈策展评估集

突出显示了评估集的工作流

有关本部分中的示例代码，请参阅 GitHub 存储库。

预期时间：10-60 分钟。时间因利益干系人提供的回复质量而异。如果回复混乱或包含大量无关的询问，则需要花费更多时间筛选和清理数据。

概述和预期结果

此步骤将启动评估集，其中包含利益干系人通过评审应用提供的反馈。请注意，你可以仅通过问题来启动评估集，因此，即使利益干系人只与应用聊天并非提供反馈，也可以执行此步骤。

有关代理评估评估集的架构，请参阅代理评估输入架构。本部分的其余部分引用了此架构中的字段。

在此步骤结束时，你将获得包含以下项的评估集：

具有大拇指向上标志 👍 的请求：
- request：由用户输入。
- expected_response：由用户编辑的回复。如果用户未编辑回复，则显示由模型生成的回复。
具有大拇指向下标志 👎 的请求：
- request：由用户输入。
- expected_response：由用户编辑的回复。如果用户未编辑回复，则回复为 null。
无反馈的请求（无大拇指向上标志 👍，也无大拇指向下标志 👎）
- request：由用户输入。

对于所有请求，如果用户对于从 👍 中的某个区块选择大拇指向上标志 retrieved_context，则则该区块的 doc_uri 将包含在问题的 expected_retrieved_context 中。

重要

Databricks 建议评估集至少包含 30 个问题。阅读评估集深入探讨，详细了解什么是“好”的评估集。

有了评估集后，即可使用它来评估 POC 应用的质量、成本和延迟。请参阅步骤 4.评估 POC 的质量。