在 Genie 空间中使用基准

项目
09/25/2024

重要

此功能目前以公共预览版提供。

本文介绍如何使用基准来评估 Genie 空间的准确度。

利用基准测试，可以创建一组测试问题，通过这些问题来评估 Genie 的总体响应准确度。一组合理设计的基准，涵盖最常见的用户问题，有助于在优化 Genie 空间时评估其准确度。

示例基准在报告的许多问题上都具有一定的准确度。

添加基准问题

基准问题应反映用户所提出常见问题的不同措辞方式。可以使用它们来检查 Genie 对问题措辞或不同问题格式的响应。

创建基准问题时，可以有选择地包含结果集为正确答案的 SQL 查询。在基准运行过程中，可以通过将 SQL 查询的结果集与 Genie 生成的结果集进行比较，来评估准确度。

若要添加基准问题，请执行以下步骤：

在 Genie 空间中单击左侧边栏中的。
单击“问题”选项卡，然后单击“添加基准”。
在“问题”字段中，输入要测试的基准问题。
（可选）输入准确回答你输入的问题的 SQL 语句。

注意

我们建议你执行此步骤。只有包含此示例 SQL 语句的问题才能自动评估准确度。不包含 SQL 答案的任何问题都需要手动评审才能评分。
（可选）单击“预览”以运行查询并查看结果。
完成编辑后，单击“添加基准”。
若要在保存后更新问题，请单击铅笔图标以打开“更新问题”对话框。

使用基准来测试替代问题措辞

评估 Genie 空间的准确度时，必须让测试结构化以反映真实场景，这一点非常重要。用户可能以不同的方式提出相同的问题。 Databricks 建议添加同一问题的多个措辞，并在基准测试中使用同一示例 SQL 来全面评估准确度。大多数 Genie 空间应该包括同一问题的 2 - 4 个措辞。

运行基准问题

在 Genie 空间中至少具有 CAN EDIT 权限的用户可以随时创建基准运行，它将自动评估所有基准问题。若要评估每个基准问题，我们首先要将问题提交到 Genie，然后将 Genie 结果与基准进行比较。以下标签之一应用于每个基准：

良好：Genie 生成的查询结果与提供的 SQL 答案的结果进行匹配，响应将标记此标签。当响应标记为“良好”时，意味着行值完全匹配，而不考虑排序顺序或列名。
需要审阅：当 Genie 无法评估正确性，或 Genie 生成的查询结果与提供的 SQL 答案的结果不匹配时，响应将标记此标签。如果生成的响应或提供的 SQL 答案中的表维度出现意外更改，则可能会加上审阅标记。任何不包含 SQL 答案的基准问题必须进行人工审阅。
错误：响应从不会自动标记为“错误”。如果 Genie 生成的查询结果与提供的 SQL 答案的结果集不匹配，问题将标记为“需要审阅”。审阅这些基准时，如果你不认为 Genie 生成的查询结果回答了问题，可将结果标记为“错误”。

若要运行所有基准问题，请执行以上操作：

单击屏幕左侧附近的 Genie 空间边栏中的基准。
单击“运行基准”开始测试运行。

注意

如果关闭此页面，则基准测试会自动暂停。在重新打开页面时，可以继续测试。

访问基准评估

你可以访问所有基准评估，以跟踪 Genie 空间在一段时间内的准确度。单击 Genie 空间的左侧边栏中时，评估运行的时间戳列表将显示在“评估”选项卡中。如果未找到评估运行，请参阅添加基准问题或运行基准问题。

评估屏幕，如以下文本中所述。

评估选项卡显示评估的概述及其性能，分为以下类别进行报告：

评估名称：一个时间戳，指示评估运行何时发生。单击时间戳可查看该评估的详细信息。 执行状态：指示评估是否已完成、暂停或失败。如果评估运行包含没有预定义 SQL 答案的基准问题，则在此列中加上审阅标记。 准确度：对所有基准问题的准确度进行数值评估。对于需要手动审阅的评估运行，仅在审阅这些问题之后，才会显示准确度度量值。 创建者：指示运行评估的用户的名称。

查看各个评估

可以查看各个评估，以便详细查看每项响应。可以编辑任何问题的评估，并更新需要人工审阅的任何项目。

要查看各个评估：

单击屏幕左侧附近的 Genie 空间边栏中的基准。
单击“评估名称”列中的任何评估的时间戳，以打开该测试运行的详细视图。
单击屏幕左侧附近的问题可查看相关详细信息。使用评估详细信息屏幕来执行后续步骤。
查看模型输出响应，并将其与基本事实响应进行比较。

注意

这些响应的结果显示在评估详细信息中，持续一周时间。一周后，结果不再可见。生成的 SQL 语句和示例 SQL 语句保持不变。
单击标签上的以编辑评估。

将每个结果标记为“良好”或“错误”，以获取此评估的准确分数。

通过