在 Genie 空间中使用基准
重要
此功能目前以公共预览版提供。
本文介绍如何使用基准来评估 Genie 空间的准确度。
利用基准测试,可以创建一组测试问题,通过这些问题来评估 Genie 的总体响应准确度。 一组合理设计的基准,涵盖最常见的用户问题,有助于在优化 Genie 空间时评估其准确度。
添加基准问题
基准问题应反映用户所提出常见问题的不同措辞方式。 可以使用它们来检查 Genie 对问题措辞或不同问题格式的响应。
创建基准问题时,可以有选择地包含结果集为正确答案的 SQL 查询。 在基准运行过程中,可以通过将 SQL 查询的结果集与 Genie 生成的结果集进行比较,来评估准确度。
若要添加基准问题,请执行以下步骤:
在 Genie 空间中单击左侧边栏中的 。
单击“问题”选项卡,然后单击“添加基准”。
在“问题”字段中,输入要测试的基准问题。
(可选)输入准确回答你输入的问题的 SQL 语句。
注意
我们建议你执行此步骤。 只有包含此示例 SQL 语句的问题才能自动评估准确度。 不包含 SQL 答案的任何问题都需要手动评审才能评分。
(可选)单击“预览”以运行查询并查看结果。
完成编辑后,单击“添加基准”。
若要在保存后更新问题,请单击铅笔图标以打开“更新问题”对话框。
使用基准来测试替代问题措辞
评估 Genie 空间的准确度时,必须让测试结构化以反映真实场景,这一点非常重要。 用户可能以不同的方式提出相同的问题。 Databricks 建议添加同一问题的多个措辞,并在基准测试中使用同一示例 SQL 来全面评估准确度。 大多数 Genie 空间应该包括同一问题的 2 - 4 个措辞。
运行基准问题
在 Genie 空间中至少具有 CAN EDIT 权限的用户可以随时创建基准运行,它将自动评估所有基准问题。 若要评估每个基准问题,我们首先要将问题提交到 Genie,然后将 Genie 结果与基准进行比较。 以下标签之一应用于每个基准:
- 良好:Genie 生成的查询结果与提供的 SQL 答案的结果进行匹配,响应将标记此标签。 当响应标记为“良好”时,意味着行值完全匹配,而不考虑排序顺序或列名。
- 需要审阅:当 Genie 无法评估正确性,或 Genie 生成的查询结果与提供的 SQL 答案的结果不匹配时,响应将标记此标签。 如果生成的响应或提供的 SQL 答案中的表维度出现意外更改,则可能会加上审阅标记。 任何不包含 SQL 答案的基准问题必须进行人工审阅。
- 错误:响应从不会自动标记为“错误”。 如果 Genie 生成的查询结果与提供的 SQL 答案的结果集不匹配,问题将标记为“需要审阅”。 审阅这些基准时,如果你不认为 Genie 生成的查询结果回答了问题,可将结果标记为“错误”。
若要运行所有基准问题,请执行以上操作:
- 单击屏幕左侧附近的 Genie 空间边栏中的基准。
- 单击“运行基准”开始测试运行。
注意
如果关闭此页面,则基准测试会自动暂停。 在重新打开页面时,可以继续测试。
访问基准评估
你可以访问所有基准评估,以跟踪 Genie 空间在一段时间内的准确度。 单击 Genie 空间的左侧边栏中时,评估运行的时间戳列表将显示在“评估”选项卡中。如果未找到评估运行,请参阅添加基准问题或运行基准问题。
评估选项卡显示评估的概述及其性能,分为以下类别进行报告:
评估名称:一个时间戳,指示评估运行何时发生。 单击时间戳可查看该评估的详细信息。 执行状态:指示评估是否已完成、暂停或失败。 如果评估运行包含没有预定义 SQL 答案的基准问题,则在此列中加上审阅标记。 准确度:对所有基准问题的准确度进行数值评估。 对于需要手动审阅的评估运行,仅在审阅这些问题之后,才会显示准确度度量值。 创建者:指示运行评估的用户的名称。
查看各个评估
可以查看各个评估,以便详细查看每项响应。 可以编辑任何问题的评估,并更新需要人工审阅的任何项目。
要查看各个评估:
单击屏幕左侧附近的 Genie 空间边栏中的基准。
单击“评估名称”列中的任何评估的时间戳,以打开该测试运行的详细视图。
单击屏幕左侧附近的问题可查看相关详细信息。 使用评估详细信息屏幕来执行后续步骤。
查看模型输出响应,并将其与基本事实响应进行比较。
注意
这些响应的结果显示在评估详细信息中,持续一周时间。 一周后,结果不再可见。 生成的 SQL 语句和示例 SQL 语句保持不变。
单击标签上的 以编辑评估。
将每个结果标记为“良好”或“错误”,以获取此评估的准确分数。