在 Genie 空间中使用基准

重要

此功能目前以公共预览版提供。

本文介绍如何使用基准来评估 Genie 空间的准确度。

利用基准测试,可以创建一组测试问题,通过这些问题来评估 Genie 的总体响应准确度。 一组合理设计的基准,涵盖最常见的用户问题,有助于在优化 Genie 空间时评估其准确度。

示例基准在报告的许多问题上都具有一定的准确度。

添加基准问题

基准问题应反映用户所提出常见问题的不同措辞方式。 可以使用它们来检查 Genie 对问题措辞或不同问题格式的响应。

创建基准问题时,可以有选择地包含结果集为正确答案的 SQL 查询。 在基准运行过程中,可以通过将 SQL 查询的结果集与 Genie 生成的结果集进行比较,来评估准确度。

若要添加基准问题,请执行以下步骤:

  1. 在 Genie 空间中单击左侧边栏中的 基准图标

  2. 单击“问题”选项卡,然后单击“添加基准”

  3. “问题”字段中,输入要测试的基准问题。

  4. (可选)输入准确回答你输入的问题的 SQL 语句。

    注意

    我们建议你执行此步骤。 只有包含此示例 SQL 语句的问题才能自动评估准确度。 不包含 SQL 答案的任何问题都需要手动评审才能评分。

  5. (可选)单击“预览”以运行查询并查看结果。

  6. 完成编辑后,单击“添加基准”

  7. 若要在保存后更新问题,请单击“编辑”图标铅笔图标以打开“更新问题”对话框。

使用基准来测试替代问题措辞

评估 Genie 空间的准确度时,必须让测试结构化以反映真实场景,这一点非常重要。 用户可能以不同的方式提出相同的问题。 Databricks 建议添加同一问题的多个措辞,并在基准测试中使用同一示例 SQL 来全面评估准确度。 大多数 Genie 空间应该包括同一问题的 2 - 4 个措辞。

运行基准问题

在 Genie 空间中至少具有 CAN EDIT 权限的用户可以随时创建基准运行,它将自动评估所有基准问题。 若要评估每个基准问题,我们首先要将问题提交到 Genie,然后将 Genie 结果与基准进行比较。 以下标签之一应用于每个基准:

  • 良好:Genie 生成的查询结果与提供的 SQL 答案的结果进行匹配,响应将标记此标签。 当响应标记为“良好”时,意味着行值完全匹配,而不考虑排序顺序或列名。
  • 需要审阅:当 Genie 无法评估正确性,或 Genie 生成的查询结果与提供的 SQL 答案的结果不匹配时,响应将标记此标签。 如果生成的响应或提供的 SQL 答案中的表维度出现意外更改,则可能会加上审阅标记。 任何不包含 SQL 答案的基准问题必须进行人工审阅。
  • 错误:响应从不会自动标记为“错误”。 如果 Genie 生成的查询结果与提供的 SQL 答案的结果集不匹配,问题将标记为“需要审阅”。 审阅这些基准时,如果你不认为 Genie 生成的查询结果回答了问题,可将结果标记为“错误”。

若要运行所有基准问题,请执行以上操作:

  1. 单击屏幕左侧附近的 Genie 空间边栏中的基准图标基准
  2. 单击“运行基准”开始测试运行。

注意

如果关闭此页面,则基准测试会自动暂停。 在重新打开页面时,可以继续测试。

访问基准评估

你可以访问所有基准评估,以跟踪 Genie 空间在一段时间内的准确度。 单击基准图标 Genie 空间的左侧边栏中时,评估运行的时间戳列表将显示在“评估”选项卡中。如果未找到评估运行,请参阅添加基准问题运行基准问题

评估屏幕,如以下文本中所述。

评估选项卡显示评估的概述及其性能,分为以下类别进行报告:

评估名称:一个时间戳,指示评估运行何时发生。 单击时间戳可查看该评估的详细信息。 执行状态:指示评估是否已完成、暂停或失败。 如果评估运行包含没有预定义 SQL 答案的基准问题,则在此列中加上审阅标记。 准确度:对所有基准问题的准确度进行数值评估。 对于需要手动审阅的评估运行,仅在审阅这些问题之后,才会显示准确度度量值。 创建者:指示运行评估的用户的名称。

查看各个评估

可以查看各个评估,以便详细查看每项响应。 可以编辑任何问题的评估,并更新需要人工审阅的任何项目。

要查看各个评估:

  1. 单击屏幕左侧附近的 Genie 空间边栏中的基准图标基准

  2. 单击“评估名称”列中的任何评估的时间戳,以打开该测试运行的详细视图。

    显示单个评估运行的结果的屏幕。所有问题都列在左侧。如果适用,则在右侧显示各个问题,另外还显示模型输出和基本事实输出。

  3. 单击屏幕左侧附近的问题可查看相关详细信息。 使用评估详细信息屏幕来执行后续步骤。

  4. 查看模型输出响应,并将其与基本事实响应进行比较。

    注意

    这些响应的结果显示在评估详细信息中,持续一周时间。 一周后,结果不再可见。 生成的 SQL 语句和示例 SQL 语句保持不变。

  5. 单击标签上的 “编辑”图标 以编辑评估。

    将每个结果标记为“良好”“错误”,以获取此评估的准确分数。