使用 Databricks UI 创建监视器

本文演示如何使用 Databricks UI 创建数据监视器。 此外,也可以使用 API

若要访问 Databricks UI,请执行以下操作:

  1. 在工作区左侧边栏中,单击 “目录”图标打开目录资源管理器
  2. 导航到要监视的表。
  3. 单击“质量”选项卡。
  4. 单击“入门”按钮。
  5. 在“创建监视器”中,选择要设置监视器的选项。

分析

从“配置文件类型”菜单中,选择要创建的监视器类型。 下表显示了配置文件类型。

配置文件类型 说明
时序配置文件 包含一段时间内测量的值的表。 此表包含一个时间戳列。
推理配置文件 包含机器学习分类或回归模型输出的预测值的表。 此表包括时间戳、模型 ID、模型输入(特征)、包含模型预测的列,以及包含唯一观察 ID 和基本事实标签的可选列。 它还可以包含元数据(例如,人口统计信息),这些元数据不用作模型的输入,但可用于公平性和偏差调查或其他监视。
快照配置文件 任何增量托管表、外部表、视图、具体化视图或流式处理表。

如果选择 TimeSeriesInference,则需要其他参数,下面的小节将介绍这些参数。

注意

  • 首次创建时序或推理配置文件时,监视器仅分析在创建它之前 30 天内的数据。 监视器在创建后,将处理所有新数据。
  • 具体化视图和流式处理表上定义的监视器不支持增量处理。

提示

对于 TimeSeriesInference 配置文件,最佳做法是启用表上的更改数据馈送 (CDF)。 启用 CDF 后,只会处理新追加的数据,而不是在每次刷新时重新处理整个表。 这使得执行更高效,并在跨多个表缩放监视时降低成本。

TimeSeries 配置文件

对于 TimeSeries 配置文件,必须进行以下选择:

  • 指定用于确定如何跨时间对窗口中的数据进行分区的指标粒度
  • 指定时间戳列,即包含时间戳的表中的列。 时间戳列数据类型必须是 TIMESTAMP 或可以使用 to_timestamp PySpark 函数转换为时间戳的类型。

Inference 配置文件

Inference对于配置文件,除了粒度和时间戳外,还必须进行以下选择:

  • 选择问题类型,即分类或回归。
  • 指定预测列,即包含模型预测值的列。
  • (可选)指定标签列,即包含模型预测基本事实的列。
  • 指定模型 ID 列,即包含用于预测的模型 ID 的列。

计划

若要将监视器设置为按计划运行,请选择“按计划刷新”,然后选择监视器运行的频率和时间。 如果不希望监视器自动运行,请选择“手动刷新”。 如果选择“手动刷新”,则可以稍后从“质量”选项卡刷新指标。

通知

若要为监视器设置电子邮件通知,请输入要通知的电子邮件,并选择要启用的通知。 每个通知事件类型最多支持 5 封电子邮件。

常规

在“常规”部分中,需要指定一个必需的设置和一些其他配置选项:

  • 必须指定存储监视器创建的指标表的 Unity Catalog 架构。 位置必须采用 {catalog}.{schema} 格式。

还可以指定以下设置:

  • 资产目录。 输入用于存储监视资产的现有目录的绝对路径,例如生成的仪表板。 默认情况下,资产将存储在默认目录:"/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}"。 如果在此字段中输入其他位置,则将在你指定的目录中的 "/{table_name}" 下创建资产。 此目录可以位于工作区中的任意位置。 对于计划在组织内共享的监视器,可以使用“/Shared/”目录中的路径。

    此字段不能留空。

  • Unity Catalog 基线表名称。 包含用于比较的基线数据的表或视图的名称。 有关基准表的详细信息,请参阅主输入表和基线表

  • 指标切片表达式。 除了整个表之外,切片表达式还允许你定义要监视的表的子集。 若要创建切片表达式,请单击“添加表达式”并输入表达式定义。 例如,表达式 "col_2 > 10" 生成两个切片:一个用于 col_2 > 10,一个用于 col_2 <= 10。 另举一例,表达式 "col_1" 将为 col_1 中的每个唯一值生成一个切片。 数据按每个表达式独立分组,从而为每个谓词及其补码生成单独的切片。

  • 自定义指标。 与任何内置指标一样,自定义指标也显示在指标表中。 有关详细信息,请参阅将自定义指标与 Databricks 湖屋监视配合使用。 若要配置自定义指标,请单击“添加自定义指标”。

    • 输入自定义指标的名称
    • 选择自定义指标类型,即 AggregateDerivedDrift 之一。 有关定义,请参阅自定义指标的类型
    • 从“输入列”的下拉列表中,选择要应用指标的列。
    • 在“输出类型”字段中,选择指标的 Spark 数据类型。
    • 在“定义”字段中,输入定义自定义指标的 SQL 代码。

在 UI 中编辑监视器设置

创建监视器后,可以通过单击“质量”选项卡上的“编辑监视器配置”按钮来更改监视器的设置。

在 UI 中刷新和查看监视器结果

若要手动运行监视器,请单击“刷新指标”。

有关存储在监视指标表中的统计信息的信息,请参阅监视指标表。 指标表是 Unity Catalog 表。 可以在笔记本或 SQL 查询资源管理器中查询它们,并在目录资源管理器中查看它们。

控制对监视器输出的访问

监视器创建的指标表和仪表板归创建监视器的用户所有。 可以使用 Unity Catalog 特权来控制对指标表的访问。 若要在工作区中共享仪表板,请单击仪表板右上角的“共享”按钮。

从 UI 中删除监视器

若要从 UI 中删除监视器,请单击“刷新指标”按钮旁边的串联菜单,然后选择“删除监视器”。