共用方式為


使用 Databricks UI 建立監視

本文示範如何使用 Databricks UI 建立數據監視器。 您也可以使用 API

若要存取 Databricks UI,請執行下列動作:

  1. 在工作區左側提要欄位中,按兩下 目錄圖示 開啟目錄總管
  2. 流覽至您想要監視的數據表。
  3. 按兩下 [品質] 索引標籤。
  4. 按兩下 [開始使用] 按鈕
  5. [建立監視器]中,選擇您想要設定監視器的選項。

程式碼剖析

從 [配置文件類型] 功能表中,選取您要建立的監視器類型。 類型顯示在表格中。

設定檔類型 描述
時間序列配置檔 數據表,其中包含經過一段時間測量的值。 此資料表包含時間戳資料行。
推斷配置檔 數據表,其中包含機器學習分類或回歸模型所輸出的預測值。 下表包含時間戳、模型識別碼、模型輸入(特徵)、包含模型預測的欄,還有包含唯一觀察識別碼和真值標籤的選擇性欄位。 它也可以包含元數據,例如人口統計資訊,不會當做模型的輸入使用,但對於公平性和偏差調查或其他監視可能很有用。
快照集配置檔 任何 Delta 管理的表格、外部表格、視圖、具現化視圖或流式表。

如果您選取 TimeSeriesInference,則需要其他參數,並會在下列各節中說明。

注意

  • 當您第一次建立時間序列或推斷設定檔時,監視器只會分析其建立前 30 天的資料。 建立監視器之後,就會處理所有新資料。
  • 具體化檢視和串流數據表上定義的監視器不支援累加處理。

提示

針對 TimeSeriesInference 資料表,最佳做法是在您的表格上啟用更改資料摘要 (CDF)。 啟用CDF時,只會處理新附加的數據,而不是每次重新整理重新處理整個數據表。 如此一來,當您跨多個數據表調整監視規模時,執行會更有效率並降低成本。

TimeSeries 設定檔

TimeSeries針對設定檔,您必須進行下列選擇:

  • 指定 計量數據粒度,以決定如何在時段內分割數據。
  • 指定 Timestamp 資料行,此資料行位於包含時間戳的數據表中。 timestamp 欄位的數據類型必須是 TIMESTAMP,或者是一種可以使用 PySpark 函式 to_timestamp將其轉換為時間戳的類型。

Inference 設定檔

Inference針對設定檔,除了粒度和時間戳之外,您還必須進行下列選擇:

  • 選取 問題類型,可以是分類或回歸。
  • 指定 預測資料行,此數據行包含模型的預測值。
  • 選擇性地指定 標籤資料列,此資料行包含模型預測的基礎事實。
  • 指定 模型標識符數據行,此數據行包含用於預測之模型的標識碼。

排程

若要設定監控以便按排程執行,請選取 [依排程重新整理 ],然後選取要執行監控的頻率和時間。 如果您不想讓監視器自動運行,請選擇 手動重新整理。 如果您手動選取 [重新整理],您可以稍後從 [Quality] 索引卷標重新整理計量。

通知

若要設定監視的電子郵件通知,請輸入要通知的電子郵件,然後選取要啟用的通知。 每個通知事件類型最多支援 5 封電子郵件。

一般

在 [ 一般] 區段中,您需要指定一個必要的設定和一些額外的組態選項:

  • 您必須指定 Unity 目錄架構,其中會儲存監視器所建立的計量數據表。 位置的格式必須為 {catalog}。{schema}。

您也可以指定下列設定:

  • Assets 目錄。 輸入現有目錄的絕對路徑,以儲存監視資產,例如產生的儀錶板。 根據預設,資產會儲存在默認目錄中:“/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}”。 如果您在此欄位中輸入不同的位置,則會在您指定的目錄中建立資產 “/{table_name}”。 此目錄可以是工作區中的任何位置。 針對打算在組織內共用的監視器,您可以使用 “/Shared/” 目錄中的路徑。

    此欄位不能保留空白。

  • Unity Catalog 基準資料表名稱。 包含比較基準數據的數據表或檢視表名稱。 如需基準資料表的詳細資訊,請參閱 主要輸入資料表和基準資料表

  • 計量配量表達式。 切片表達式允許您在監控整個數據表的同時,定義數據表的子集。 若要建立配量表示式,請按兩下 [新增運算式 ],然後輸入表達式定義。 例如,運算式 "col_2 > 10" 會產生兩個配量:一個用於 col_2 > 10 ,另一個用於 col_2 <= 10。 在另一個例子中,表達式 "col_1" 將會針對 col_1中的每個唯一值生成一個切片。 數據會依每個表達式個別分組,產生每個述詞及其補碼的個別配量。

  • 自訂計量。 自定義計量會出現在計量數據表中,就像任何內建計量一樣。 如需詳細資訊,請參閱 搭配 Databricks Lakehouse 監視使用自定義計量。 若要設定自定義計量,請按兩下 [ 新增自訂計量]。

    • 輸入自訂計量的 [名稱]。
    • 選取自定義計量 TypeAggregateDerivedDrift之一。 如需定義,請參閱 自定義計量的類型。
    • 輸入資料行的下拉式清單中,選擇要套用度量指標的資料行。
    • 在 [輸出類型] 欄位中,選取計量的 Spark 資料類型。
    • 在 [ 定義 ] 欄位中,輸入定義自訂計量的 SQL 程式代碼。

編輯UI中的監視設定

建立監視器之後,您可以按兩下 [品質] 索引標籤上的 [編輯監視器組態] 按鈕,變更監視器的設定。

重新整理和檢視 UI 中的監視結果

若要手動執行監視器,請按下 重新整理度量

如需儲存在監視計量資料表中統計資料的相關信息,請參閱 監視計量資料表。 計量數據表是 Unity 目錄數據表。 您可以在筆記本或 SQL 查詢總管中查詢它們,並在目錄總管中檢視它們。

控制監視輸出的存取

監視器所建立的計量數據表和儀錶板是由建立監視器的用戶所擁有。 您可以使用 Unity 目錄權限來控制計量資料表的存取權。 若要在工作區內共用儀錶板,請按下 儀錶板右上角的 [共用 ] 按鈕。

從 UI 刪除監視器

若要從 UI 刪除監視器,請按下 [重新整理計量] 按鈕旁的 kebab 功能表,然後選取 [刪除監視器]