使用 Databricks UI 建立監視
本文示範如何使用 Databricks UI 建立數據監視器。 您也可以使用 API。
若要存取 Databricks UI,請執行下列動作:
程式碼剖析
從 [配置文件類型] 功能表中,選取您要建立的監視器類型。 類型顯示在表格中。
設定檔類型 | 描述 |
---|---|
時間序列配置檔 | 數據表,其中包含經過一段時間測量的值。 此資料表包含時間戳資料行。 |
推斷配置檔 | 數據表,其中包含機器學習分類或回歸模型所輸出的預測值。 下表包含時間戳、模型識別碼、模型輸入(特徵)、包含模型預測的欄,還有包含唯一觀察識別碼和真值標籤的選擇性欄位。 它也可以包含元數據,例如人口統計資訊,不會當做模型的輸入使用,但對於公平性和偏差調查或其他監視可能很有用。 |
快照集配置檔 | 任何 Delta 管理的表格、外部表格、視圖、具現化視圖或流式表。 |
如果您選取 TimeSeries
或 Inference
,則需要其他參數,並會在下列各節中說明。
注意
- 當您第一次建立時間序列或推斷設定檔時,監視器只會分析其建立前 30 天的資料。 建立監視器之後,就會處理所有新資料。
- 具體化檢視和串流數據表上定義的監視器不支援累加處理。
提示
針對 TimeSeries
和 Inference
資料表,最佳做法是在您的表格上啟用更改資料摘要 (CDF)。 啟用CDF時,只會處理新附加的數據,而不是每次重新整理重新處理整個數據表。 如此一來,當您跨多個數據表調整監視規模時,執行會更有效率並降低成本。
TimeSeries
設定檔
TimeSeries
針對設定檔,您必須進行下列選擇:
- 指定 計量數據粒度,以決定如何在時段內分割數據。
- 指定 Timestamp 資料行,此資料行位於包含時間戳的數據表中。 timestamp 欄位的數據類型必須是
TIMESTAMP
,或者是一種可以使用 PySpark 函式to_timestamp
將其轉換為時間戳的類型。
Inference
設定檔
Inference
針對設定檔,除了粒度和時間戳之外,您還必須進行下列選擇:
- 選取 問題類型,可以是分類或回歸。
- 指定 預測資料行,此數據行包含模型的預測值。
- 選擇性地指定 標籤資料列,此資料行包含模型預測的基礎事實。
- 指定 模型標識符數據行,此數據行包含用於預測之模型的標識碼。
排程
若要設定監控以便按排程執行,請選取 [依排程重新整理 ],然後選取要執行監控的頻率和時間。 如果您不想讓監視器自動運行,請選擇 手動重新整理。 如果您手動選取 [
通知
若要設定監視的電子郵件通知,請輸入要通知的電子郵件,然後選取要啟用的通知。 每個通知事件類型最多支援 5 封電子郵件。
一般
在 [ 一般] 區段中,您需要指定一個必要的設定和一些額外的組態選項:
- 您必須指定 Unity 目錄架構,其中會儲存監視器所建立的計量數據表。 位置的格式必須為 {catalog}。{schema}。
您也可以指定下列設定:
Assets 目錄。 輸入現有目錄的絕對路徑,以儲存監視資產,例如產生的儀錶板。 根據預設,資產會儲存在默認目錄中:“/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}”。 如果您在此欄位中輸入不同的位置,則會在您指定的目錄中建立資產 “/{table_name}”。 此目錄可以是工作區中的任何位置。 針對打算在組織內共用的監視器,您可以使用 “/Shared/” 目錄中的路徑。
此欄位不能保留空白。
Unity Catalog 基準資料表名稱。 包含比較基準數據的數據表或檢視表名稱。 如需基準資料表的詳細資訊,請參閱 主要輸入資料表和基準資料表。
計量配量表達式。 切片表達式允許您在監控整個數據表的同時,定義數據表的子集。 若要建立配量表示式,請按兩下 [新增運算式 ],然後輸入表達式定義。 例如,運算式
"col_2 > 10"
會產生兩個配量:一個用於col_2 > 10
,另一個用於col_2 <= 10
。 在另一個例子中,表達式"col_1"
將會針對col_1
中的每個唯一值生成一個切片。 數據會依每個表達式個別分組,產生每個述詞及其補碼的個別配量。自訂計量。 自定義計量會出現在計量數據表中,就像任何內建計量一樣。 如需詳細資訊,請參閱 搭配 Databricks Lakehouse 監視使用自定義計量。 若要設定自定義計量,請按兩下 [ 新增自訂計量]。
- 輸入自訂計量的 [名稱]。
- 選取自定義計量 Type、
Aggregate
、Derived
或Drift
之一。 如需定義,請參閱 自定義計量的類型。 - 從 輸入資料行的下拉式清單中,選擇要套用度量指標的資料行。
- 在 [輸出類型] 欄位中,選取計量的 Spark 資料類型。
- 在 [ 定義 ] 欄位中,輸入定義自訂計量的 SQL 程式代碼。
編輯UI中的監視設定
建立監視器之後,您可以按兩下 [品質] 索引標籤上的 [編輯監視器組態] 按鈕,變更監視器的設定。
重新整理和檢視 UI 中的監視結果
若要手動執行監視器,請按下 重新整理度量。
如需儲存在監視計量資料表中統計資料的相關信息,請參閱 監視計量資料表。 計量數據表是 Unity 目錄數據表。 您可以在筆記本或 SQL 查詢總管中查詢它們,並在目錄總管中檢視它們。
控制監視輸出的存取
監視器所建立的計量數據表和儀錶板是由建立監視器的用戶所擁有。 您可以使用 Unity 目錄權限來控制計量資料表的存取權。 若要在工作區內共用儀錶板,請按下 儀錶板右上角的 [共用 ] 按鈕。
從 UI 刪除監視器
若要從 UI 刪除監視器,請按下 [