使用 Databricks UI 建立監視
本文示範如何使用 Databricks UI 建立數據監視器。 您也可以使用 API。
若要存取 Databricks UI,請執行下列動作:
- 在工作區左側提要字段中,按兩下 以開啟 目錄總管。
- 流覽至您想要監視的數據表。
- 按兩下 [品質] 索引標籤。
- 按一下 [開始使用] 按鈕。
- 在 [建立監視器] 中,選擇您想要設定監視器的選項。
程式碼剖析
從 [ 配置檔類型 ] 功能表中,選取您要建立的監視器類型。 配置檔類型會顯示在資料表中。
設定檔類型 | 描述 |
---|---|
時間序列配置檔 | 數據表,其中包含經過一段時間測量的值。 此資料表包含時間戳資料行。 |
推斷配置檔 | 數據表,其中包含機器學習分類或回歸模型所輸出的預測值。 下表包含時間戳、模型標識碼、模型輸入(特徵)、包含模型預測的數據行,以及包含唯一觀察標識碼和地面真相卷標的選擇性數據行。 它也可以包含元數據,例如人口統計資訊,不會當做模型的輸入使用,但對於公平性和偏差調查或其他監視可能很有用。 |
快照集配置檔 | 任何 Delta Managed 數據表、外部數據表、檢視表、具體化檢視或串流數據表。 |
如果您選取 TimeSeries
或 Inference
,則需要其他參數,並會在下列各節中說明。
注意
- 當您第一次建立時間序列或推斷設定檔時,監視器只會分析其建立前 30 天的資料。 建立監視器之後,就會處理所有新資料。
- 具體化檢視和串流資料表上定義的監視器不支援累加處理。
提示
針對 TimeSeries
和 Inference
設定檔,最佳做法是在您的資料表上啟用變更資料摘要 (CDF)。 啟用 CDF 時,只會處理新附加的資料,而不是每次重新整理時重新處理整個資料表。 這使得執行更加有效,並在跨許多資料表擴展監視時降低成本。
TimeSeries
設定檔
TimeSeries
針對設定檔,您必須進行下列選擇:
- 指定計量粒度,以決定如何在時段內分割數據。
- 指定 Timestamp 資料 行,也就是包含時間戳之數據表中的數據行。 時間戳記資料行資料類型必須是
TIMESTAMP
,或是可以使用to_timestamp
PySpark 函數轉換為時間戳記的類型。
Inference
設定檔
Inference
針對設定檔,除了粒度和時間戳之外,您還必須進行下列選擇:
- 選取 [ 問題類型],分類或回歸。
- 指定 預測數據行,此資料行包含模型的預測值。
- 選擇性地指定 Label 資料 行,該數據行包含模型預測的基礎事實。
- 指定模型 標識碼數據行,此數據行包含用於預測之模型的標識碼。
排程
若要設定要依排程執行的監視器,請依排程選取 [重新整理],然後選取要執行監視的頻率和時間。 如果您不想讓監視器自動執行,請手動選取 [ 重新整理]。 如果您手動選取 [重新整理],您可以稍後從 [品質] 索引標籤重新整理計量。
通知
若要設定監視的電子郵件通知,請輸入要通知的電子郵件,然後選取要啟用的通知。 每個通知事件類型最多支援 5 封電子郵件。
一般
在 [ 一般] 區段中,您需要指定一個必要的設定和一些額外的組態選項:
- 您必須指定 Unity 目錄架構,其中會儲存監視器所建立的計量數據表。 位置的格式必須為 {catalog}。{schema}。
您也可以指定下列設定:
Assets 目錄。 輸入現有目錄的絕對路徑,以儲存監視資產,例如產生的儀錶板。 根據預設,資產會儲存在默認目錄中:“/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}”。 如果您在此欄位中輸入不同的位置,則會在您指定的目錄中建立資產 “/{table_name}”。 此目錄可以是工作區中的任何位置。 針對打算在組織內共用的監視器,您可以使用 “/Shared/” 目錄中的路徑。
此欄位不能保留空白。
Unity 目錄基準數據表名稱。 包含比較基準數據的數據表或檢視表名稱。 如需基準數據表的詳細資訊,請參閱 主要輸入數據表和基準數據表。
計量配量表達式。 配量表達式可讓您定義數據表的子集,除了整個數據表之外,還要監視該數據表。 若要建立配量表示式,請按兩下 [新增運算式 ],然後輸入表達式定義。 例如,運算式
"col_2 > 10"
會產生兩個配量:一個用於col_2 > 10
,另一個用於col_2 <= 10
。 另一個範例中,表達式"col_1"
會針對 中的每個col_1
唯一值產生一個配量。 數據會依每個表達式個別分組,產生每個述詞及其補碼的個別配量。自訂計量。 自定義計量會出現在計量數據表中,就像任何內建計量一樣。 如需詳細資訊,請參閱 搭配 Databricks Lakehouse 監視使用自定義計量。 若要設定自定義計量,請按兩下 [ 新增自訂計量]。
- 輸入自訂計量的 [名稱]。
- 選取自訂計量類型、其中
Aggregate
一個、Derived
或Drift
。 如需定義,請參閱 自定義計量的類型。 - 從 [輸入] 資料行中的下拉式清單中,選取要套用計量的數據行。
- 在 [ 輸出類型 ] 欄位中,選取計量的 Spark 資料類型。
- 在 [ 定義 ] 欄位中,輸入定義自訂計量的 SQL 程式代碼。
編輯UI中的監視設定
建立監視器之後,您可以按兩下 [品質] 索引標籤上的 [編輯監視器組態] 按鈕,變更監視器的設定。
在UI中重新整理和檢視監視結果
若要手動執行監視器,請按兩下 [ 重新整理計量]。
如需儲存在監視計量數據表中統計數據的資訊,請參閱 監視計量數據表。 計量數據表是 Unity 目錄數據表。 您可以在筆記本或 SQL 查詢總管中查詢它們,並在目錄總管中檢視它們。
控制監視輸出的存取
監視器所建立的計量資料表和儀表板是由建立監視器的使用者所擁有。 您可以使用 Unity Catalog 權限來控制計量資料表的存取權。 若要在工作區內共用儀錶板,請按下 儀錶板右上角的 [共用 ] 按鈕。
從 UI 刪除監視器
若要從 UI 刪除監視器,請單擊 [重新整理計量] 按鈕旁的 Kebab 功能表,然後選取 [刪除監視器]。