設定及執行數據質量掃描
數據質量掃描會根據套用的數據 質量規則 來檢閱您的數據資產,併產生分數。 您的數據管理人可以使用該分數來評估數據健康情況,並解決任何可能會降低數據質量的問題。
必要條件
- 若要執行和排程數據品質評估掃描,您的使用者必須是 數據質量負責人角色。
- 目前,Microsoft Purview 帳戶可以設定為允許公用存取或受控 vNet 存取,以便執行數據質量掃描。
數據品質生命週期
數據質量掃描是數據資產數據品質生命週期的第七個步驟。 先前的步驟如下:
- 在 整合式目錄 中指派使用者 () 資料品質管理人許可權,以使用所有數據品質功能。
- 在您的 Microsoft Purview 資料對應 中註冊和掃描數據源。
- 將您的數據資產新增至數據產品
- 設定數據源連線,以準備您的來源以進行數據質量評估。
-
設定及執行數據源中資產的數據分析。
- 分析完成時,流覽數據資產中每個數據行的結果,以了解數據的目前結構和狀態。
- 根據分析結果設定數據質量規則,並將其套用至您的數據資產。
支援的多重雲端數據源
- Azure Data Lake Storage (ADLS Gen2)
- 檔類型:Delta Parquet 和 Parquet
- Azure SQL Database
- OneLake 中的網狀架構數據資產包括快捷方式和鏡像數據資產。 只有 Lakehouse 差異資料表和 Parquet 檔案才支援資料質量掃描。
- 鏡像數據資產:CosmosDB、Snowflake、Azure SQL
- 快捷方式數據資產:AWS S3、GCS、AdlsG2 和 dataverse
- Azure Synapse 無伺服器和數據倉儲
- Azure Databricks Unity 目錄
- Snowflake
- Google Big Query (私人預覽)
重要事項
Parquet 檔案的數據質量是設計來支援:
- 具有 Parquet 元件檔案的目錄。 例如: ./Sales/{Parquet Part Files}。 完整名稱必須遵循
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
。 請確定我們在目錄/子目錄結構中沒有 {n} 模式,而必須是導致 {SparkPartitions} 的直接 FQN。 - 具有數據分割 Parquet 檔案的目錄,由數據集內的數據行分割,例如依年份和月份分割的銷售數據。 例如: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。
這兩個基本案例都支持呈現一致的 parquet 數據集架構。
限度: 它不是設計成或不支援具有 Parquet 檔案之目錄的 N 個任意階層。
我們建議客戶以 (1) 或 (2) 建構結構呈現數據。
支援的驗證方法
目前,Microsoft Purview 只能使用受 控識別作為驗證選項來執行數據質量掃描。 數據質量服務會在 Apache Spark 3.4 和 Delta Lake 2.4 上執行。 如需支援區域的詳細資訊,請參閱 數據品質概觀。
重要事項
如果數據源上的架構已更新,則必須先重新執行數據對應掃描,再執行數據質量掃描。
執行數據質量掃描
從 [Microsoft Purview 整合式目錄],選取 [健全狀況管理] 功能表和 [數據品質] 子功能表。
從清單中選取 治理網域 。
選取 數據產品 ,以評估連結至該產品 之數據資產的數據 品質。
選取數據產品會帶您前往 [數據品質 概觀 ] 頁面。 您可以在此頁面上選取 [ 規則 ] 功能表,瀏覽現有的數據質量規則並新增規則。 您可以從此頁面選取 [架構] 功能表來瀏覽數據資產的架 構 。
流覽已新增至所選資產掃描的規則,並在 [ 狀態 ] 資料行中將其切換為開啟或關閉。
選取 [概觀] 頁面上的 [ 執行質量掃描 ] 按鈕,以執行質量掃描。
掃描正在執行時, 您可以從控管網域中的數據品質監視頁面追蹤其進度。
排程數據質量掃描
雖然您可以選取 [執行 質量掃描 ] 按鈕,以特定方式執行數據質量掃描,但在生產案例中,源數據可能會持續更新,因此我們想要確定我們會定期監視其數據品質,以偵測任何問題。 為了讓我們能夠管理定期更新品質掃描,我們可以將掃描程式自動化。
從 [Microsoft Purview 整合式目錄],選取 [健全狀況管理] 功能表和 [數據品質] 子功能表。
從清單中選取 治理網域 。
從頁面右側選取 [ 管理 ] 按鈕,然後選取 [ 排程掃描]。
在 [ 建立排程掃描] 頁面上填寫窗體。 為您要設定排程的來源新增 名稱 和 描述 。
選取 [繼續]。
在 [ 範圍] 索引 標籤上,選取個別數據產品和資產,或是整個治理網域的所有數據產品和數據資產。
選取 [繼續]。
根據您的喜好設定設定排程,然後選取 [ 繼續]。
在 [檢閱] 索引標籤上,選取 [儲存 (] 或 [儲存並執行] 以立即測試) 以完成數據質量評估掃描的排程。
您可以在 [掃描] 索引標籤的 [資料品質作業監視] 頁面 上監視排程 掃描 。
刪除先前的數據質量掃描
- 從 [Microsoft Purview 整合式目錄],選取 [健全狀況管理] 功能表和 [數據品質] 子功能表。
- 從清單中選取 治理網域 。
- 選取頁面頂端的省略號 (『...』) 按鈕。
- 選 取 [刪除資料質量資料 ] 以刪除資料品質執行的歷程記錄。
注意事項
我們建議您只針對測試回合、錯誤的數據質量執行,或在您要從數據產品中移除數據資產的情況下,使用此刪除。
如果您想要從資料產品移除資料資產,如果該數據資產具有數據品質分數,您必須先刪除數據品質分數,然後從數據產品中移除數據資產。
重要事項
如果格式在來源系統中為標準且正確,則大部分會自動偵測差異格式。 若要掃描 Parquet 或 iceberg 檔案格式的數據品質評分,您必須將數據資產類型變更為 Parquet 或 iceberg。 如下列螢幕快照所示,如果您的數據資產檔格式不是差異,請變更預設數據資產類型 *Parquet 或其他支援的格式。 在設定數據質量掃描工作之前,必須先完成這項變更。
相關內容
- Fabric 數據資產的數據品質
- Fabric 鏡像數據源的數據品質
- Fabric 快捷方式數據源的數據品質
- Azure Synapse 無伺服器和數據倉儲的數據品質
- Azure Databricks Unity 目錄的數據品質
- Snowflake 數據源的數據品質
- Google Big Query 的數據品質
後續步驟
- 監視資料質量掃描
- 檢閱掃描結果 ,以評估數據產品的目前數據品質。
- 設定數據質量掃描結果的警示