共用方式為


設定及執行數據質量掃描

數據質量掃描會根據套用的數據 質量規則 來檢閱您的數據資產,併產生分數。 您的數據管理人可以使用該分數來評估數據健康情況,並解決任何可能會降低數據質量的問題。

必要條件

  • 若要執行和排程數據品質評估掃描,您的使用者必須是 數據質量負責人角色
  • 目前,Microsoft Purview 帳戶可以設定為允許公用存取或受控 vNet 存取,以便執行數據質量掃描。

數據品質生命週期

數據質量掃描是數據資產數據品質生命週期的第七個步驟。 先前的步驟如下:

  1. 在 整合式目錄 中指派使用者 () 資料品質管理人許可權,以使用所有數據品質功能。
  2. 您的 Microsoft Purview 資料對應 中註冊和掃描數據源。
  3. 將您的數據資產新增至數據產品
  4. 設定數據源連線,以準備您的來源以進行數據質量評估
  5. 設定及執行數據源中資產的數據分析。
    1. 分析完成時,流覽數據資產中每個數據行的結果,以了解數據的目前結構和狀態。
  6. 根據分析結果設定數據質量規則,並將其套用至您的數據資產。

支援的多重雲端數據源

  • Azure Data Lake Storage (ADLS Gen2)
    • 檔類型:Delta Parquet 和 Parquet
  • Azure SQL Database
  • OneLake 中的網狀架構數據資產包括快捷方式和鏡像數據資產。 只有 Lakehouse 差異資料表和 Parquet 檔案才支援資料質量掃描。
    • 鏡像數據資產:CosmosDB、Snowflake、Azure SQL
    • 快捷方式數據資產:AWS S3、GCS、AdlsG2 和 dataverse
  • Azure Synapse 無伺服器和數據倉儲
  • Azure Databricks Unity 目錄
  • Snowflake
  • Google Big Query (私人預覽)

重要事項

Parquet 檔案的數據質量是設計來支援:

  1. 具有 Parquet 元件檔案的目錄。 例如: ./Sales/{Parquet Part Files}。 完整名稱必須遵循 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}。 請確定我們在目錄/子目錄結構中沒有 {n} 模式,而必須是導致 {SparkPartitions} 的直接 FQN。
  2. 具有數據分割 Parquet 檔案的目錄,由數據集內的數據行分割,例如依年份和月份分割的銷售數據。 例如: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。

這兩個基本案例都支持呈現一致的 parquet 數據集架構。
限度: 它不是設計成或不支援具有 Parquet 檔案之目錄的 N 個任意階層。 我們建議客戶以 (1) 或 (2) 建構結構呈現數據。

支援的驗證方法

目前,Microsoft Purview 只能使用受 控識別作為驗證選項來執行數據質量掃描。 數據質量服務會在 Apache Spark 3.4Delta Lake 2.4 上執行。 如需支援區域的詳細資訊,請參閱 數據品質概觀

重要事項

如果數據源上的架構已更新,則必須先重新執行數據對應掃描,再執行數據質量掃描。

執行數據質量掃描

  1. 如果您尚未建立數據源,請設定要掃描資料品質之資產的數據源聯機。

  2. 從 [Microsoft Purview 整合式目錄],選取 [健全狀況管理] 功能表和 [數據品質] 子功能表。

  3. 從清單中選取 治理網域

    治理網域和數據產品的螢幕快照。

  4. 選取 數據產品 ,以評估連結至該產品 之數據資產的數據 品質。

    選取數據產品數據資產的螢幕快照。

  5. 選取數據產品會帶您前往 [數據品質 概觀 ] 頁面。 您可以在此頁面上選取 [ 規則 ] 功能表,瀏覽現有的數據質量規則並新增規則。 您可以從此頁面選取 [架構] 功能表來瀏覽數據資產的架

    數據質量掃描概觀頁面的螢幕快照。

  6. 流覽已新增至所選資產掃描的規則,並在 [ 狀態 ] 資料行中將其切換為開啟或關閉。

    數據質量規則頁面的螢幕快照。

  7. 選取 [概觀] 頁面上的 [ 執行質量掃描 ] 按鈕,以執行質量掃描。

    [資料品質概觀] 頁面的螢幕快照,其中已醒目提示 [執行質量掃描] 按鈕。

  8. 掃描正在執行時, 您可以從控管網域中的數據品質監視頁面追蹤其進度

排程數據質量掃描

雖然您可以選取 [執行 質量掃描 ] 按鈕,以特定方式執行數據質量掃描,但在生產案例中,源數據可能會持續更新,因此我們想要確定我們會定期監視其數據品質,以偵測任何問題。 為了讓我們能夠管理定期更新品質掃描,我們可以將掃描程式自動化。

  1. 從 [Microsoft Purview 整合式目錄],選取 [健全狀況管理] 功能表和 [數據品質] 子功能表。

  2. 從清單中選取 治理網域

  3. 從頁面右側選取 [ 管理 ] 按鈕,然後選取 [ 排程掃描]

    治理網域的數據質量頁面螢幕快照,其中已醒目提示 [排程掃描] 按鈕。

  4. 在 [ 建立排程掃描] 頁面上填寫窗體。 為您要設定排程的來源新增 名稱描述

    [建立排程掃描頁面概觀] 索引標籤的螢幕快照。

  5. 選取 [繼續]

  6. 在 [ 範圍] 索引 標籤上,選取個別數據產品和資產,或是整個治理網域的所有數據產品和數據資產。

    [建立排程掃描頁面範圍] 索引標籤的螢幕快照。

  7. 選取 [繼續]

  8. 根據您的喜好設定設定排程,然後選取 [ 繼續]

    [建立排程掃描頁面排程] 索引標籤的螢幕快照。

  9. 在 [檢閱] 索引標籤上,選取 [儲存 (] 或 [儲存並執行] 以立即測試) 以完成數據質量評估掃描的排程。

    [建立排程掃描頁面檢閱] 索引標籤的螢幕快照。

  10. 您可以在 [掃描] 索引標籤的 [資料品質作業監視] 頁面 上監視排程 掃描

刪除先前的數據質量掃描

  1. 從 [Microsoft Purview 整合式目錄],選取 [健全狀況管理] 功能表和 [數據品質] 子功能表。
  2. 從清單中選取 治理網域
  3. 選取頁面頂端的省略號 (『...』) 按鈕。
  4. 取 [刪除資料質量資料 ] 以刪除資料品質執行的歷程記錄。

注意事項

我們建議您只針對測試回合、錯誤的數據質量執行,或在您要從數據產品中移除數據資產的情況下,使用此刪除。

如果您想要從資料產品移除資料資產,如果該數據資產具有數據品質分數,您必須先刪除數據品質分數,然後從數據產品中移除數據資產。

重要事項

如果格式在來源系統中為標準且正確,則大部分會自動偵測差異格式。 若要掃描 Parquet 或 iceberg 檔案格式的數據品質評分,您必須將數據資產類型變更為 Parquet 或 iceberg。 如下列螢幕快照所示,如果您的數據資產檔格式不是差異,請變更預設數據資產類型 *Parquet 或其他支援的格式。 在設定數據質量掃描工作之前,必須先完成這項變更。

資產類型選取項目的螢幕快照。

後續步驟