共用方式為


設定及執行數據資產的數據分析

數據分析是檢查不同數據來源中可用數據,以及收集有關此數據之統計數據和資訊的程式。 數據分析有助於根據定義的目標集來評估數據的品質層級。 如果數據品質不佳,或是在無法整合以符合企業需求的結構中進行管理,則商務程式和決策制定會受到影響。 數據分析可讓您了解數據的可信度和品質,這是制定數據驅動決策以提升收益並促進成長的必要條件。

必要條件

  • 若要執行和排程數據品質評估掃描,您的使用者必須是 數據質量負責人角色
  • 目前,Microsoft Purview 帳戶可以設定為允許公用存取或受控 vNet 存取,以便執行數據質量掃描。

數據品質生命週期

數據分析是數據資產數據品質生命週期的第五個步驟。 先前的步驟如下:

  1. 在 整合式目錄 中指派使用者 () 資料品質管理人許可權,以使用所有數據品質功能。
  2. 您的 Microsoft Purview 資料對應 中註冊和掃描數據源。
  3. 將您的數據資產新增至數據產品
  4. 設定數據源連線,以準備您的來源以進行數據質量評估

支援的多重雲端數據源

  • Azure Data Lake Storage (ADLS Gen2)
    • 檔類型:Delta Parquet 和 Parquet
  • Azure SQL Database
  • OneLake 中的網狀架構數據資產包括快捷方式和鏡像數據資產。 只有 Lakehouse 差異數據表和 Parquet 檔案才支援數據分析。
    • 鏡像數據資產:Cosmos DB、Snowflake、Azure SQL
    • 快捷方式數據資產:AWS S3、GCS、AdlsG2 和 Dataverse
  • Azure Synapse 無伺服器和數據倉儲
  • Azure Databricks Unity 目錄
  • Snowflake
  • Google Big Query (私人預覽)

重要事項

Parquet 檔案的數據質量是設計來支援:

  1. 具有 Parquet 元件檔案的目錄。 例如: ./Sales/{Parquet Part Files}。 完整名稱必須遵循 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}。 請確定我們在目錄/子目錄結構中沒有 {n} 模式,而必須是導致 {SparkPartitions} 的直接 FQN。
  2. 具有數據分割 Parquet 檔案的目錄,由數據集內的數據行分割,例如依年份和月份分割的銷售數據。 例如: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。

這兩個基本案例都支持呈現一致的 parquet 數據集架構。
限度: 它不是設計成或不支援具有 Parquet 檔案之目錄的 N 個任意階層。 我們建議客戶以 (1) 或 (2) 建構結構呈現數據。

支援的驗證方法

目前,Microsoft Purview 只能使用受 控識別作為驗證選項來執行數據質量掃描。 數據質量服務會在 Apache Spark 3.4Delta Lake 2.4 上執行。 如需支援區域的詳細資訊,請參閱 數據品質概觀

重要事項

如果數據源上的架構已更新,則必須先重新執行數據對應掃描,再執行數據分析。

設定數據分析作業的步驟

  1. 如果您尚未建立資產,請設定資產的數據源聯機。

  2. 從 [Microsoft Purview 整合式目錄],選取 [健全狀況管理] 功能表和 [數據品質] 子功能表。

  3. 在數據品質子功能表中,選取 [ 控管 ] 網域以進行數據分析。

  4. 選取 數據產品 來分析連結至該產品 的數據資產

    數據品質功能表的螢幕快照,其中顯示如何選取數據產品。

  5. 選取數據資產以流覽至數據品質 [概觀 ] 頁面以進行分析。

  6. 選取 [配置檔] 按鈕,針對選取的數據資產執行分析作業。

    [數據資產概觀] 索引標籤的螢幕快照,其中已醒目提示 [配置檔] 索引標籤。

  7. AI 建議引擎會建議執行數據分析的可能重要數據行。 您可以取消選取建議的數據行和/或選取要分析的更多數據行。

    分析數據行建議的螢幕快照。

  8. 選取相關資料行之後,請選取 [ 執行配置檔]

  9. 當作業正在執行時, 您可以從治理網域中的數據品質監視頁面追蹤其進度

  10. 作業完成時,從資產數據品質頁面的左側功能表中選取 [ 配置檔 ] 索引標籤,以列出流覽分析結果和統計快照集。 視您的數據資產有多少數據行而定,可能會有數個配置文件結果頁面。

    分析頁面的螢幕快照,其中已醒目提示一個數據行。

  11. 流覽每個數據行的分析結果和統計量值。

    單一數據行之統計快照集的螢幕快照。

重要事項

如果格式在來源系統中為標準且正確,則大部分會自動偵測差異格式。 若要分析 Parquet 或 iceberg 檔案格式,您必須將數據資產類型變更為 Parquet 或 iceberg。 如下列螢幕快照所示,如果您的數據資產檔格式不是差異,請變更預設數據資產類型 Parquet 或其他支援的格式。 在設定分析作業之前,必須先完成這項變更。

資產類型選取項目的螢幕快照。

後續步驟

  1. 根據分析結果設定數據質量規則,並將其套用至您的數據資產。
  2. 在數據產品上設定並執行數據質量掃描 ,以評估數據產品中所有支援資產的品質。
  3. 檢閱掃描結果 ,以評估數據產品的目前數據品質。