共用方式為


Microsoft Purview 資料品質 概觀

Microsoft Purview 資料品質 是一個全方位的解決方案,可讓治理網域和數據擁有者評估和監督其數據生態系統的品質,以促進改善的目標動作。 在現今的 AI 驅動環境中,數據的可靠性會直接影響 AI 驅動深入解析和建議的精確度。 如果沒有值得信任的數據,就有可能在 AI 系統中破壞信任,並阻礙其採用。

數據品質不佳或數據結構不相容,可能會妨礙商務程式和決策制定功能。 Microsoft Purview 資料品質 透過提供使用者使用無程式代碼/低程式代碼規則評估數據品質的能力來解決這些挑戰,包括全新 (OOB) 規則和 AI 產生的規則。 這些規則會套用在數據行層級並匯總,以提供數據資產、數據產品和治理網域層級的分數,以確保每個網域內數據品質的端對端可見性。

Microsoft Purview 資料品質 也納入 AI 支援的數據分析功能,建議用於分析的數據行,同時允許人為介入來精簡這些建議。 此反覆程式不僅可增強數據分析的精確度,也有助於持續改善基礎 AI 模型。

藉由套用 Microsoft Purview 資料品質,組織可以有效地測量、監視及增強其數據資產的質量、強化 AI 驅動深入解析的可靠性,以及培養 AI 型決策制定程式的信賴度。

數據品質生命週期

  1. 在 整合式目錄 中指派使用者 () 資料品質管理人許可權,以使用所有數據品質功能。
  2. 您的 Microsoft Purview 資料對應 中註冊和掃描數據源。
  3. 將您的數據資產新增至數據產品
  4. 設定數據源連線,以準備您的來源以進行數據質量評估
  5. 設定及執行數據源中資產的數據分析。
    1. 分析完成時,流覽數據資產中每個數據行的結果,以了解數據的目前結構和狀態。
  6. 根據分析結果設定數據質量規則,並將其套用至您的數據資產。
  7. 在數據產品上設定並執行數據質量掃描 ,以評估數據產品中所有支援資產的品質。
  8. 檢閱掃描結果 ,以評估數據產品的目前數據品質。
  9. 在數據資產的生命週期中定期重複步驟 5-8,以確保其能維持品質。
  10. 持續監視您的數據品質
    1. 檢閱數據質量動作 以找出並解決問題。
    2. 設定數據品質通知 以警示您發生質量問題。

支援的數據質量區域

下列區域目前支援 Microsoft Purview 資料品質

支援的多重雲端數據源

  • Azure Data Lake Storage (ADLS Gen2)
    • 檔類型:Delta Parquet 和 Parquet
  • Azure SQL Database
  • OneLake 中的網狀架構數據資產,包括快捷方式和鏡像數據資產。 只有 Lakehouse 差異資料表和 Parquet 檔案才支援資料質量掃描。
    • 鏡像數據資產:CosmosDB、Snowflake、Azure SQL
    • 快捷方式數據資產:AWS S3、GCS、AdlsG2 和 dataverse
  • Azure Synapse 無伺服器和數據倉儲
  • Azure Databricks Unity 目錄
  • Snowflake
  • Google Big Query (私人預覽)

重要事項

Parquet 檔案的數據質量是設計來支援:

  1. 具有 Parquet 元件檔案的目錄。 例如: ./Sales/{Parquet Part Files}。 完整名稱必須遵循 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}。 請確定我們在目錄/子目錄結構中沒有 {n} 模式,而必須是導致 {SparkPartitions} 的直接 FQN。
  2. 具有數據分割 Parquet 檔案的目錄,由數據集內的數據行分割,例如依年份和月份分割的銷售數據。 例如: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。

這兩個基本案例都支持呈現一致的 parquet 數據集架構。
限度: 它不是設計成或不支援具有 Parquet 檔案之目錄的 N 個任意階層。 我們建議客戶以 (1) 或 (2) 建構結構呈現數據。

目前,Microsoft Purview 只能使用受 控識別作為驗證選項來執行數據質量掃描。 數據質量服務會在 Apache Spark 3.4Delta Lake 2.4 上執行

數據品質功能

  • 數據源聯機設定
    • 設定連線以允許 Purview DQ SaaS 應用程式具有數據的讀取許可權,以進行質量掃描和分析。
    • MS Purview 使用受控識別作為驗證選項
  • 資料分析
    • 啟用 AI 的數據分析體驗
    • 產業標準統計快照集 (分佈、最小值、最大值、標準偏差、唯一性、完整性、重複、...)
    • 向下切入資料行層級分析量值。
  • 資料品質規則
    • 測量六個產業標準的現成規則 數據品質維度 (完整性、一致性、一致性、精確度、有效性和唯一性)
    • 自訂規則建立功能包括現用函式和表示式值的數目。
    • 具有 AI 整合體驗的自動產生規則
  • 數據質量掃描
    • 選取規則並指派給數據行以進行數據質量掃描。
    • 在實體/數據表層級中套用數據有效性規則,以測量數據有效性 SLA。
    • 排程每小時 (、每日、每周、每月等時間週期的數據質量掃描工作 )
  • 數據品質作業監視
    • 啟用監視數據品質作業狀態 (作用中、已完成、失敗等 )
    • 啟用流覽 DQ 掃描記錄。
  • 數據品質評分
    • 規則層級中的數據品質分數 (套用至數據行)
    • 數據資產、數據產品和治理網域的數據品質分數 (一個控管網域可以有許多數據產品,一個數據產品可以有許多數據資產,一個數據資產可以有許多數據行)
  • CDE) (重要數據元素的數據品質
    • 這是 Purview 資料品質的其中一個主要功能,它能夠將數據質量規則套用至 CDE 的邏輯建構,然後再向下傳播至組成它們的實體數據元素。 藉由在 CDE 層級定義資料品質規則,組織可以建立 CDE 必須符合的特定準則和閾值,以維持其品質
  • 數據品質警示
    • 設定警示以在數據品質閾值未達到預期時通知數據擁有者、數據管理者。
    • 設定電子郵件別名或通訊群組,以傳送有關數據質量問題的通知。
  • 資料品質動作
    • DQ 的動作中心,其動作可解決 DQ 異常狀態,包括針對特定數據的 DQ 管理人診斷查詢,以零為零,以修正每個異常狀態。
  • 資料品質受控虛擬網路
    • 由數據品質所管理的虛擬網路,可與私人端點連線到您的 Azure 數據源。

限制

  • Google Big Query、Snowflake 和 Azure Data 實體 Unity 目錄不支援 vNet。

後續步驟

  1. 在 整合式目錄 中指派使用者 () 資料品質管理人許可權,以使用所有數據品質功能。
  2. 設定數據源連線,以準備您的來源以進行數據質量評估
  3. 設定及執行數據源中資產的數據分析。