Microsoft Purview 資料品質 概觀
Microsoft Purview 資料品質 是一個全方位的解決方案,可讓治理網域和數據擁有者評估和監督其數據生態系統的品質,以促進改善的目標動作。 在現今的 AI 驅動環境中,數據的可靠性會直接影響 AI 驅動深入解析和建議的精確度。 如果沒有值得信任的數據,就有可能在 AI 系統中破壞信任,並阻礙其採用。
數據品質不佳或數據結構不相容,可能會妨礙商務程式和決策制定功能。 Microsoft Purview 資料品質 透過提供使用者使用無程式代碼/低程式代碼規則評估數據品質的能力來解決這些挑戰,包括全新 (OOB) 規則和 AI 產生的規則。 這些規則會套用在數據行層級並匯總,以提供數據資產、數據產品和治理網域層級的分數,以確保每個網域內數據品質的端對端可見性。
Microsoft Purview 資料品質 也納入 AI 支援的數據分析功能,建議用於分析的數據行,同時允許人為介入來精簡這些建議。 此反覆程式不僅可增強數據分析的精確度,也有助於持續改善基礎 AI 模型。
藉由套用 Microsoft Purview 資料品質,組織可以有效地測量、監視及增強其數據資產的質量、強化 AI 驅動深入解析的可靠性,以及培養 AI 型決策制定程式的信賴度。
數據品質生命週期
- 在 整合式目錄 中指派使用者 () 資料品質管理人許可權,以使用所有數據品質功能。
- 在您的 Microsoft Purview 資料對應 中註冊和掃描數據源。
- 將您的數據資產新增至數據產品
- 設定數據源連線,以準備您的來源以進行數據質量評估。
-
設定及執行數據源中資產的數據分析。
- 分析完成時,流覽數據資產中每個數據行的結果,以了解數據的目前結構和狀態。
- 根據分析結果設定數據質量規則,並將其套用至您的數據資產。
- 在數據產品上設定並執行數據質量掃描 ,以評估數據產品中所有支援資產的品質。
- 檢閱掃描結果 ,以評估數據產品的目前數據品質。
- 在數據資產的生命週期中定期重複步驟 5-8,以確保其能維持品質。
- 持續監視您的數據品質
支援的數據質量區域
下列區域目前支援 Microsoft Purview 資料品質
支援的多重雲端數據源
- Azure Data Lake Storage (ADLS Gen2)
- 檔類型:Delta Parquet 和 Parquet
- Azure SQL Database
- OneLake 中的網狀架構數據資產,包括快捷方式和鏡像數據資產。 只有 Lakehouse 差異資料表和 Parquet 檔案才支援資料質量掃描。
- 鏡像數據資產:CosmosDB、Snowflake、Azure SQL
- 快捷方式數據資產:AWS S3、GCS、AdlsG2 和 dataverse
- Azure Synapse 無伺服器和數據倉儲
- Azure Databricks Unity 目錄
- Snowflake
- Google Big Query (私人預覽)
重要事項
Parquet 檔案的數據質量是設計來支援:
- 具有 Parquet 元件檔案的目錄。 例如: ./Sales/{Parquet Part Files}。 完整名稱必須遵循
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
。 請確定我們在目錄/子目錄結構中沒有 {n} 模式,而必須是導致 {SparkPartitions} 的直接 FQN。 - 具有數據分割 Parquet 檔案的目錄,由數據集內的數據行分割,例如依年份和月份分割的銷售數據。 例如: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。
這兩個基本案例都支持呈現一致的 parquet 數據集架構。
限度: 它不是設計成或不支援具有 Parquet 檔案之目錄的 N 個任意階層。
我們建議客戶以 (1) 或 (2) 建構結構呈現數據。
目前,Microsoft Purview 只能使用受 控識別作為驗證選項來執行數據質量掃描。 數據質量服務會在 Apache Spark 3.4 和 Delta Lake 2.4 上執行。
數據品質功能
-
數據源聯機設定
- 設定連線以允許 Purview DQ SaaS 應用程式具有數據的讀取許可權,以進行質量掃描和分析。
- MS Purview 使用受控識別作為驗證選項
-
資料分析
- 啟用 AI 的數據分析體驗
- 產業標準統計快照集 (分佈、最小值、最大值、標準偏差、唯一性、完整性、重複、...)
- 向下切入資料行層級分析量值。
-
資料品質規則
- 測量六個產業標準的現成規則 數據品質維度 (完整性、一致性、一致性、精確度、有效性和唯一性)
- 自訂規則建立功能包括現用函式和表示式值的數目。
- 具有 AI 整合體驗的自動產生規則
-
數據質量掃描
- 選取規則並指派給數據行以進行數據質量掃描。
- 在實體/數據表層級中套用數據有效性規則,以測量數據有效性 SLA。
- 排程每小時 (、每日、每周、每月等時間週期的數據質量掃描工作 )
-
數據品質作業監視
- 啟用監視數據品質作業狀態 (作用中、已完成、失敗等 )
- 啟用流覽 DQ 掃描記錄。
-
數據品質評分
- 規則層級中的數據品質分數 (套用至數據行)
- 數據資產、數據產品和治理網域的數據品質分數 (一個控管網域可以有許多數據產品,一個數據產品可以有許多數據資產,一個數據資產可以有許多數據行)
-
CDE) (重要數據元素的數據品質
- 這是 Purview 資料品質的其中一個主要功能,它能夠將數據質量規則套用至 CDE 的邏輯建構,然後再向下傳播至組成它們的實體數據元素。 藉由在 CDE 層級定義資料品質規則,組織可以建立 CDE 必須符合的特定準則和閾值,以維持其品質
-
數據品質警示
- 設定警示以在數據品質閾值未達到預期時通知數據擁有者、數據管理者。
- 設定電子郵件別名或通訊群組,以傳送有關數據質量問題的通知。
-
資料品質動作
- DQ 的動作中心,其動作可解決 DQ 異常狀態,包括針對特定數據的 DQ 管理人診斷查詢,以零為零,以修正每個異常狀態。
-
資料品質受控虛擬網路
- 由數據品質所管理的虛擬網路,可與私人端點連線到您的 Azure 數據源。
限制
- Google Big Query、Snowflake 和 Azure Data 實體 Unity 目錄不支援 vNet。
相關內容
- Fabric 數據資產的數據品質
- Fabric 鏡像數據源的數據品質
- Fabric 快捷方式數據源的數據品質
- Azure Synapse 無伺服器和數據倉儲的數據品質
- Azure Databricks Unity 目錄的數據品質
- Snowflake 數據源的數據品質
- Google Big Query 的數據品質
後續步驟
- 在 整合式目錄 中指派使用者 () 資料品質管理人許可權,以使用所有數據品質功能。
- 設定數據源連線,以準備您的來源以進行數據質量評估。
- 設定及執行數據源中資產的數據分析。