具有 Microsoft Purview 整合式目錄的數據品質
Microsoft Purview 整合式目錄 中的數據品質可讓治理網域和數據擁有者評估和監督其數據生態系統的品質,以促進改善的目標動作。 在現今的 AI 驅動環境中,數據的可靠性會直接影響 AI 驅動深入解析和建議的精確度。 如果沒有值得信任的數據,就有可能在 AI 系統中破壞信任,並阻礙其採用。
數據品質不佳或數據結構不相容,可能會妨礙商務程式和決策制定功能。 數據品質可讓使用者使用無程式代碼/低程式代碼規則來評估數據品質,包括現成的 (OOB) 規則和 AI 產生的規則,來解決這些挑戰。 這些規則會套用在數據行層級並匯總,以提供數據資產、數據產品和治理網域層級的分數,以確保每個網域內數據品質的端對端可見性。
數據品質也納入 AI 提供的數據分析功能,建議數據行進行分析,同時允許人為介入來精簡這些建議。 此反覆程式不僅可增強數據分析的精確度,也有助於持續改善基礎 AI 模型。
藉由套用數據品質,組織可以有效地測量、監視及增強其數據資產的質量、強化 AI 驅動深入解析的可靠性,以及培養 AI 型決策制定程式的信賴度。
數據品質生命週期
- 在 整合式目錄 中指派使用者 () 資料品質管理人許可權,以使用所有數據品質功能。
- 在您的 Microsoft Purview 資料對應 中註冊和掃描數據源。
- 將您的數據資產新增至數據產品
- 設定數據源連線,以準備您的來源以進行數據質量評估。
-
設定及執行數據源中資產的數據分析。
- 分析完成時,流覽數據資產中每個數據行的結果,以了解數據的目前結構和狀態。
- 根據分析結果設定數據質量規則,並將其套用至您的數據資產。
- 在數據產品上設定並執行數據質量掃描 ,以評估數據產品中所有支援資產的品質。
- 檢閱掃描結果 ,以評估數據產品的目前數據品質。
- 在數據資產的生命週期中定期重複步驟 5-8,以確保其能維持品質。
- 持續監視您的數據品質
支援的數據質量區域
下 列區域目前支持數據品質。
支援的多重雲端數據源
檢視 支援的數據源清單。
重要事項
Parquet 檔案的數據質量是設計來支援:
- 具有 Parquet 元件檔案的目錄。 例如: ./Sales/{Parquet Part Files}。 完整名稱必須遵循
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
。 請確定目錄/子目錄結構中沒有 {n} 模式,而必須是導向 {SparkPartitions} 的直接 FQN。 - 具有數據分割 Parquet 檔案的目錄,由數據集內的數據行分割,例如依年份和月份分割的銷售數據。 例如: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。
支援這兩個基本案例,這兩個案例都提供一致的 Parquet 數據集架構。 限度: 它並非設計成或不支援使用 Parquet 檔案的 N 個任意目錄階層。 我們建議您以 (1) 或建構結構 (2) 呈現數據。
目前,Microsoft Purview 只能使用受 控識別作為驗證選項來執行數據質量掃描。 數據質量服務會在 Apache Spark 3.4 和 Delta Lake 2.4 上執行。
數據品質功能
-
數據源聯機設定
- 設定連線以允許 Purview DQ SaaS 應用程式具有數據的讀取許可權,以進行質量掃描和分析。
- MS Purview 使用受控識別作為驗證選項
-
資料分析
- 啟用 AI 的數據分析體驗
- 產業標準統計快照集 (分佈、最小值、最大值、標準偏差、唯一性、完整性、重複、...)
- 向下切入資料行層級分析量值。
-
資料品質規則
- 測量六個產業標準的現成規則 數據品質維度 (完整性、一致性、一致性、精確度、有效性和唯一性)
- 自訂規則建立功能包括現用函式和表示式值的數目。
- 具有 AI 整合體驗的自動產生規則
-
數據質量掃描
- 選取規則並指派給數據行以進行數據質量掃描。
- 在實體/數據表層級中套用數據有效性規則,以測量數據有效性 SLA。
- 排程每小時 (、每日、每周、每月等時間週期的數據質量掃描工作 )
-
數據品質作業監視
- 啟用監視數據品質作業狀態 (作用中、已完成、失敗等 )
- 啟用流覽 DQ 掃描記錄。
-
數據品質評分
- 規則層級中的數據品質分數 (套用至數據行)
- 數據資產、數據產品和治理網域的數據品質分數 (一個控管網域可以有許多數據產品,一個數據產品可以有許多數據資產,一個數據資產可以有許多數據行)
-
CDE) (重要數據元素的數據品質
- 這是數據品質的重要功能之一,可將數據質量規則套用至 CDE 的邏輯建構,然後再向下傳播至組成它們的實體數據元素。 藉由在 CDE 層級定義資料品質規則,組織可以建立 CDE 必須符合的特定準則和閾值,以維持其品質
-
數據品質警示
- 設定警示以在數據品質閾值未達到預期時通知數據擁有者、數據管理者。
- 設定電子郵件別名或通訊群組,以傳送有關數據質量問題的通知。
-
資料品質動作
- DQ 的動作中心,其動作可解決 DQ 異常狀態,包括針對特定數據的 DQ 管理人診斷查詢,以零為零,以修正每個異常狀態。
-
資料品質受控虛擬網路
- 由數據品質所管理的虛擬網路,可與私人端點連線到您的 Azure 數據源。
數據落地和加密
數據品質元數據和分析摘要會儲存Microsoft受控記憶體帳戶。 它們會儲存在與數據源相同的區域中,因此數據落地會保持不變。 所有數據都會加密。 我們會利用 Microsoft Purview 資源提供者區域用戶數據存放區來進行元數據,以處理所有加密,而且在所有Microsoft Purview 服務中都是通用的。 如果您想要使用 CMK (客戶管理的加密金鑰) 來進一步控制數據加密,則會有個別的程式。 (深入瞭解 Purview 客戶密鑰Microsoft。)
數據質量計算定價
數據品質使用量是根據數據控管處理單位 (DGPU) 隨用隨付計量來計費。 DGPU 是耗用 60 分鐘的服務效能量,可在三個不同的效能選項中使用:基本、標準和進階。 基本 SKU 選項會設定為預設效能選項,直到選取較高的選項為止。 例如,如果客戶在一天中執行 100 個數據質量規則,且每次執行都會產生 0.02 DGPU 與基本 SKU,則當天的 DGPU 總數會等於兩個 DGPU,而客戶的成本為 $30。 基本 SKU 價格是每個處理單位 15 美元,Standard SKU 價格是每個處理單位 60 美元,而進階 SKU 價格是每個處理單位 240 美元。 深入瞭解 Microsoft Purview 整合式目錄 定價。
以下是針對不同數據磁碟區的基本到複雜規則所耗用的處理單位範例,其已針對標準 SKU 進行測試。
規則複雜度 | 10,000 筆記錄 | - | 100,000 筆記錄 | - | 1,000,000 筆記錄 | - | 10,000,000 筆記錄 | - | 100,000,000 筆記錄 | - | 1,000,000,000 筆記錄 | - |
---|---|---|---|---|---|---|---|---|---|---|---|---|
持續時間 | 濮 | 持續時間 | 濮 | 持續時間 | 濮 | 持續時間 | 濮 | 持續時間 | 濮 | 持續時間 | 濮 | |
簡單 | 經過的時間:1m 1s | 0.02 | 經過的時間:1m 1s | 0.02 | 經過的時間:1m 1s | 0.02 | 經過的時間:1 分 16 分 | 0.02 | 經過的時間:1 分 16 分 | 0.02 | 經過的時間:1 分 31 秒 | 0.03 |
中 | 經過的時間:1m 1s | 0.02 | 經過的時間:1m 1s | 0.02 | 經過的時間:1m 1s | 0.02 | 經過的時間:1 分 16 分 | 0.02 | 經過的時間:1 分 31 秒 | 0.03 | 經過時間:2m 1s | 0.03 |
高 | 經過的時間:1m 1s | 0.02 | 經過的時間:1m 1s | 0.02 | 經過的時間:1 分 31 秒 | 0.03 | 經過的時間:1 分 32 秒 | 0.03 | 經過時間:2m 1s | 0.03 | 經過的時間:2 公分 51 秒 | 0.04 |
限制
- Google Big Query、Snowflake 和 Azure Databricks Unity 目錄不支援 vNet。
相關內容
- Fabric 資料資產的資料品質
- Fabric 鏡像數據源的數據品質
- Fabric 捷徑資料來源的資料品質
- Azure Synapse 無伺服器和數據倉儲的數據品質
- Azure Databricks Unity 目錄的資料品質
- Snowflake 數據源的數據品質
- Google Big Query 的數據品質
- Iceberg 數據的數據品質原生支援
後續步驟
- 在 整合式目錄 中指派使用者 () 資料品質管理人許可權,以使用所有數據品質功能。
- 設定數據源連線,以準備您的來源以進行數據質量評估。
- 設定及執行數據源中資產的數據分析。