第 4 節:執行數據品質
現在您已在目錄中取得數據產品,執行數據品質規則會告訴所有人數據處於良好狀態並可供使用。 如已深入瞭解,您可以新增新的數據質量規則,以確保它適合所有使用案例。 確保數據產品具有最高品質,將有助於建立數據的信任,並告知其他人其受到監視的改善。 當數據的價值增加時,該數據的質量必須受到更密切的監視和控制,因為如果管理不良,數據質量問題可能會造成大量影響。
必要條件
- 數據質量規則只能在ADLS Gen2和 Microsoft Fabric 的差異格式資料表上執行。
- 必須啟用來自 Microsoft Purview 的受控識別,才能讀取數據源,因為它是目前唯一支援的數據質量認證。
- 您必須在執行資料品質的控管網域中擁有 數據品質管理角色 。
- 您必須是擁有者,或具有使用者存取系統管理員存取您要連線數據品質掃描的數據源,以確保適當的安全性授權來掃描數據。
- 您必須具有 數據配置檔管理人角色 ,才能在數據上執行配置檔。
建立和執行數據質量規則
選取 [整合式目錄]。
選取 [數據管理] 底下的 [ 數據品質 ] 索引標籤。
選取第 1節中建立的個人健康狀態網域。
選取 [管理] 按鈕,然後從功能表中挑選 Connections。 建置此連線可確保您能夠在該治理網域中的數據源上執行數據質量掃描,防止小組在沒有適當授權的情況下存取數據的知識。
在連線畫面上選取 [ 新增 ],以建立新的連線:
- 提供顯示名稱 『Personal Health ADLSg2 DQ』。
- 選取 Azure Data Lake Storage Gen2 的來源類型。
- 提供 在第 2 節中建立之數據源的詳細數據。
注意事項
認證必須Microsoft數據質量連線的 Purview MSI (系統)
- 選 取測試連線
- 測試連線之後,選取 [ 提交]
- 提供 在第 2 節中建立之數據源的詳細數據。
建立連線之後,您就可以開始執行配置檔並開始建置數據質量規則。 這可確保知道商務規則和適當規則的專家會在最重要的數據產品上執行。
- 返回 至 [資料品質] 頁面。
- 選取 [個人健康情況] 治理網域。
- 選取第 3 節內建的 Covid-19 依年齡變化和案例趨勢數據產品。
- 選取已新增至數據產品的資產。 (必須是 第 2 節 的差異格式,否則數據品質將不會執行) 。
- 將資料品質規則套用至資料的數據行,以測量其是否符合您對質量的預期:
- 選取所選資產上的 [規則 ] 索引標籤。
- 選取 [新增規則]。
- 選取 [空白/空白欄位規則]。
- 提供詳細資料:
- 從數據行下拉式清單中選取 AgeGroupVacc 資料行
- 規則名稱:確認保留年齡群組存在
- 選取 [建立]。
- 選取 [新增規則]。
- 選 取 [數據類型相符專案]。
- 提供詳細數據。
- 選取 [日期][系統管理的數據行]。
- 選取 [建立]。
- 選 取 [執行數據質量掃描]。
分析數據
建立數據的配置檔,以查看每個數據行的高階靜態,並探索任何可能有新規則的異常狀況。
- 在 [整合式目錄 中,選取 [健康情況管理],然後選取 [數據品質]。
- 選 取配置檔數據
- 核取 [ 數據行名稱 ] 旁的頂端方塊,以分析所有數據行。 Microsoft Purview 會建議要分析哪些數據行,而且您可以選取您知道值得分析的數據行,以協助防止高度敏感數據的配置檔或您知道的數據會以疏鬆方式填入。
- 選 取 [執行配置檔]
掃描完成時,您將能夠檢閱新數據產品的數據品質分數和配置檔,而且目錄的所有使用者都能使用數據品質分數,以確保所有使用者都知道數據的狀態。
建立資料質量掃描的排程,以確保您持續監視數據質量問題。 設定警示,以確保您在取用者受到影響之前,先解決數據質量問題。
- 在 [ 健康情況管理] 下,選取 [數據品質]。
- 選取我們設定數據品質規則的個人健康狀態網域。
- 從 [ 管理] 下拉式清單中,選取 [ 排程掃描]。
- 在 [ 排程掃描] 頁面上,選取 [ 新增]。
- 新增 概觀 詳細數據
- 名稱:個人健康情況 DQ 每月評估
- 描述:每月掃描 DQ 規則以持續改進。
- 選取 [繼續]
- 選取掃描範圍
- 核取 [Covid-19 依年齡的趨勢] 數據產品旁的方塊
- 選取 [繼續]
- 排程掃描以確保在每個月的最後一天執行
- 選取 [週期性]
- 週期:每隔一個月
- 月份天數:上次
- 排程 UTC) (掃描時間:12:00:00
- 在UTC) (開始週期:保留為預設值
- 選取 [繼續]
- 檢閱掃描的詳細數據,以查看您是否想要在儲存之前進行任何變更。
- 選取 [儲存]。 因為我們稍早觸發了手動掃描,我們現在不需要觸發另一個掃描,但如果需要新的掃描,請選取 [ 儲存並執行]。
設定警示
一旦數據品質已排程掃描,系統就會觸發警示,讓主管知道數據質量問題或掃描失敗是否需要有問題或需要注意。 針對失敗的掃描以及分數降低超過 5% 時,設定資料品質警示。
- 返回 至 [數據品質] 頁面上的 [個人健康情況] 網域。
- 從 [ 管理] 下拉式清單中,選取 [ 警示]。
- 選取 [新增]。
- 輸入警示詳細數據
- 顯示名稱:個人健康情況 DQ 每月掃描
- 描述:確保最低 DQ 閾值符合取用者的期望。
- 目標:分數減少超過
- 閾值:5
- 關閉通知:保持未核取狀態
- 開啟失敗質量掃描的通知:保持核取狀態
- 收件者:輸入您的名稱
- 選取 [繼續]。
提示
在您的 整合式目錄 實作時,您會想要將警示傳送給監管人,以通知取用者問題,並與數據的技術擁有者合作進行更正。
在本節結束時,您現在會有運作良好的 整合式目錄,其中包含作業數據品質,以管理您提供給組織數據取用者的數據。 一切都是為了取得消費者最有價值的數據,並建立其所使用數據的信任。 隨著數據的價值成長和新的數據策略出現,下一節將協助示範如何管理整個目錄,或使用主數據更深入瞭解特定的數據管理。