共用方式為


流覽和檢閱數據資產的數據品質分數

建立 數據品質規則執行數據品質掃描之後,您的數據資產將會根據規則的結果收到數據品質分數。 本文涵蓋如何計算分數,讓您更深入了解數據質量結果,並協助您開發動作專案來改善數據的完整性。

了解數據品質分數

數據品質規則的目標是提供數據狀態的描述。 特別是,它會顯示數據與規則所描述的理想狀態有多遠。 每個規則在執行時都會產生一個分數,描述數據與其所需狀態的接近程度。 大部分的規則都是非常直接的;它們會將通過評量的數據列總數除以到達分數的數據列總數。

用來針對資料列中的數據計算規則資料品質分數的公式為:

[(total number of passed records)/(passed records + failed records + miscast records + empty records + ignored records)]

  • Numerator = 已傳遞的記錄數目
  • 分母 = 記錄總數 (已傳遞記錄數目 + 失敗記錄數目 + 誤播記錄數目 + 空白數目 + 忽略的記錄數目)
    • 已通過 - 通過已套用規則的記錄數目
    • 無法評估 - 評估此規則所需的數據行不可評估
    • 失敗 - 已套用規則失敗的記錄數目
    • 誤播 - 資產的數據類型,以及客戶將其列為不相符的類型。 它無法轉換成表示的型別。
    • 空白 - Null 或空白記錄
    • 已忽略 - 數據列未參與規則評估。 客戶可以表示要忽略的數據列。 就像忽略具有電子郵件 = “n/a” 的所有數據列或忽略 departmentCode = 'test' 或 'internal' 的所有數據列

然後 Microsoft Purview 資料品質 產生數據行分數,讓您瞭解每個數據行的狀態。 此分數是該數據行上所有規則分數的平均值。

顯示數據行層級數據品質分數的螢幕快照。

計算數據行分數之後,用來計算數據產品和治理網域之平均百分比數據品質分數的公式為:

[(Percentage 1 + Percentage 2) / (Sample size 1 + Sample size 2)] x 100

(分數乘以 100,讓分數更容易閱讀。)

範例計算

假設有一個數據行沒有定義 「空白/空白欄位」規則 。 這表示允許此數據行使用 Null 值。 因此,特定規則,例如 唯一值規則,會在該情況下篩選掉 Null 值。

例如:如果資產在數據表中有 10,000 個數據列,但 3,000 個數據列為 Null 且 500 不是唯一的,則分數會是: ((10000 - 3000 - 500)/(10000 - 3000) )* 100 = 93

評估數據並判斷分數時,會忽略 Null 數據列。

特定規則分數

針對 自定義規則 ,您可能會看到唯一值規則的類似功能,但在此情況下,篩選條件不是以 Null 為準,而是篩選表達式。

某些規則,例如 有效性規則,可能是通過或失敗。 因此,其分數會是0或100。 而有效性規則會套用至數據資產層級,而不是數據行層級。

規則詳細數據和歷程記錄

您可以選取規則來檢視規則分數的詳細資料和歷程記錄。 選取特定規則名稱並瀏覽至規則 歷程 記錄索引標籤,您會看到特定規則的不同掃描執行趨勢。

  • 規則 詳細數據 會針對特定規則的各種執行,提供所傳遞、失敗和忽略之數據列數目的相關信息。 處於 草稿狀態 的規則 (OFF 狀態) 不會讓其分數參與全域分數。 處於草稿狀態的規則完全不會在質量掃描期間執行,因此不會有分數。

    顯示規則層級數據品質分數的螢幕快照。

  • 數據行和規則有許多關聯性、相同的規則可以套用至許多數據行,而許多規則可以套用至相同的數據行。 您可以檢視 [架] 窗格中的 [趨勢] 線,以檢視每個規則的趨勢模式。

    顯示規則趨勢線的螢幕快照

  • 資產層級數據品質分數趨勢適用於過去 50 次執行。 此品質分數趨勢可協助數據品質主管監視數據品質趨勢和每月的波動。 如果品質分數不符合閾值或商務預期,數據品質也可以觸發每個數據質量掃描的 警示

    數據實體數據品質分數趨勢的螢幕快照。

  • 全域分數是資產上定義之所有生產規則的平均值。 資產層級全域分數也會匯總到數據產品層級和治理網域層級。 全域分數的目的是要在數據質量的內容中,正式定義數據資產、數據產品和治理網域的狀態。

    顯示治理網域之全域數據品質分數的螢幕快照。

  • 系統會針對數據品質維度建立摘要報表,此報表包含每個數據品質維度的數據品質分數。 治理網域的全域分數也會在此報告中發佈。 您可以從此 Power BI 報表流覽每個治理網域、數據產品和數據資產的品質分數。

    數據質量維度報表

注意事項

數據品質維度是數據從業人員用來描述數據特徵的辨識詞彙,可根據定義的標準進行測量或評估,以量化我們用來執行業務的數據品質層級。

後續步驟