共用方式為


數據品質

資料品質是雲端規模分析的一項管理功能。 它存在於資料管理登陸區域,是治理的核心部分。

資料品質考慮

資料品質是每一位創造和使用資料產品的人的責任。 創作者應遵守全球和領域規則,而使用者則應透過意見反饋機制向擁有資料網域報告資料不一致性。

由於資料品質影響到提供給董事會的所有資料,因此應該從組織的最高層開始。 董事會應該能深入瞭解提供給它們的數據品質。

然而,即使是主動的做法,仍然需要擁有資料品質專家,他們可以清理需要修正的大量資料。 請避免將此工作交給中央團隊,改為針對擁有特定數據專長的數據領域進行數據清理。

資料品質指標

資料品質指標是評估和提高您的資料產品品質的關鍵。 在全域和網域層面上,您需要決定您的品質指標。 我們至少建議下列計量:

計量 計量定義
完整性 = 非 Null 的總計 + 非空白 這個指標衡量資料的可用性,包括數據集中非空的欄位,以及更改過的預設值。 例如,如果記錄包含 01/01/1900 作為出生日期,則欄位極有可能從未填入。
唯一性 = 非重複資料刪除值的百分比 衡量給定列中的不同值數量與資料表中總行數的比率。 例如,如果在一個包含五個資料列的資料表中,有四個不同的顏色值 (紅色、藍色、黃色和綠色),那麼該欄位的唯一性是 80% (即4/5)。
一致性 = 具有模式的資料百分比 衡量給定列中資料遵循預期數據類型或格式的程度。 例如,包含格式化電子郵件地址的電子郵件欄位,或具有數值的名稱欄位。
參考匹配的有效性 = % 衡量資料成功匹配其網域參考集的程度。 例如,在一個遵循分類法值的國家/地區欄位中,如果出現了「US of A」這樣的值,那是不符合有效值標準的。
精確度 = 未修改值的 % 衡量在多個系統中成功重現預期值的程度。 例如,如果一張發票列出的 SKU 和擴展價格與原始訂單不同,那麼該發票行項目是不準確的。
連結 = 整合良好資料的百分比 衡量成功關聯到另一系統中的伴隨參考細節的程度。 例如,如果發票列出的 SKU 或產品描述不正確,那麼該發票行項目就無法與其他系統中的參考細節建立連結。

資料剖析

資料剖析會檢查在資料目錄中註冊的數據產品,並收集該資料的統計資料和資訊。 為了提供有關資料品質的摘要和趨勢檢視,將這些資料儲存在您的中繼資料庫中,與資料產品相關聯。

資料剖析幫助使用者回答有關資料產品的問題,包括:

  • 是否可用來解決商務問題?
  • 資料是否符合特定標準或模式?
  • 資料來源有哪些異常之處?
  • 將此資料整合到我的應用程式中可能面臨哪些挑戰?

使用者可以透過他們的資料市場中的報告儀表板查看資料產品剖析。

您可以回報這類項目,例如:

  • 完整性:指出不是空白或 Null 的數據百分比。
  • 唯一性:指出未重複的數據百分比。
  • 一致性:表示資料完整性得到維護的狀態。

資料品質建議

要實施資料品質,您需要同時使用人力和計算能力,具體如下:

  • 使用包含演算法、規則、數據分析和計量的解決方案。

  • 使用網域專家,他們可以在計算層出現大量錯誤時介入,協助訓練算法。

  • 提早驗證。 傳統解決方案會在擷取、轉換和載入數據之後套用數據質量檢查。 此時,資料產品已經在使用中,錯誤已經顯現到下游的資料產品中。 相反,當資料從來源處被擷取時,應在來源處附近實施資料品質檢查,並在下游使用者使用資料產品之前進行檢查。 如果是從資料湖進行批次擷取,則在將資料從原始狀態轉換為增強狀態時進行這些檢查。

    如何在資料擷取過程中實施資料品質的圖表。

  • 在將資料移至增強層之前,會檢查其架構和欄位是否符合資料目錄中註冊的中繼資料。

  • 如果數據包含錯誤,則會停止載入,且數據應用程式小組會收到失敗的通知。

  • 如果架構和欄位檢查通過,資料將以符合的資料類型載入到增強層中。

  • 在將資料移至增強層之前,資料品質過程會檢查資料是否符合算法和規則。

提示

在全域和網域層級定義資料品質規則。 這樣做使企業能夠為每個建立的資料產品定義其標準,並使資料網域能夠制定與其網域相關的附加規則。

資料品質解決方案

建議您評估 Microsoft Purview 資料品質 作為評估和管理數據品質的解決方案,這對於可靠的 AI 驅動見解和決策至關重要。 包括:

  • 無程式代碼/低程式碼規則:使用現用的 AI 產生的規則來評估資料品質。
  • AI 支援的數據分析:建議數據行進行分析,並允許人為介入進行精簡。
  • 數據品質評分:提供數據資產、數據產品和治理網域的分數。
  • 數據品質警示:通知數據擁有者質量問題。

如需更多資訊,請參閱什麼是資料品質

如果您的組織決定實作 Azure Databricks 來管理數據,則您應該評估此解決方案所提供的數據品質控制、測試、監視和強制執行。 使用 預期 可以擷取數據質量問題,再影響相關的子數據產品。 如需詳細資訊,請參閱使用 Databricks 建立數據品質標準和數據管理。

您也可以從合作夥伴、開放原始碼和自訂選項中選擇資料品質解決方案。

資料品質摘要

修正資料品質問題可能對企業產生重大影響。 這可能導致業務單位以不同的方式解讀資料產品。 如果決策是以數據品質較低的數據產品為基礎,這種誤解對企業來說可能很昂貴。 修正遺漏屬性的數據產品可能是一項昂貴的工作,而且可能需要從數個期間完整重載數據。

儘早驗證數據品質,並讓程式能夠主動解決數據品質不佳的問題。 例如,資料產品在達到一定程度的完整性之前,不能釋放到生產環境中。

您可以自由選擇使用工具,但要確保這些工具包括期望 (規則)、資料指標、資料分析,以及能夠保護這些期望的功能,以便您可以實施全域和網域基礎的期望。

下一步