資料品質
資料品質是雲端規模分析的一項管理功能。 它存在於資料管理登陸區域,是治理的核心部分。
資料品質考慮
資料品質是每一位創造和使用資料產品的人的責任。 創作者應遵守全球和領域規則,而使用者則應透過意見反饋機制向擁有資料網域報告資料不一致性。
由於資料品質影響到提供給董事會的所有資料,因此應該從組織的最高層開始。 董事會應該了解提供給他們的資料品質。
然而,即使是主動的做法,仍然需要擁有資料品質專家,他們可以清理需要修正的大量資料。 避免將這項工作推給中央團隊,而應該針對擁有特定資料知識的資料領域來清理資料。
資料品質指標
資料品質指標是評估和提高您的資料產品品質的關鍵。 在全域和網域層面上,您需要決定您的品質指標。 至少,我們建議關注以下指標。
計量 | 讀取計量定義 |
---|---|
完整性 = 非 Null 的總計 + 非空白 | 這個指標衡量資料的可用性,包括數據集中非空的欄位,以及更改過的預設值。 例如,如果記錄包含 01/01/1900 作為出生資料,很可能從未填入欄位。 |
唯一性 = 非重複資料刪除值的百分比 | 衡量給定列中的不同值數量與資料表中總行數的比率。 例如,如果在一個包含五個資料列的資料表中,有四個不同的顏色值 (紅色、藍色、黃色和綠色),那麼該欄位的唯一性是 80% (即4/5)。 |
一致性 = 具有模式的資料百分比 | 衡量給定列中資料遵循預期數據類型或格式的程度。 例如,包含格式化電子郵件地址的電子郵件欄位,或具有數值的名稱欄位。 |
有效性 = 參考比對的百分比 | 衡量資料成功匹配其網域參考集的程度。 例如,在一個遵循分類法值的國家/地區欄位中,如果出現了「US of A」這樣的值,那是不符合有效值標準的。 |
精確度 = 未修改值的百分比 | 衡量在多個系統中成功重現預期值的程度。 例如,如果一張發票列出的 SKU 和擴展價格與原始訂單不同,那麼該發票行項目是不準確的。 |
連結 = 整合良好資料的百分比 | 衡量成功關聯到另一系統中的伴隨參考細節的程度。 例如,如果發票列出的 SKU 或產品描述不正確,那麼該發票行項目就無法與其他系統中的參考細節建立連結。 |
資料剖析
數據剖析檢查已註冊在資料目錄中的資料產品,並收集有關該資料的統計資訊和其他細節。 為了提供有關資料品質的摘要和趨勢檢視,將這些資料儲存在您的中繼資料庫中,與資料產品相關聯。
資料剖析幫助使用者回答有關資料產品的問題,包括:
- 是否可用來解決商務問題?
- 資料是否符合特定標準或模式?
- 資料來源有哪些異常之處?
- 將此資料整合到應用程式時可能面臨哪些挑戰?
使用者可以透過他們的資料市場中的報告儀表板查看資料產品剖析。
您可以回報這類項目,例如:
- 完整性:指出資料中非空白或非 null 的百分比。
- 唯一性:指示資料中非重複的百分比。
- 一致性:指示資料完整性得到維護的資料。
資料品質建議
要實施資料品質,您需要同時使用人力和計算能力,具體如下:
使用包含演算法、規則、數據分析和計量的解決方案。
使用網域專家,他們可以在計算層出現大量錯誤時介入,協助訓練算法。
提早驗證。 傳統解決方案會在擷取、轉換和載入數據之後套用數據質量檢查。 此時,資料產品已經在使用中,錯誤已經顯現到下游的資料產品中。 相反,當資料從來源處被擷取時,應在來源處附近實施資料品質檢查,並在下游使用者使用資料產品之前進行檢查。 如果是從資料湖進行批次擷取,則在將資料從原始狀態轉換為增強狀態時進行這些檢查。
在將資料移至增強層之前,會檢查其架構和欄位是否符合資料目錄中註冊的中繼資料。
如果資料包含錯誤,載入會被停止,並通知資料應用團隊故障情況。
如果架構和欄位檢查通過,資料將以符合的資料類型載入到增強層中。
在將資料移至增強層之前,資料品質過程會檢查資料是否符合算法和規則。
提示
在全域和網域層級定義資料品質規則。 這樣做使企業能夠為每個建立的資料產品定義其標準,並使資料網域能夠制定與其網域相關的附加規則。
資料品質解決方案
建議您評估 Microsoft Purview 資料品質 作為評估和管理數據品質的解決方案,這對於可靠的 AI 驅動見解和決策至關重要。 包括:
- 無程式代碼/低程式碼規則:使用現用的 AI 產生的規則來評估資料品質。
- AI 支援的數據分析:建議數據行進行分析,並允許人為介入進行精簡。
- 數據品質評分:提供數據資產、數據產品和治理網域的分數。
- 數據品質警示:通知數據擁有者質量問題。
如需更多資訊,請參閱什麼是資料品質。
如果您的組織決定實作 Azure Databricks 來操作數據,則您應該評估此解決方案所提供的數據品質控制、測試、監視和強制執行。 使用 預期 可以擷取數據質量問題,再影響相關的子數據產品。 如需詳細資訊,請參閱使用 Databricks 建立數據品質標準和數據管理。
您也可以從合作夥伴、開放原始碼和自訂選項中選擇資料品質解決方案。
資料品質摘要
修正資料品質問題可能對企業產生重大影響。 這可能導致業務單位以不同的方式解讀資料產品。 這種誤解可能對企業造成損失,因為基於資料品質較低的資料產品作出的決策可能會帶來高昂的代價。 修正缺少屬性的資料產品可能是一項昂貴的任務,並可能需要從多個時間段進行完整的資料重新載入。
及早驗證資料品質並建立流程以主動處理資料品質問題。 例如,資料產品在達到一定程度的完整性之前,不能釋放到生產環境中。
您可以自由選擇使用工具,但要確保這些工具包括期望 (規則)、資料指標、資料分析,以及能夠保護這些期望的功能,以便您可以實施全域和網域基礎的期望。