データ資産のデータ品質スコアを参照して確認する
データ品質ルールを作成し、データ品質スキャンを実行すると、データ資産はルールの結果に基づいてデータ品質スコアを受け取ります。 この記事では、データ品質の結果をより深く理解できるようにスコアを計算する方法と、データの整合性を向上させるためのアクション 項目の開発に役立つ方法について説明します。
データ品質スコアを理解する
データ品質ルールの目的は、データの状態の説明を提供することです。 特に、ルールによって記述された理想的な状態からデータがどれだけ離れているかを示します。 各ルールを実行すると、データが目的の状態にどれだけ近づくかを示すスコアが生成されます。 ほとんどのルールは非常に簡単です。評価に合格した行の合計数を、スコアに到達する行の合計数で除算します。
列内のデータに対するルールのデータ品質スコアを計算するために使用される数式は次のとおりです。
[(total number of passed records)/(passed records + failed records + miscast records + empty records + ignored records)]
- Numerator = 渡されたレコードの数
- 分母 = レコードの合計数 (渡されたレコードの数 + 失敗したレコードの数 + 誤キャストレコードの数 + 空の数 + 無視されたレコードの数)
- 渡された - 適用されたルールを渡したレコードの数
- Unevaluable - このルールを評価するために必要な列は非常に重要ではありません
- 失敗 - 適用されたルールに失敗したレコードの数
- 誤キャスト - 資産のデータ型と、お客様が一致しないものとしてリストした型。 表現された型に変換することはできません。
- 空 - null または空白のレコード
- 無視 - 行がルールの評価に参加しませんでした。 お客様は、無視する行を表現できます。 電子メールを持つすべての行を無視する = "n/a" または departmentCode = 'test' または 'internal' のすべての行を無視する
Microsoft Purview データ品質列スコアを生成することで、各列の状態を把握できます。 このスコアは、その列のルールのすべてのスコアの平均です。
列スコアが計算されると、データ製品とガバナンス ドメインの平均データ品質スコアの計算に使用される数式は次のとおりです。
[(Percentage 1 + Percentage 2) / (Sample size 1 + Sample size 2)] x 100
(スコアを読みやすくするために、スコアに 100 を乗算します)。
計算例
"空/空白フィールド" 規則が定義されていない列があるとします。 これは、この列に対して null 値が許可されることを意味します。 そのため、 一意の値ルールのような特定のルールでは、その場合は null 値が除外されます。
たとえば、資産のテーブル内の行数が 10,000 で、3,000 が null で、500 が一意でない場合、スコアは次のようになります。 ((10000 - 3000 - 500)/(10000 - 3000) )* 100 = 93
null 行は、データを評価し、スコアを決定するときに無視されます。
特定のルール スコア
カスタム ルールの場合は、一意の値ルールと同様の機能がありますが、この場合、フィルターは null ではなくフィルター式にあります。
一部のルール ( 鮮度ルールなど) は、合格または失敗です。 そのため、スコアは 0 または 100 になります。 また、新しさルールは、列レベルではなく、データ資産レベルで適用されます。
ルールの詳細と履歴
ルールを選択すると、ルール スコアの詳細と履歴を表示できます。 特定のルール名を選択し、[ルール 履歴 ] タブに移動すると、特定のルールに対するさまざまなスキャン実行の傾向が表示されます。
ルール の詳細 は、特定のルールのさまざまな実行に対して渡された、失敗した、無視された行の数に関する情報を提供します。 ドラフト状態 (OFF 状態) のルールでは、スコアがグローバル スコアに影響しません。 ドラフト状態のルールは品質スキャン中にまったく実行されないため、スコアはありません。
列とルールには多対多のリレーションシップがあり、同じルールを多数の列に適用でき、多くのルールを同じ列に適用できます。 各ルールの傾向パターンを表示するには、[スキーマ] ウィンドウの [傾向] ラインを表示します。
資産レベルのデータ品質スコアの傾向は、過去 50 回の実行で使用できます。 この品質スコアの傾向は、データ品質スチュワードが月ごとのデータ品質の傾向と変動を監視するのに役立ちます。 また、品質スコアがしきい値またはビジネス期待値を満たしていない場合は、データ品質によってすべてのデータ品質スキャンに 対するアラートをトリガー することもできます。
グローバル スコアは、資産に対して定義されているすべての運用ルールの平均です。 資産レベルのグローバル スコアは、データ製品レベルとガバナンス ドメイン レベルにもロールアップされます。 グローバル スコアは、データの品質のコンテキストにおけるデータ資産、データ製品、ガバナンス ドメインの状態の公式定義を目的としています。
データ品質ディメンションの概要レポートが作成され、このレポートには各データ品質ディメンションのデータ品質スコアが含まれます。 ガバナンス ドメインのグローバル スコアもこのレポートで公開されています。 この Power BI レポートから、各ガバナンス ドメイン、データ製品、およびデータ資産の品質スコアを参照できます。
注:
データ品質ディメンションは、ビジネスの実行に使用しているデータの品質レベルを定量化するために、定義された標準に対して測定または評価できるデータの特徴を記述するために、データの専門家によって使用される用語として認識されます。