データ品質スキャンを構成して実行する

[アーティクル]
03/24/2025

データ品質スキャンは、適用されたデータ品質ルールに基づいてデータ資産を確認し、スコアを生成します。データスチュワードは、そのスコアを使用してデータの正常性を評価し、データの品質を低下させる可能性がある問題に対処できます。

前提条件

データ品質評価スキャンを実行してスケジュールするには、ユーザーがデータ品質スチュワードロールである必要があります。
現時点では、Microsoft Purview アカウントを設定して、パブリックアクセスまたはマネージド vNet アクセスを許可して、データ品質スキャンを実行できます。

データ品質のライフサイクル

データ品質スキャンは、データ資産のデータ品質ライフサイクルの 7 番目のステップです。前の手順は次のとおりです。

すべてのデータ品質機能を使用するには、統合カタログでユーザーにデータ品質スチュワードのアクセス許可を割り当てます。
Microsoft Purview データマップでデータソースを登録してスキャンします。
データ製品にデータ資産を追加する
データ品質評価のためにソースを準備するために、データソース接続を設定します。
データソース内の資産のデータプロファイルを構成して実行します。
1. プロファイリングが完了したら、データ資産の各列の結果を参照して、データの現在の構造と状態を把握します。
プロファイリング結果に基づいてデータ品質ルールを設定し、データ資産に適用します。

サポートされているマルチクラウドデータソース

サポートされているデータソースドキュメントを参照して、サポートされているデータソースの一覧を表示します。これには、vNet のサポートの有無に関係なく、データプロファイルやデータ品質スキャン用のファイル形式が含まれます。

重要

Parquet ファイルのデータ品質は、次をサポートするように設計されています。

Parquet パーツファイルを含むディレクトリ。例: ./Sales/{Parquet Part Files}。完全修飾名は、 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}に従う必要があります。ディレクトリ/サブディレクトリ構造に {n} パターンがないことを確認します。{SparkPartitions} につながる直接の FQN である必要があります。
年と月でパーティション分割された売上データなど、データセット内の列でパーティション分割されたパーティション分割された Parquet ファイルを含むディレクトリ。例: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。

これらの重要なシナリオはどちらもサポートされています。これは、一貫性のある Parquet データセットスキーマを示します。 制約： Parquet Files を使用したディレクトリの N 個の任意の階層をサポートするようには設計されていないか、サポートされません。 (1) または (2) 構築構造でデータを提示することをお勧めします。

サポートされている認証方法

現在、Microsoft Purview では、マネージド ID を認証オプションとして使用するデータ品質スキャンのみを実行できます。データ品質サービスは 、Apache Spark 3.4 と Delta Lake 2.4 で実行されます。サポートされているリージョンの詳細については、「データ品質の概要」を参照してください。

重要

データソースでスキーマが更新された場合は、データ品質スキャンを実行する前にデータマップスキャンを再実行する必要があります。また、データ品質の概要ページからスキーマインポート機能を使用することもできます。
マネージド vNet またはプライベートエンドポイントで実行されているデータソースでは、スキーマのインポートはサポートされていません。
vNet は、Azure Databricks、Google BigQuery、Snowflake ではサポートされていません

データ品質スキャンを実行する

データ品質をスキャンする資産へのデータソース接続を構成します (まだデータ品質を確認していない場合)。
Microsoft Purview 統合カタログから [正常性管理] を選択し、[データ品質] を選択します。
一覧から ガバナンスドメイン を選択します。
データ製品を選択して、その製品にリンクされているデータ資産のデータ品質を評価します。
データ資産の名前を選択すると、[データ品質の概要 ] ページに移動します。
[ ルール] を選択すると、既存のデータ品質ルールを参照し、新しいルールを追加できます。 [スキーマ] を選択すると、データ資産の スキーマを参照できます。既に追加されているルールをオンまたはオフに切り替えることができます。
[概要] ページで [品質スキャンの実行] を選択して 、品質スキャンを実行 します。
スキャンの実行中は、ガバナンスドメインのデータ品質監視ページから進行状況を追跡できます。

データ品質スキャンをスケジュールする

データ品質スキャンは、[ 品質スキャンの実行 ] ボタンを選択することでアドホックに実行できますが、運用シナリオではソースデータが常に更新されている可能性があるため、問題を検出するためにデータ品質を定期的に監視する必要があります。品質スキャンの定期的な更新を管理できるように、スキャンプロセスを自動化できます。

Microsoft Purview 統合カタログから [正常性管理] を選択し、[データ品質] を選択します。
一覧から ガバナンスドメイン を選択します。
[ 管理] を選択し、[ スケジュールされたスキャン] を選択します。
[ スケジュールされたスキャンの作成 ] ページでフォームに入力します。スケジュールを設定するソースの名前と説明を追加します。
[続行] を選択します。
[ スコープ ] タブで、個々のデータ製品と資産、またはガバナンスドメイン全体のすべてのデータ製品とデータ資産を選択します。
[続行] を選択します。
設定に基づいてスケジュールを設定し、[続行] を選択 します。
[ レビュー ] タブで、[ 保存 ] (または [保存して実行して すぐにテスト] ) を選択して、データ品質評価スキャンのスケジュール設定を完了します。

スケジュールされたスキャンは、[スキャン] タブの [データ品質ジョブの監視] ページで監視できます。

以前のデータ品質スキャンと履歴を削除する

データ製品からデータ資産を削除する場合、そのデータ資産にデータ品質スコアがある場合は、まずデータ品質スコアを削除してから、データ製品からデータ資産を削除する必要があります。

データ品質履歴データを削除すると、プロファイル履歴、データ品質スキャン履歴、データ品質ルールが削除されますが、データ品質アクションは削除されません。

以前のデータ品質スキャンを削除するには、次の手順に従います。

Microsoft Purview 統合カタログから、[正常性管理] メニューと [データ品質] サブメニューを選択します。
一覧から ガバナンスドメイン を選択します。
ページの右上にある省略記号 (...) を選択します。
[ データ品質データの削除] を選択して、データ品質実行の履歴を削除します。

注:

テストの実行、エラーが発生した データ品質 の実行、またはデータ製品からデータ資産を削除する場合にのみ、データ品質データの削除を使用することをお勧めします。
データ品質プロファイルとデータ品質評価履歴のスナップショットを最大 50 個保存します。特定のスナップショットを削除する場合は、目的の履歴の実行を選択し、削除アイコンを選択します。

次の方法で共有

データ品質スキャンを構成して実行する

前提条件

データ品質のライフサイクル

サポートされているマルチクラウドデータソース

サポートされている認証方法

データ品質スキャンを実行する

データ品質スキャンをスケジュールする

以前のデータ品質スキャンと履歴を削除する

次の手順

フィードバック

その他のリソース

次の方法で共有

データ品質スキャンを構成して実行する

前提条件

データ品質のライフ サイクル

サポートされているマルチクラウド データ ソース

サポートされている認証方法

データ品質スキャンを実行する

データ品質スキャンをスケジュールする

以前のデータ品質スキャンと履歴を削除する

関連コンテンツ

次の手順

フィードバック

その他のリソース

データ品質のライフサイクル

サポートされているマルチクラウドデータソース