次の方法で共有


データ品質スキャンを構成して実行する

データ品質スキャンは、適用された データ品質ルール に基づいてデータ資産を確認し、スコアを生成します。 データ スチュワードは、そのスコアを使用してデータの正常性を評価し、データの品質を低下させる可能性がある問題に対処できます。

前提条件

  • データ品質評価スキャンを実行してスケジュールするには、ユーザーが データ品質スチュワード ロールである必要があります。
  • 現時点では、Microsoft Purview アカウントを設定して、パブリック アクセスまたはマネージド vNet アクセスを許可して、データ品質スキャンを実行できます。

データ品質のライフ サイクル

データ品質スキャンは、データ資産のデータ品質ライフサイクル7 番目のステップです。 前の手順は次のとおりです。

  1. すべてのデータ品質機能を使用するには、統合カタログでユーザーにデータ品質スチュワードのアクセス許可を割り当てます
  2. Microsoft Purview データ マップでデータ ソースを登録してスキャンします。
  3. データ製品にデータ資産を追加する
  4. データ品質評価のためにソースを準備するために、データ ソース接続を設定します
  5. データ ソース内の資産のデータ プロファイルを構成して実行します。
    1. プロファイリングが完了したら、データ資産の各列の結果を参照して、データの現在の構造と状態を把握します。
  6. プロファイリング結果に基づいてデータ品質ルールを設定し、データ資産に適用します。

サポートされているマルチクラウド データ ソース

  • Azure Data Lake Storage (ADLS Gen2)
    • ファイルの種類: Delta Parquet と Parquet
  • Azure SQL データベース
  • OneLake のファブリック データ資産には、ショートカットとミラーリング データ資産が含まれます。 データ品質スキャンは、Lakehouse デルタ テーブルと Parquet ファイルに対してのみサポートされます。
    • ミラーリング データ資産: CosmosDB、Snowflake、Azure SQL
    • ショートカット データ資産: AWS S3、GCS、AdlsG2、dataverse
  • サーバーレスおよびデータ ウェアハウスのAzure Synapse
  • Azure Databricks Unity Catalog
  • Snowflake
  • Google ビッグ クエリ (プライベート プレビュー)

重要

Parquet ファイルのデータ品質は、次をサポートするように設計されています。

  1. Parquet パーツ ファイルを含むディレクトリ。 例: ./Sales/{Parquet Part Files}。 完全修飾名は、 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}に従う必要があります。 ディレクトリ/サブディレクトリ構造に {n} パターンがないことを確認します。{SparkPartitions} につながる直接 FQN である必要があります。
  2. 年と月でパーティション分割された売上データなど、データセット内の列でパーティション分割されたパーティション分割された Parquet ファイルを含むディレクトリ。 例: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。

一貫性のある Parquet データセット スキーマを提示するこれらの重要なシナリオの両方がサポートされています。
制約: これは、Parquet Files を使用したディレクトリの N 個の任意の階層をサポートするように設計されていないか、サポートされていません。 (1) または (2) 構築された構造でデータを提示するようにお客様にアドバイスします。

サポートされている認証方法

現在、Microsoft Purview では、 マネージド ID を 認証オプションとして使用するデータ品質スキャンのみを実行できます。 データ品質サービスは 、Apache Spark 3.4Delta Lake 2.4 で実行されます。 サポートされているリージョンの詳細については、「 データ品質の概要」を参照してください。

重要

データ ソースでスキーマが更新された場合は、データ品質スキャンを実行する前にデータ マップ スキャンを再実行する必要があります。

データ品質スキャンを実行する

  1. データ 品質をスキャンする資産へのデータ ソース接続を構成します (まだ作成していない場合)。

  2. Microsoft Purview 統合カタログから、[正常性管理] メニューと [データ品質] サブメニューを選択します。

  3. 一覧から ガバナンス ドメイン を選択します。

    ガバナンス ドメインとデータ製品のスクリーンショット。

  4. データ製品を選択して、その製品にリンクされているデータ資産のデータ品質を評価します。

    データ製品のデータ資産を選択するスクリーンショット。

  5. データ製品を選択すると、[データ品質の 概要 ] ページに移動します。 このページの [ルール] メニューを選択すると、既存のデータ品質ルールを参照し、新しい ルール を追加できます。 データ資産のスキーマを参照するには、このページから [ スキーマ ] メニューを選択します。

    データ品質スキャンの概要ページのスクリーンショット。

  6. 選択した資産のスキャンに既に追加されているルールを参照し、[ 状態] 列でオンまたはオフを切り替えます。

    [データ品質ルール] ページのスクリーンショット。

  7. [概要] ページの [品質スキャンの実行] ボタンを選択して 、品質スキャンを実行 します。

    [実行品質スキャン] ボタンが強調表示されているデータ品質の概要ページのスクリーンショット。

  8. スキャンの実行中は、 ガバナンス ドメインのデータ品質監視ページから進行状況を追跡できます

データ品質スキャンをスケジュールする

データ品質スキャンは、[ 品質スキャンの実行 ] ボタンを選択することでアドホックに実行できますが、運用シナリオではソース データが常に更新されている可能性があるため、問題を検出するためにデータ品質を定期的に監視する必要があります。 品質スキャンの定期的な更新を管理できるように、スキャン プロセスを自動化できます。

  1. Microsoft Purview 統合カタログから、[正常性管理] メニューと [データ品質] サブメニューを選択します。

  2. 一覧から ガバナンス ドメイン を選択します。

  3. ページの右側にある [ 管理 ] ボタンを選択し、[ スケジュールされたスキャン] を選択します。

    [スケジュールされたスキャン] ボタンが強調表示されている、ガバナンス ドメインのデータ品質ページのスクリーンショット。

  4. [ スケジュールされたスキャンの作成 ] ページでフォームに入力します。 スケジュールを設定するソースの 名前説明 を追加します。

    スケジュールされたスキャン ページの作成の概要タブのスクリーンショット。

  5. [続行] を選択します。

  6. [ スコープ ] タブで、個々のデータ製品と資産、またはガバナンス ドメイン全体のすべてのデータ製品とデータ資産を選択します。

    [スケジュールされたスキャン ページスコープの作成] タブのスクリーンショット。

  7. [続行] を選択します。

  8. 設定に基づいてスケジュールを設定し、[続行] を選択 します

    [スケジュールされたスキャン ページスケジュールの作成] タブのスクリーンショット。

  9. [レビュー] タブで、[保存] (または [保存して実行してすぐにテスト] ) を選択して、データ品質評価スキャンのスケジュール設定を完了します。

    [スケジュールされたスキャン ページ レビューの作成] タブのスクリーンショット。

  10. スケジュールされたスキャンは、[スキャン] タブ[データ品質ジョブの監視] ページで監視できます。

以前のデータ品質スキャンを削除する

  1. Microsoft Purview 統合カタログから、[正常性管理] メニューと [データ品質] サブメニューを選択します。
  2. 一覧から ガバナンス ドメイン を選択します。
  3. ページの上部にある省略記号 ('...') ボタンを選択します。
  4. [ データ品質データの削除] を選択して、データ品質実行の履歴を削除します。

注:

この削除は、テスト実行、エラーが発生したデータ品質の実行、またはデータ製品からデータ資産を削除する場合にのみ使用することをお勧めします。

データ製品からデータ資産を削除する場合、そのデータ資産にデータ品質スコアがある場合は、まずデータ品質スコアを削除してから、データ製品からデータ資産を削除する必要があります。

重要

ソース システムで形式が標準で正しい場合、デルタ形式は主に自動検出されます。 Parquet または iceberg ファイル形式でデータ品質スコアリングをスキャンするには、データ資産の種類を Parquet または iceberg に変更する必要があります。 次のスクリーンショットに示すように、データ資産ファイル形式が差分でない場合は、既定のデータ資産の種類 *Parquet またはその他のサポートされている形式を変更します。 この変更は、データ品質スキャン ジョブを構成する前に行う必要があります。

資産の種類の選択のスクリーンショット。

次の手順