次の方法で共有


データ資産のデータ プロファイルを構成して実行する

注:

Microsoft Purview データ カタログは、名前を Microsoft Purview 統合カタログに変更しています。 すべての機能は同じままです。 新しい Microsoft Purview データ ガバナンス エクスペリエンスがリージョンで一般公開されると、名前の変更が表示されます。 リージョン内の名前を確認します

データ プロファイルは、さまざまなデータ ソースで使用可能なデータを調査し、このデータに関する統計情報と情報を収集するプロセスです。 データ プロファイルは、定義された目標セットに従ってデータの品質レベルを評価するのに役立ちます。 データの品質が低い場合、または企業のニーズを満たすために統合できない構造で管理されている場合、ビジネス プロセスと意思決定が苦しみます。 データ プロファイルを使用すると、データの信頼性と品質を理解できます。これは、収益を向上させ、成長を促進するデータ駆動型の意思決定を行う際の前提条件です。

前提条件

  • データ品質評価スキャンを実行してスケジュールするには、ユーザーが データ品質スチュワード ロールである必要があります。
  • 現在、Microsoft Purview アカウントは、パブリック アクセスまたはマネージド vNet アクセスを許可するように設定して、データ品質スキャンを実行できます。

データ品質のライフ サイクル

データ プロファイルは、データ資産のデータ品質ライフサイクル5 番目のステップです。 前の手順は次のとおりです。

  1. すべてのデータ品質機能を使用するために、データ カタログ内のユーザーのデータ品質スチュワードアクセス許可を割り当てます
  2. Microsoft Purview データ マップでデータ ソースを登録してスキャンします。
  3. データ製品にデータ資産を追加する
  4. データ品質評価のためにソースを準備するために、データ ソース接続を設定します

サポートされているマルチクラウド データ ソース

  • Azure Data Lake Storage (ADLS Gen2)
    • ファイルの種類: Delta Parquet と Parquet
  • Azure SQL データベース
  • OneLake のファブリック データ資産には、ショートカットとミラーリング データ資産が含まれます。 データ プロファイルは、Lakehouse デルタ テーブルと Parquet ファイルに対してのみサポートされます。
    • ミラーリング データ資産: CosmosDB、Snowflake、Azure SQL
    • ショートカット データ資産: AWS S3、GCS、AdlsG2、dataverse
  • サーバーレスおよびデータ ウェアハウスのAzure Synapse
  • Azure Databricks Unity Catalog
  • Snowflake
  • Google ビッグ クエリ (プライベート プレビュー)

重要

Parquet ファイルのデータ品質は、次をサポートするように設計されています。

  1. Parquet パーツ ファイルを含むディレクトリ。 例: ./Sales/{Parquet Part Files}。 完全修飾名は、 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}に従う必要があります。 ディレクトリ/サブディレクトリ構造に {n} パターンがないことを確認します。{SparkPartitions} につながる直接 FQN である必要があります。
  2. 年と月でパーティション分割された売上データなど、データセット内の列でパーティション分割されたパーティション分割された Parquet ファイルを含むディレクトリ。 例: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。

一貫性のある Parquet データセット スキーマを提示するこれらの重要なシナリオの両方がサポートされています。
制約: これは、Parquet Files を使用したディレクトリの N 個の任意の階層をサポートするように設計されていないか、サポートされていません。 (1) または (2) 構築された構造でデータを提示するようにお客様にアドバイスします。

サポートされている認証方法

現在、Microsoft Purview では、 マネージド ID を 認証オプションとして使用するデータ品質スキャンのみを実行できます。 データ品質サービスは 、Apache Spark 3.4Delta Lake 2.4 で実行されます。 サポートされているリージョンの詳細については、「 データ品質の概要」を参照してください。

重要

データ ソースでスキーマが更新された場合は、データ プロファイルを実行する前にデータ マップ スキャンを再実行する必要があります。

データ プロファイル ジョブを構成する手順

  1. まだ作成していない場合は、資産へのデータ ソース接続を構成します。

  2. Microsoft Purview データ カタログから、[正常性管理] メニューと [データ品質] サブメニューを選択します。

  3. データ品質サブメニューで、データ プロファイルの ガバナンス ドメイン を選択します。

  4. データ製品を選択して、その製品にリンクされたデータ資産をプロファイリングします。

    データ製品を選択する方法を示すデータ品質メニューのスクリーンショット。

  5. データ資産を選択して、プロファイル用のデータ品質 の [概要] ページに移動します。

  6. [ プロファイル ] ボタンを選択して、選択したデータ資産のプロファイル ジョブを実行します。

    [プロファイル] タブが強調表示されている [データ資産の概要] タブのスクリーンショット。

  7. AI レコメンデーション エンジンは、データ プロファイルを実行するために潜在的に重要な列を提案します。 推奨される列の選択を解除したり、プロファイリングする列をさらに選択したりできます。

    プロファイル列の提案のスクリーンショット。

  8. 関連する列を選択したら、[ プロファイルの実行] を選択します。

  9. ジョブの実行中は、 ガバナンス ドメインのデータ品質監視ページから進行状況を追跡できます

  10. ジョブが完了したら、資産のデータ品質ページの左側のメニューから [プロファイル] タブを選択して、プロファイリング結果と統計スナップショットを一覧表示します。 データ資産に含まれる列の数によっては、複数のプロファイル結果ページが存在する可能性があります。

    1 つの列が強調表示されているプロファイル ページのスクリーンショット。

  11. 各列のプロファイリング結果と統計メジャーを参照します。

    1 つの列の統計スナップショットのスクリーンショット。

重要

Parquet ファイルをプロファイリングするには、データ資産の種類を Parquet に変更する必要があります。 以下のスクリーン ショットを参照してください。

次のスクリーンショットに示すように、プロファイル ジョブを構成する前に、既定のデータ資産の種類 deltaParquet に変更します。

資産の種類の選択のスクリーンショット。

次の手順

  1. プロファイリング結果に基づいてデータ品質ルールを設定し、データ資産に適用します。
  2. データ製品でデータ品質スキャンを構成して実行 し、データ製品でサポートされているすべての資産の品質を評価します。
  3. スキャン結果を確認 して、データ製品の現在のデータ品質を評価します。