データ資産のデータ プロファイルを構成して実行する
注:
Microsoft Purview データ カタログは、名前を Microsoft Purview 統合カタログに変更しています。 すべての機能は同じままです。 新しい Microsoft Purview データ ガバナンス エクスペリエンスがリージョンで一般公開されると、名前の変更が表示されます。 リージョン内の名前を確認します。
データ プロファイルは、さまざまなデータ ソースで使用可能なデータを調査し、このデータに関する統計情報と情報を収集するプロセスです。 データ プロファイルは、定義された目標セットに従ってデータの品質レベルを評価するのに役立ちます。 データの品質が低い場合、または企業のニーズを満たすために統合できない構造で管理されている場合、ビジネス プロセスと意思決定が苦しみます。 データ プロファイルを使用すると、データの信頼性と品質を理解できます。これは、収益を向上させ、成長を促進するデータ駆動型の意思決定を行う際の前提条件です。
前提条件
- データ品質評価スキャンを実行してスケジュールするには、ユーザーが データ品質スチュワード ロールである必要があります。
- 現在、Microsoft Purview アカウントは、パブリック アクセスまたはマネージド vNet アクセスを許可するように設定して、データ品質スキャンを実行できます。
データ品質のライフ サイクル
データ プロファイルは、データ資産のデータ品質ライフサイクルの 5 番目のステップです。 前の手順は次のとおりです。
- すべてのデータ品質機能を使用するために、データ カタログ内のユーザーのデータ品質スチュワードアクセス許可を割り当てます。
- Microsoft Purview データ マップでデータ ソースを登録してスキャンします。
- データ製品にデータ資産を追加する
- データ品質評価のためにソースを準備するために、データ ソース接続を設定します。
サポートされているマルチクラウド データ ソース
- Azure Data Lake Storage (ADLS Gen2)
- ファイルの種類: Delta Parquet と Parquet
- Azure SQL データベース
- OneLake のファブリック データ資産には、ショートカットとミラーリング データ資産が含まれます。 データ プロファイルは、Lakehouse デルタ テーブルと Parquet ファイルに対してのみサポートされます。
- ミラーリング データ資産: CosmosDB、Snowflake、Azure SQL
- ショートカット データ資産: AWS S3、GCS、AdlsG2、dataverse
- サーバーレスおよびデータ ウェアハウスのAzure Synapse
- Azure Databricks Unity Catalog
- Snowflake
- Google ビッグ クエリ (プライベート プレビュー)
重要
Parquet ファイルのデータ品質は、次をサポートするように設計されています。
- Parquet パーツ ファイルを含むディレクトリ。 例: ./Sales/{Parquet Part Files}。 完全修飾名は、
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
に従う必要があります。 ディレクトリ/サブディレクトリ構造に {n} パターンがないことを確認します。{SparkPartitions} につながる直接 FQN である必要があります。 - 年と月でパーティション分割された売上データなど、データセット内の列でパーティション分割されたパーティション分割された Parquet ファイルを含むディレクトリ。 例: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。
一貫性のある Parquet データセット スキーマを提示するこれらの重要なシナリオの両方がサポートされています。
制約: これは、Parquet Files を使用したディレクトリの N 個の任意の階層をサポートするように設計されていないか、サポートされていません。
(1) または (2) 構築された構造でデータを提示するようにお客様にアドバイスします。
サポートされている認証方法
現在、Microsoft Purview では、 マネージド ID を 認証オプションとして使用するデータ品質スキャンのみを実行できます。 データ品質サービスは 、Apache Spark 3.4 と Delta Lake 2.4 で実行されます。 サポートされているリージョンの詳細については、「 データ品質の概要」を参照してください。
重要
データ ソースでスキーマが更新された場合は、データ プロファイルを実行する前にデータ マップ スキャンを再実行する必要があります。
データ プロファイル ジョブを構成する手順
Microsoft Purview データ カタログから、[正常性管理] メニューと [データ品質] サブメニューを選択します。
データ品質サブメニューで、データ プロファイルの ガバナンス ドメイン を選択します。
データ製品を選択して、その製品にリンクされたデータ資産をプロファイリングします。
データ資産を選択して、プロファイル用のデータ品質 の [概要] ページに移動します。
[ プロファイル ] ボタンを選択して、選択したデータ資産のプロファイル ジョブを実行します。
AI レコメンデーション エンジンは、データ プロファイルを実行するために潜在的に重要な列を提案します。 推奨される列の選択を解除したり、プロファイリングする列をさらに選択したりできます。
関連する列を選択したら、[ プロファイルの実行] を選択します。
ジョブの実行中は、 ガバナンス ドメインのデータ品質監視ページから進行状況を追跡できます。
ジョブが完了したら、資産のデータ品質ページの左側のメニューから [プロファイル] タブを選択して、プロファイリング結果と統計スナップショットを一覧表示します。 データ資産に含まれる列の数によっては、複数のプロファイル結果ページが存在する可能性があります。
各列のプロファイリング結果と統計メジャーを参照します。
重要
Parquet ファイルをプロファイリングするには、データ資産の種類を Parquet に変更する必要があります。 以下のスクリーン ショットを参照してください。
次のスクリーンショットに示すように、プロファイル ジョブを構成する前に、既定のデータ資産の種類 delta を Parquet に変更します。
関連コンテンツ
- Fabric データ資産のデータ品質
- Fabric ミラー化されたデータ ソースのデータ品質
- Fabric のデータ品質のショートカット データ ソース
- Azure Synapse サーバーレスおよびデータ ウェアハウスのデータ品質
- Azure Databricks Unity カタログのデータ品質
- Snowflake データ ソースのデータ品質
- Google ビッグ クエリのデータ品質
次の手順
- プロファイリング結果に基づいてデータ品質ルールを設定し、データ資産に適用します。
- データ製品でデータ品質スキャンを構成して実行 し、データ製品でサポートされているすべての資産の品質を評価します。
- スキャン結果を確認 して、データ製品の現在のデータ品質を評価します。