データ資産のデータ プロファイルを構成して実行する
データ プロファイルは、さまざまなデータ ソースで使用可能なデータを調査し、このデータに関する統計情報と情報を収集するプロセスです。 データ プロファイルは、定義された目標セットに従ってデータの品質レベルを評価するのに役立ちます。 データの品質が低い場合、または企業のニーズを満たすために統合できない構造で管理されている場合、ビジネス プロセスと意思決定が苦しみます。 データ プロファイルを使用すると、データの信頼性と品質を理解できます。これは、収益を向上させ、成長を促進するデータ駆動型の意思決定を行う際の前提条件です。
前提条件
- データ品質評価スキャンを実行してスケジュールするには、ユーザーが データ品質スチュワード ロールである必要があります。
- 現在、Microsoft Purview アカウントは、パブリック アクセスまたはマネージド vNet アクセスを許可するように設定して、データ品質スキャンを実行できます。
データ品質のライフ サイクル
データ プロファイルは、データ資産のデータ品質ライフサイクルの 5 番目のステップです。 前の手順は次のとおりです。
- すべてのデータ品質機能を使用するには、統合カタログでユーザーにデータ品質スチュワードのアクセス許可を割り当てます。
- Microsoft Purview データ マップでデータ ソースを登録してスキャンします。
- データ製品にデータ資産を追加する
- データ品質評価のためにソースを準備するために、データ ソース接続を設定します。
サポートされているマルチクラウド データ ソース
- Azure Data Lake Storage (ADLS Gen2)
- ファイルの種類: Delta Parquet と Parquet
- Azure SQL データベース
- OneLake のファブリック データ資産には、ショートカットとミラーリング データ資産が含まれます。 データ プロファイルは、Lakehouse デルタ テーブルと Parquet ファイルに対してのみサポートされます。
- ミラーリング データ資産: Cosmos DB、Snowflake、Azure SQL
- ショートカット データ資産: AWS S3、GCS、AdlsG2、Dataverse
- サーバーレスおよびデータ ウェアハウスのAzure Synapse
- Azure Databricks Unity Catalog
- Snowflake
- Google ビッグ クエリ (プレビュー)
- ADLS Gen2、Microsoft Fabric Lakehouse、AWS S3、GCP GCS の Iceberg データ
重要
Parquet ファイルのデータ品質は、次をサポートするように設計されています。
- Parquet パーツ ファイルを含むディレクトリ。 例: ./Sales/{Parquet Part Files}。 完全修飾名は、
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
に従う必要があります。 ディレクトリ/サブディレクトリ構造に {n} パターンが含まれていないことを確認します。{SparkPartitions} に至る直接の FQN である必要があります。 - 年と月でパーティション分割された売上データなど、データセット内の列でパーティション分割されたパーティション分割された Parquet ファイルを含むディレクトリ。 例: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。
これらの重要なシナリオはどちらもサポートされています。これは、一貫性のある Parquet データセット スキーマを示します。 制約: これは、Parquet ファイルを含むディレクトリの N 個の任意の階層をサポートするように設計されていないか、サポートされません。 (1) または (2) 構築構造でデータを提示することをお勧めします。
サポートされている認証方法
現在、Microsoft Purview では、 マネージド ID を 認証オプションとして使用するデータ品質スキャンのみを実行できます。 データ品質サービスは 、Apache Spark 3.4 と Delta Lake 2.4 で実行されます。 サポートされているリージョンの詳細については、「 データ品質の概要」を参照してください。
重要
- データ ソースでスキーマが更新された場合は、データ プロファイルを実行する前にデータ マップ スキャンを再実行する必要があります。 スキーマインポート機能を使用して、データ品質の概要ページからスキーマをインポートできます。 データ ソースがマネージド vNet またはプライベート エンドポイントで実行されている場合、スキーマインポート機能はサポートされていません。
- vNet は、Azure Databricks、Google BigQuery、Snowflake ではサポートされていません。
- 現在のバージョンでは、バッチあたり 50 列をプロファイリングできます。 データ資産に 50 を超える列がある場合は、追加の列をより多くのバッチでプロファイリングできます。
- 列に個別の値が含まれている場合は、その列をプロファイリングしないことをお勧めします。 個別の値を持つ列では、正規分布を作成できません。
データ プロファイル ジョブを構成する手順
Microsoft Purview 統合カタログから、[正常性管理] メニューと [データ品質] サブメニューを選択します。
データ品質サブメニューで、データ プロファイルの ガバナンス ドメイン を選択します。
データ製品を選択して、その製品にリンクされたデータ資産をプロファイリングします。
データ資産を選択して、プロファイル用のデータ品質 の [概要] ページに移動します。
[ プロファイル ] ボタンを選択して、選択したデータ資産のプロファイル ジョブを実行します。
AI レコメンデーション エンジンは、データ プロファイルを実行するために潜在的に重要な列を提案します。 推奨される列の選択を解除したり、プロファイリングする列をさらに選択したりできます。
関連する列を選択したら、[ プロファイルの実行] を選択します。
ジョブの実行中は、 ガバナンス ドメインのデータ品質監視ページから進行状況を追跡できます。
ジョブが完了したら、資産のデータ品質ページの左側のメニューから [プロファイル] タブを選択して、プロファイリング結果と統計スナップショットを一覧表示します。 データ資産に含まれる列の数によっては、複数のプロファイル結果ページが存在する可能性があります。
各列のプロファイリング結果と統計メジャーを参照します。
重要
ソース システムで形式が標準で正しい場合、デルタ形式は主に自動検出されます。 Parquet または iceberg ファイル形式をプロファイルするには、データ資産の種類を Parquet または iceberg に変更する必要があります。 次のスクリーンショットに示すように、データ資産ファイルの形式が差分でない場合は、既定のデータ資産の種類 Parquet またはその他のサポートされている形式を変更します。 この変更は、プロファイル ジョブを構成する前に行う必要があります。
関連コンテンツ
- Fabric Data estate のデータ品質
- Fabric ミラー化されたデータ ソースのデータ品質
- Fabric ショートカット データ ソースのデータ品質
- Azure Synapseサーバーレスおよびデータ ウェアハウスのデータ品質
- Azure Databricks Unity カタログのデータ品質
- Snowflake データ ソースのデータ品質
- Google ビッグ クエリのデータ品質
次の手順
- プロファイリング結果に基づいてデータ品質ルールを設定し、データ資産に適用します。
- データ製品でデータ品質スキャンを構成して実行 し、データ製品でサポートされているすべての資産の品質を評価します。
- スキャン結果を確認 して、データ製品の現在のデータ品質を評価します。