データ資産のデータプロファイルを構成して実行する

[アーティクル]
02/25/2025

データプロファイルは、さまざまなデータソースで使用可能なデータを調査し、このデータに関する統計情報と情報を収集するプロセスです。データプロファイルは、定義された目標セットに従ってデータの品質レベルを評価するのに役立ちます。データの品質が低い場合、または企業のニーズを満たすために統合できない構造で管理されている場合、ビジネスプロセスと意思決定が苦しみます。データプロファイルを使用すると、データの信頼性と品質を理解できます。これは、収益を向上させ、成長を促進するデータ駆動型の意思決定を行う際の前提条件です。

前提条件

データ品質評価スキャンを実行してスケジュールするには、ユーザーがデータ品質スチュワードロールである必要があります。
現在、Microsoft Purview アカウントは、パブリックアクセスまたはマネージド vNet アクセスを許可するように設定して、データ品質スキャンを実行できます。

データ品質のライフサイクル

データプロファイルは、データ資産のデータ品質ライフサイクルの 5 番目のステップです。前の手順は次のとおりです。

すべてのデータ品質機能を使用するには、統合カタログでユーザーにデータ品質スチュワードのアクセス許可を割り当てます。
Microsoft Purview データマップでデータソースを登録してスキャンします。
データ製品にデータ資産を追加する
データ品質評価のためにソースを準備するために、データソース接続を設定します。

サポートされているマルチクラウドデータソース

Azure Data Lake Storage (ADLS Gen2)
- ファイルの種類: Delta Parquet と Parquet
Azure SQL データベース
OneLake のファブリックデータ資産には、ショートカットとミラーリングデータ資産が含まれます。データプロファイルは、Lakehouse デルタテーブルと Parquet ファイルに対してのみサポートされます。
- ミラーリングデータ資産: Cosmos DB、Snowflake、Azure SQL
- ショートカットデータ資産: AWS S3、GCS、AdlsG2、Dataverse
サーバーレスおよびデータウェアハウスのAzure Synapse
Azure Databricks Unity Catalog
Snowflake
Google ビッグクエリ (プレビュー)
ADLS Gen2、Microsoft Fabric Lakehouse、AWS S3、GCP GCS の Iceberg データ

重要

Parquet ファイルのデータ品質は、次をサポートするように設計されています。

Parquet パーツファイルを含むディレクトリ。例: ./Sales/{Parquet Part Files}。完全修飾名は、 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}に従う必要があります。ディレクトリ/サブディレクトリ構造に {n} パターンが含まれていないことを確認します。{SparkPartitions} に至る直接の FQN である必要があります。
年と月でパーティション分割された売上データなど、データセット内の列でパーティション分割されたパーティション分割された Parquet ファイルを含むディレクトリ。例: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。

これらの重要なシナリオはどちらもサポートされています。これは、一貫性のある Parquet データセットスキーマを示します。 制約： これは、Parquet ファイルを含むディレクトリの N 個の任意の階層をサポートするように設計されていないか、サポートされません。 (1) または (2) 構築構造でデータを提示することをお勧めします。

サポートされている認証方法

現在、Microsoft Purview では、マネージド ID を認証オプションとして使用するデータ品質スキャンのみを実行できます。データ品質サービスは 、Apache Spark 3.4 と Delta Lake 2.4 で実行されます。サポートされているリージョンの詳細については、「データ品質の概要」を参照してください。

重要

データソースでスキーマが更新された場合は、データプロファイルを実行する前にデータマップスキャンを再実行する必要があります。スキーマインポート機能を使用して、データ品質の概要ページからスキーマをインポートできます。データソースがマネージド vNet またはプライベートエンドポイントで実行されている場合、スキーマインポート機能はサポートされていません。
vNet は、Azure Databricks、Google BigQuery、Snowflake ではサポートされていません。
現在のバージョンでは、バッチあたり 50 列をプロファイリングできます。データ資産に 50 を超える列がある場合は、追加の列をより多くのバッチでプロファイリングできます。
列に個別の値が含まれている場合は、その列をプロファイリングしないことをお勧めします。個別の値を持つ列では、正規分布を作成できません。

データプロファイルジョブを構成する手順

データ品質をスキャンする資産へのデータソース接続を構成します (まだデータ品質を確認していない場合)。
Microsoft Purview 統合カタログから [正常性管理] を選択し、[データ品質] を選択します。
一覧から ガバナンスドメイン を選択します。
データ製品を選択して、その製品にリンクされたデータ資産をプロファイリングします。
データ資産を選択して、プロファイル用のデータ品質 の [概要] ページに移動します。
[ プロファイル ] ボタンを選択して、選択したデータ資産のプロファイルジョブを実行します。
AI レコメンデーションエンジンは、データプロファイルを実行するために潜在的に重要な列を提案します。推奨される列の選択を解除したり、プロファイリングする列をさらに選択したりできます。
関連する列を選択したら、[ プロファイルの実行] を選択します。
ジョブの実行中は、ガバナンスドメインのデータ品質監視ページから進行状況を追跡できます。
ジョブが完了したら、資産のデータ品質ページの左側のメニューから [プロファイル] タブを選択して、プロファイリング結果と統計スナップショットを一覧表示します。データ資産に含まれる列の数によっては、複数のプロファイル結果ページが存在する可能性があります。
各列のプロファイリング結果と統計メジャーを参照します。

次の手順

プロファイリング結果に基づいてデータ品質ルールを設定し、データ資産に適用します。
データ製品でデータ品質スキャンを構成して実行し、データ製品でサポートされているすべての資産の品質を評価します。
スキャン結果を確認して、データ製品の現在のデータ品質を評価します。

次の方法で共有

データ資産のデータプロファイルを構成して実行する

前提条件

データ品質のライフサイクル

サポートされているマルチクラウドデータソース

サポートされている認証方法

データプロファイルジョブを構成する手順

次の手順

フィードバック

その他のリソース

次の方法で共有

データ資産のデータ プロファイルを構成して実行する

前提条件

データ品質のライフ サイクル

サポートされているマルチクラウド データ ソース

サポートされている認証方法

データ プロファイル ジョブを構成する手順

関連コンテンツ

次の手順

フィードバック

その他のリソース

データ資産のデータプロファイルを構成して実行する

データ品質のライフサイクル

サポートされているマルチクラウドデータソース

データプロファイルジョブを構成する手順