データ品質評価のためにデータ ソースを接続するためのデータ ソース接続を設定する
注:
Microsoft Purview データ カタログは、名前を Microsoft Purview 統合カタログに変更しています。 すべての機能は同じままです。 新しい Microsoft Purview データ ガバナンス エクスペリエンスがリージョンで一般公開されると、名前の変更が表示されます。 リージョン内の名前を確認します。
データ ソース接続は、統計スナップショットのデータをプロファイリングしたり、データ品質の異常やスコアリングをスキャンしたりするために必要な認証を設定します。
データ ソース接続の設定は、データ資産のデータ品質ライフ サイクルの 4 番目 の手順です。 前の手順は次のとおりです。
- すべてのデータ品質機能を使用するために、データ カタログ内のユーザーのデータ品質スチュワードアクセス許可を割り当てます。
- Microsoft Purview データ マップでデータ ソースを登録してスキャンします。
- データ製品にデータ資産を追加する
前提条件
- データ資産への接続を作成するには、ユーザーが データ品質スチュワード ロールである必要があります。
- 接続を設定するデータ ソースへの読み取りアクセス権が少なくとも必要です。
サポートされているマルチクラウド データ ソース
- Azure Data Lake Storage Gen2
- ファイルの種類: Delta Parquet と Parquet
- Azure SQL データベース
- ショートカットとミラーリング データ資産を含む OneLake のファブリック データ資産。 データ品質スキャンは、Lakehouse デルタ テーブルと Parquet ファイルに対してのみサポートされます。
- ミラーリング データ資産: Cosmos DB、Snowflake、Azure SQL
- ショートカット データ資産: AWS S3、GCS、AdlsG2
- サーバーレスおよびデータ ウェアハウスのAzure Synapse
- Azure Databricks Unity Catalog
- Snowflake
- Google ビッグ クエリ (プライベート プレビュー)
現在、Microsoft Purview では、 マネージド ID を 認証オプションとして使用するデータ品質スキャンのみを実行できます。 データ品質サービスは 、Apache Spark 3.4 と Delta Lake 2.4 で実行されます。
重要
これらのソースにアクセスするには、Azure Storage ソースにオープン ファイアウォールを設定するか、[信頼された Azure サービスを許可する] を設定するか、プライベート エンドポイントを使用する場合は、データ品質管理仮想ネットワーク構成ガイドに記載されているガイドラインに従う必要があります。
データ ソース接続のセットアップ
Microsoft Purview データ カタログから、[正常性管理] メニューと [データ品質] サブメニューを選択します。
一覧から ガバナンス ドメイン を選択する
[管理] ボタンを選択し、メニューから [Connections] を選択して [接続] ページを開きます。
[ 新しい ] タブを選択して、ガバナンス ドメインのデータ製品とデータ資産の新しい接続を作成します。
右側のパネルで、次の情報を入力します。
- 表示名
- 説明
[ ソースの種類] を選択し、いずれかのデータ ソースを選択します。
データ ソースに応じて、アクセスの詳細を入力します。
テスト接続が成功した場合は、接続構成を 送信 して接続のセットアップを完了します。
ヒント
プライベート エンドポイントとMicrosoft Purview データ品質マネージド仮想ネットワークを使用して、リソースへの接続を作成することもできます。 詳細については、マネージド仮想ネットワークに関する記事を参照してください。
接続のセットアップ手順は、ネイティブ コネクタによって異なります。 ネイティブ コネクタ ドキュメントからの接続セットアップ手順を確認して、Azure Databricsks、Snowflake、GoogBigQuery、synapse コネクタの接続をセットアップします。
ソースに対する Microsoft Purview アクセス許可を付与する
接続が作成されたので、データ ソースをスキャンできるようにするには、Microsoft Purview マネージド ID にデータ ソースに対するアクセス許可が必要になります。
Azure Data Lake Storage Gen2スキャンするには、ストレージ BLOB データ閲覧者ロールを Microsoft Purview マネージド ID に割り当てる必要があります。 ソース ページの手順に従って、マネージド ID のアクセス許可を割り当てることができます。
Azure SQL データベースをスキャンするには、db_datareaderロールを Microsoft Purview マネージド ID に割り当てます。 ソース ページの手順に従って、マネージド ID のアクセス許可を割り当てることができます。
関連コンテンツ
- Fabric データ資産のデータ品質
- Fabric ミラー化されたデータ ソースのデータ品質
- Fabric のデータ品質のショートカット データ ソース
- Azure Synapse サーバーレスおよびデータ ウェアハウスのデータ品質
- Azure Databricks Unity カタログのデータ品質
- Snowflake データ ソースのデータ品質
- Google ビッグ クエリのデータ品質
次の手順
- データ ソース内の資産のデータ プロファイルを構成して実行します。
- プロファイリング結果に基づいてデータ品質ルールを設定し、データ資産に適用します。
- データ製品でデータ品質スキャンを構成して実行 し、データ製品でサポートされているすべての資産の品質を評価します。
- スキャン結果を確認 して、データ製品の現在のデータ品質を評価します。