databricks Unity カタログ データベースのデータ品質
注:
Microsoft Purview データ カタログは、名前を Microsoft Purview 統合カタログに変更しています。 すべての機能は同じままです。 新しい Microsoft Purview データ ガバナンス エクスペリエンスがリージョンで一般公開されると、名前の変更が表示されます。 リージョン内の名前を確認します。
カタログUnity使用するには、Azure Databricks ワークスペースを Unity カタログに対して有効にする必要があります。つまり、ワークスペースはUnity カタログ メタストアにアタッチされます。 新しいワークスペースはすべて作成時にUnityカタログに対して自動的に有効になりますが、古いワークスペースでは、アカウント管理者がカタログUnity手動で有効にする必要がある場合があります。 ワークスペースがUnity カタログに対して自動的に有効になっているかどうかにかかわらず、Unity カタログの使用を開始するには、次の手順も必要です。
- テーブルやボリュームなどのデータベース オブジェクトを格納するカタログとスキーマを作成します。
- マネージド ストレージの場所を作成して、これらのカタログとスキーマにマネージド テーブルとボリュームを格納します。
- カタログ、スキーマ、およびデータベース オブジェクトへのアクセス権をユーザーに付与します。
Unity カタログに対して自動的に有効になっているワークスペースは、すべてのワークスペース ユーザーに付与された広範な特権を持つワークスペース カタログをプロビジョニングします。 このカタログは、カタログUnity試す際に便利な出発点です。
詳細なセットアップ手順については、「カタログのセットアップと管理」Unity参照してください。
Azure Databricks Unity Catalog をスキャンする場合、Microsoft Purview では次の処理がサポートされます。
- メタストア
- カタログ
- Schemas
- 列を含むテーブル
- 列を含むビュー
スキャンを設定するときに、カタログ全体をスキャンするか、カタログのサブセットUnityスキャンのスコープを設定するかを選択できます。
Databricks Unityカタログ データを Microsoft Purview でカタログするようにデータマップ スキャンを構成する
- Microsoft Purview で Azure Databricks ワークスペースを登録する
- 登録済みの Azure Databricks ワークスペースをスキャンする
- スキャンの名前を入力します
- 抽出方法として Unity カタログを選択する
- 統合ランタイム経由で接続する (Azure 統合ランタイム、マネージド VNet IR、または作成した Kubernetes でサポートされているセルフホステッド統合ランタイム)
- 資格情報の作成時に [アクセス トークン認証] を選択します。 詳細については、「Microsoft Purview でのソース認証の資格情報」を参照してください。
- Microsoft Purview が接続してスキャンを実行する Databricks SQL Warehouse の HTTP パスを指定します
- [スキャンのスコープ] ページで、スキャンするカタログを選択します。
- 分類用のスキャン ルール セットを選択します。 システムの既定値、既存のカスタム ルール セット、または新しいルール セットをインラインで作成することができます。 詳細については、分類に関する記事を参照してください。
- [スキャン トリガー] で、スケジュールを設定するか、スキャンを 1 回実行するかを選択します。
- スキャンを確認し、[保存して実行] を選択します。
- スキャンとスキャン実行を表示して、データのカタログ化を完了します。
スキャンすると、Unity カタログ (UC) 内のデータ資産がデータ カタログ検索で使用できるようになります。 Microsoft Purview で Azure Databricks Unity Catalog に接続して管理する方法の詳細については、このドキュメントに従ってください。
重要
- 資格情報の作成時に [アクセス トークン認証] を選択します。
- ホストされている Azure Key Vaultにアクセス トークンを配置し、キー コンテナーを接続マネージャーに接続します。
- Key Vaultへの製品 (サービス) MSI 読み取り (シークレット) アクセス権を必ず提供してください。
データ品質スキャン用に databricks UC への接続を設定する
この時点で、スキャンされた資産をカタログ化およびガバナンスの準備ができました。 スキャンした資産をガバナンス ドメイン Sele の Data Product に関連付けます。 [データ品質] タブで、新しいAzure SQLデータベース接続を追加します。手動で入力したデータベース名を取得します。
[データ品質] > [ガバナンス ドメイン] > [管理] タブを選択して接続を作成します。
[接続] ページで接続を構成します。
- 接続名と説明を追加する
- ソースの種類 Azure Databricks を選択する
- ワークスペース URL の選択
- 抽出方法としてカタログUnity選択する
- HTTP パスを選択する
- Unity カタログ名を選択する
- スキーマ名の選択
- テーブル名の選択
- 認証方法の選択 - アクセス トークン
- Azure サブスクリプションを追加する
- キー コンテナー接続
- シークレット名
- シークレットのバージョン
接続のテスト
重要
- データ品質スチュワードは、データ品質接続を設定するために、Azure databrics Unity Catalog への読み取り専用アクセスが必要です。
Azure Databricks Unity Catalog データベース内のデータのプロファイリングとデータ品質スキャン。
接続のセットアップが正常に完了したら、Azure databricks Unity Catalog データベースでデータのプロファイリング、作成、適用、およびデータの DQ スキャンを実行できます。 以下のドキュメントで説明されているステップバイステップのガイドラインに従ってください。