次の方法で共有


Microsoft Purview で Azure Databricks Unity Catalog に接続して管理する

この記事では、Azure Databricks を登録する方法と、Microsoft Purview で Azure Databricks Unity Catalog を認証して操作する方法について説明します。 Microsoft Purview の詳細については、 入門記事を参照してください。

サポートされている機能

メタデータ抽出 フル スキャン 増分スキャン スコープスキャン 分類 ラベル付け アクセス ポリシー 系統 データ共有 ライブ ビュー
はい いいえ はい いいえ はい いいえ いいえ

Azure Databricks Unity Catalog をスキャンする場合、Microsoft Purview では次の処理がサポートされます。

  • 以下を含む技術的なメタデータの抽出:
    • メタストア
    • カタログ
    • Schemas
    • 列を含むテーブル
    • 列を含むビュー
  • ノートブックの実行中に、テーブル、ビュー、列間の資産リレーションシップに関する系列をフェッチします。

スキャンを設定するときに、カタログ全体をスキャンするか、カタログのサブセットUnityスキャンのスコープを設定するかを選択できます。

注:

このコネクタは、Azure Databricks Unity Catalog からメタデータを取得します。 Azure Databricks ワークスペーススコープのメタデータをスキャンするには、 Azure Databricks Hive メタストア コネクタに関するページを参照してください。

既知の制限

  • オブジェクトがデータ ソースから削除された場合、現在、後続のスキャンでは、Microsoft Purview の対応する資産は自動的に削除されません。
  • ネイティブ Azure Databricks 系列に関連するその他の制限事項の詳細については、 Azure Databricks のドキュメントを参照してください

前提条件

  • アクティブなサブスクリプションを持つ Azure アカウントが必要です。 無料でアカウントを作成します

  • アクティブな Microsoft Purview アカウントが必要です。

  • シークレットにアクセスするためのアクセス許可を Microsoft Purview に付与するには、Azure Key Vaultが必要です。

  • ソースを登録し、Microsoft Purview ガバナンス ポータルで管理するには、データ ソース管理者とデータ 閲覧者のアクセス許可が必要です。 アクセス許可の詳細については、「 Microsoft Purview でのアクセス制御」を参照してください。

  • Azure Databricks Unity Catalog をスキャンするために、Microsoft Purview はワークスペース内の SQL Warehouse に接続し、認証に個人用アクセス トークンを使用します。 カタログUnity有効にされ、スキャンするメタストアにアタッチされている Azure Databricks ワークスペースが必要です。 Azure Databricks ワークスペースで、次の手順を実行します。

    • 個人用アクセス トークンを生成し、それをシークレットとして Azure Key Vaultに格納します。

      • Microsoft Purview に取り込むすべてのオブジェクトについて、ユーザーには、テーブル/ビューに対する SELECT 権限、オブジェクトのカタログに 対する USE CATALOG 権限、およびオブジェクトのスキーマに対する USE SCHEMA 権限が必要です。

      • Unity カタログ メタストア内のすべてのオブジェクトをスキャンするには、メタストア管理者ロールを持つユーザーを使用します。 詳細については、「Unity カタログおよびUnity カタログの特権とセキュリティ保護可能なオブジェクトの特権を管理する」を参照してください。

      • 分類の場合、ユーザーはサンプル データを取得するために、テーブル/ビューに対する SELECT 権限も必要です。

    • SQL Warehouse を作成します。 必要に応じて、自動作成されたスターター ウェアハウスも使用できます。

      • HTTP パスをメモします。 Azure Databricks ワークスペース -> SQL Warehouses -> ウェアハウス -> 接続の詳細 -> HTTP パスで確認できます。

      • Azure Databricks SQL ウェアハウスに接続するために、ユーザーに Can Use アクセス許可があることを確認します。 詳細については、 SQL ウェアハウスのアクセス制御に関するページを参照してください。

  • Microsoft Purview を使用して Azure Databricks から系列をフェッチするには、次の前提条件が満たされている必要があります。

    • システム スキーマを有効にする: システム スキーマ system.access は、Unity カタログで有効にする必要があります。 これは、系列情報がシステム テーブルに格納され、このスキーマを有効にするとそれらのテーブルへのアクセスが許可されるため、必須です。 システム テーブルを使用した使用状況の監視について詳しくは、こちらをご覧ください

    • ユーザー特権: スキャンに使用するユーザー アカウントには、次のシステム テーブルに対する SELECT 権限が必要です。

      • system.access.table_lineage

      • system.access.column_lineage

      系列データはシステム テーブルから直接読み取られ、必要なアクセス権がないと、Microsoft Purview は系列情報を取得できないため、これらのアクセス許可が必要です。

  • Azure Databricks ワークスペースでパブリック ネットワークからのアクセスが許可されていない場合、または Microsoft Purview アカウントですべてのネットワークからのアクセスが有効になっていない場合は、マネージド Virtual Network Integration Runtimeまたは kubernetes でサポートされているセルフホステッド統合ランタイムを使用してスキャンできます。 プライベート接続を確立するために必要に応じて、Azure Databricks のマネージド プライベート エンドポイントを設定できます。

登録

このセクションでは、 Microsoft Purview ガバナンス ポータルを使用して、Microsoft Purview に Azure Databricks ワークスペースを登録する方法について説明します。

  1. Microsoft Purview アカウントに移動します。

  2. 左側のウィンドウで [ データ マップ ] を選択します。

  3. [登録] を選択します。

  4. [ ソースの登録] で、[Azure Databricks>Continue] を選択します。

  5. [ ソースの登録 (Azure Databricks)] 画面で 、次の操作を行います。

    1. [ 名前] に、Microsoft Purview がデータ ソースとして一覧表示する名前を入力します。

    2. Azure サブスクリプションDatabricks ワークスペース名の場合は、ドロップダウンからスキャンするサブスクリプションとワークスペースを選択します。 Databricks ワークスペース URL が自動的に設定されます。

    3. 一覧からコレクションを選択します。

    Azure Databricks ソースの登録のスクリーンショット。

  6. [完了] を選択します。

スキャン

ヒント

スキャンに関する問題のトラブルシューティングを行うには:

  1. すべての前提条件に従っていることを確認 します
  2. スキャンのトラブルシューティングに関するドキュメントを確認してください

Azure Databricks をスキャンして資産を自動的に識別するには、次の手順を使用します。 一般的なスキャンの詳細については、「 Microsoft Purview でのスキャンとインジェスト」を参照してください。

  1. [ソース] に移動します。

  2. 登録済みの Azure Databricks を選択します。

  3. [ + 新しいスキャン] を選択します。

  4. 次のユーザー詳細を入力します。

    1. [名前]: スキャンの名前を入力します。

    2. 抽出方法:Hive メタストアまたはUnity カタログからメタデータを抽出することを示します。 [カタログUnity選択します

    3. 統合ランタイム経由で接続する: 既定の Azure 統合ランタイム、マネージド VNet IR、または作成した Kubernetes でサポートされているセルフホステッド統合ランタイムを選択します。

    4. 資格情報: データ ソースに接続する資格情報を選択します。 次のことを確認してください。

      • 資格情報の作成時 に [アクセス トークン認証 ] を選択します。
      • [ 前提条件] で作成した個人用アクセス トークンのシークレット名を適切なボックスに指定します。

      詳細については、「 Microsoft Purview でのソース認証の資格情報」を参照してください。

    5. HTTP パス: Microsoft Purview が接続してスキャンを実行する Databricks SQL Warehouse の HTTP パス (例: /sql/1.0/endpoints/xxxxxxxxxxxxxxxx) を指定します。 Azure Databricks ワークスペース -> SQL Warehouses -> ウェアハウス -> 接続の詳細 -> HTTP パスで確認できます。

    6. 系列抽出: 系列の抽出を [オン] に 切り替えて、スキャンされた資産の系列を取得します。

  5. [ 接続のテスト] を選択して、設定を検証します。

    Azure Databricks Unity カタログ スキャンのセットアップのスクリーンショット。

  6. [続行] を選択します。

  7. [ スキャンのスコープ] ページで、スキャンするカタログを選択します。

    Azure Databricks スキャンのスコープを設定するスクリーンショット。

  8. 分類用の スキャン ルール セット を選択します。 システムの既定値、既存のカスタム ルール セット、または 新しいルール セットをインラインで作成 することができます。 詳細については、 分類 に関する記事を参照してください。

  9. [ スキャン トリガー] で、スケジュールを設定するか、スキャンを 1 回実行するかを選択します。

  10. スキャンを確認し、[ 保存して実行] を選択します。

スキャンが正常に完了したら、 資産を参照して検索する方法を参照してください。

スキャンとスキャンの実行を表示する

既存のスキャンを表示するには:

  1. Microsoft Purview ポータルに移動します。 左側のウィンドウで、[ データ マップ] を選択します。
  2. データ ソースを選択します。 [最近のスキャン] で、そのデータ ソースの既存の スキャンの一覧を表示したり、[ スキャン ] タブですべてのスキャンを表示したりできます。
  3. 表示する結果を含むスキャンを選択します。 このウィンドウには、以前のすべてのスキャン実行と、各スキャン実行の状態とメトリックが表示されます。
  4. 実行 ID を選択して、スキャン実行の詳細をチェックします

スキャンを管理する

スキャンを編集、取り消し、または削除するには:

  1. Microsoft Purview ポータルに移動します。 左側のウィンドウで、[ データ マップ] を選択します。

  2. データ ソースを選択します。 [最近のスキャン] で、そのデータ ソースの既存の スキャンの一覧を表示したり、[ スキャン ] タブですべてのスキャンを表示したりできます。

  3. 管理するスキャンを選択します。 次のことを実行できます。

    • [スキャンの編集] を選択して スキャンを編集します
    • [スキャンの実行の取り消し] を選択して、進行中 のスキャンを取り消します
    • [スキャンの削除] を選択して スキャンを削除します

注:

  • スキャンを削除しても、以前のスキャンから作成されたカタログ資産は削除されません。

資産の参照と検索

Azure Databricks をスキャンした後、 データ カタログ または 検索データ カタログ を参照して、資産の詳細と系列を表示できます。

ソースの種類別に参照すると、Azure Databricks Unity CatalogAzure Databricks の 2 つのエントリがそれぞれ表示されます。 前者には、メタストアとそのカタログ/スキーマ/テーブル/ビューを含むUnity カタログ成果物が含まれますが、後者にはワークスペース成果物が含まれています。

ソースの種類別の資産の参照のスクリーンショット。

Azure Databricks ワークスペース資産から、[プロパティ] タブの [カタログ] に関連付けられているUnityを見つけることができます。逆の場合も適用されます。

Azure Databricks ソースに関連付けられているUnity Catalog を見つけるスクリーンショット。

系統

特定の Azure Databricks 資産を参照すると、系列をキャプチャしたノートブックが表示されます。

資産 -> 系列タブに移動すると、該当する場合は Azure Databricks Notebook 資産またはテーブル/ビュー資産に系列が表示されます。

関連付けられている Azure Databricks Unity Catalog ワークスペース資産に存在するノートブックの参照のスクリーンショット。

関連付けられている Azure Databricks Unity Catalog ワークスペース資産に存在するノートブック系列のスクリーンショット。

サポートされている Databricks Unityカタログ系列シナリオのサポートされている機能に関するセクションを参照してください。 系列全般の詳細については、「データ系列と系列ユーザー ガイド」を参照してください。

よく寄せられる質問 (FAQ)

Unity Catalog からの列レベルの系列は Microsoft Purview によってキャプチャされますか?

Microsoft Purview では、Unity カタログのテーブル/ビュー レベルと列レベルの両方で系列をキャプチャできます。

ノートブックを実行したばかりですが、Microsoft Purview は系列をフェッチしませんでした。 どうしたんですか。

Databricks がノートブックの実行後にシステム テーブル内の系列情報を更新するのに若干の遅延 (数分) が発生する可能性があります。 Microsoft Purview は、システム テーブルが更新されると系列をフェッチできます。

次の手順

ソースが登録されたら、次のガイドを使用して、Microsoft Purview とデータの詳細を確認します。