次の方法で共有


Microsoft Purview で Azure Databricks Unity Catalog に接続して管理する

この記事では、Azure Databricks を登録する方法と、Microsoft Purview で Azure Databricks Unity Catalog を認証して操作する方法について説明します。 Microsoft Purview の詳細については、 入門記事を参照してください。

サポートされている機能

メタデータ抽出 フル スキャン 増分スキャン スコープスキャン 分類 ラベル付け アクセス ポリシー 系統 データ共有 ライブ ビュー
はい いいえ いいえ はい いいえ いいえ

Azure Databricks Unity Catalog をスキャンする場合、Microsoft Purview では次の処理がサポートされます。

  • 以下を含む技術的なメタデータの抽出:
    • メタストア
    • カタログ
    • Schemas
    • 列を含むテーブル
    • 列を含むビュー
  • ノートブックの実行中に、テーブル、ビュー、列間の資産リレーションシップに関する系列をフェッチします。

スキャンを設定するときに、カタログ全体をスキャンするか、カタログのサブセットUnityスキャンのスコープを設定するかを選択できます。

注:

このコネクタは、Azure Databricks Unity Catalog からメタデータを取得します。 Azure Databricks ワークスペーススコープのメタデータをスキャンするには、 Azure Databricks Hive メタストア コネクタに関するページを参照してください。

既知の制限

  • オブジェクトがデータ ソースから削除された場合、現在、後続のスキャンでは、Microsoft Purview の対応する資産は自動的に削除されません。
  • ネイティブ Azure Databricks 系列に関連するその他の制限事項の詳細については、 Azure Databricks のドキュメントを参照してください

前提条件

  • アクティブなサブスクリプションを持つ Azure アカウントが必要です。 無料でアカウントを作成します

  • アクティブな Microsoft Purview アカウントが必要です。

  • シークレットにアクセスするためのアクセス許可を Microsoft Purview に付与するには、Azure Key Vaultが必要です。

  • ソースを登録し、Microsoft Purview ガバナンス ポータルで管理するには、データ ソース管理者とデータ 閲覧者のアクセス許可が必要です。 アクセス許可の詳細については、「 Microsoft Purview でのアクセス制御」を参照してください。

  • Azure Databricks Unity Catalog をスキャンするために、Microsoft Purview はワークスペース内の SQL Warehouse に接続し、認証に個人用アクセス トークンを使用します。 カタログUnity有効にされ、スキャンするメタストアにアタッチされている Azure Databricks ワークスペースが必要です。 Azure Databricks ワークスペースで、次の手順を実行します。

    • SQL Warehouse を作成します。 必要に応じて、自動作成されたスターター ウェアハウスも使用できます。

      • HTTP パスをメモします。 Azure Databricks ワークスペース -> SQL Warehouses -> ウェアハウス -> 接続の詳細 -> HTTP パスで確認できます。

      • Azure Databricks SQL ウェアハウスに接続するために、ユーザーに Can Use アクセス許可があることを確認します。 詳細については、 SQL ウェアハウスのアクセス制御に関するページを参照してください。

  • Microsoft Purview を使用して Azure Databricks から系列をフェッチするには、次の前提条件が満たされている必要があります。

    • システム スキーマを有効にする: システム スキーマ system.access は、Unity カタログで有効にする必要があります。 これは、系列情報がシステム テーブルに格納され、このスキーマを有効にするとそれらのテーブルへのアクセスが許可されるため、必須です。 システム テーブルを使用した使用状況の監視について詳しくは、こちらをご覧ください

    • ユーザー特権: スキャンに使用するユーザー アカウントには、次のシステム テーブルに対する SELECT 権限が必要です。

      • system.access.table_lineage

      • system.access.column_lineage

      系列データはシステム テーブルから直接読み取られ、必要なアクセス権がないと、Microsoft Purview は系列情報を取得できないため、これらのアクセス許可が必要です。

  • Azure Databricks ワークスペースでパブリック ネットワークからのアクセスが許可されていない場合、または Microsoft Purview アカウントですべてのネットワークからのアクセスが有効になっていない場合は、マネージド Virtual Network Integration Runtimeまたは kubernetes でサポートされているセルフホステッド統合ランタイムを使用してスキャンできます。 プライベート接続を確立するために必要に応じて、Azure Databricks のマネージド プライベート エンドポイントを設定できます。

スキャンの認証

Azure Databricks Unity Catalog をスキャンするために、個人用アクセス トークン、マネージド ID、またはサービス プリンシパル認証方法を使用できます。

システムまたはユーザー割り当てマネージド ID を使用している場合

  1. [資格情報] で、システム割り当てマネージド ID またはユーザー割り当てマネージド ID を選択 します

ユーザー割り当てマネージド ID を使用するには、 Azure Databricks の Azure マネージド ID 認証を設定する必要があります。

  • Microsoft Purview に取り込むすべてのオブジェクトについて、ユーザーまたはサービス プリンシパルには、テーブル/ビューに対する 少なくとも SELECT 権限、オブジェクトのカタログでの USE CATALOG 、およびオブジェクトのスキーマに対する USE SCHEMA が必要です。

登録

このセクションでは、 Microsoft Purview ガバナンス ポータルを使用して、Microsoft Purview に Azure Databricks ワークスペースを登録する方法について説明します。

  1. Microsoft Purview アカウントに移動します。

  2. 左側のウィンドウで [ データ マップ ] を選択します。

  3. [登録] を選択します。

  4. [ソースの登録] で、[Azure Databricks Unity Catalog>Continue] を選択します。

  5. [ソースの登録 (Azure Databricks Unity カタログ)] 画面で、次の操作を行います。

  6. [ 名前] に、Microsoft Purview がデータ ソースとして一覧表示する名前を入力します。

    1. [メタストア ID] には、スキャンする Azure Databricks Unity Catalog メタストアのメタストア ID を指定します。

    2. 一覧からコレクションを選択します。

Azure Databricks Unity Catalog ソースを登録しているスクリーンショット。

  1. [完了] を選択します。

スキャン

ヒント

スキャンに関する問題のトラブルシューティングを行うには:

  1. すべての前提条件に従っていることを確認 します
  2. スキャンのトラブルシューティングに関するドキュメントを確認してください

Azure Databricks をスキャンして資産を自動的に識別するには、次の手順を使用します。 一般的なスキャンの詳細については、「 Microsoft Purview でのスキャンとインジェスト」を参照してください。

  1. [ソース] に移動します。

  2. 登録済みの Azure Databricks を選択します。

  3. [ + 新しいスキャン] を選択します。

  4. 次のユーザー詳細を入力します。

    1. [名前]: スキャンの名前を入力します。

    2. 統合ランタイム経由で接続する: 既定の Azure 統合ランタイム、マネージド VNet IR、または作成した Kubernetes でサポートされているセルフホステッド統合ランタイムを選択します。

    3. 資格情報: データ ソースに接続する資格情報を選択します。 次のことを確認してください。

      • [ アクセス トークン]、[ マネージド ID] 、または [サービス プリンシパル] を選択します。
      • スキャンの登録中に、新しいアクセス トークンまたはサービス プリンシパルの資格情報を作成できます。 詳細については、「 Microsoft Purview でのソース認証の資格情報」を参照してください。
    4. ワークスペース URL: スキャンするワークスペースの URL を指定します。

    5. HTTP パス: Microsoft Purview が接続してスキャンを実行する Databricks SQL Warehouse の HTTP パス (例: /sql/1.0/endpoints/xxxxxxxxxxxxxxxx) を指定します。 Azure Databricks ワークスペース -> SQL Warehouses -> ウェアハウス -> 接続の詳細 -> HTTP パスで確認できます。

    6. 系列抽出: 系列の抽出を [オン] に 切り替えて、スキャンされた資産の系列を取得します。

  5. [ 接続のテスト] を選択して、設定を検証します。

    Azure Databricks Unity カタログ スキャンのセットアップのスクリーンショット。

  6. [続行] を選択します。

  7. [ スキャン トリガー] で、スケジュールを設定するか、スキャンを 1 回実行するかを選択します。

  8. スキャンを確認し、[ 保存して実行] を選択します。

スキャンが正常に完了したら、 資産を参照して検索する方法を参照してください。

スキャンとスキャンの実行を表示する

既存のスキャンを表示するには:

  1. Microsoft Purview ポータルに移動します。 左側のウィンドウで、[ データ マップ] を選択します。
  2. データ ソースを選択します。 [最近のスキャン] で、そのデータ ソースの既存の スキャンの一覧を表示したり、[ スキャン ] タブですべてのスキャンを表示したりできます。
  3. 表示する結果を含むスキャンを選択します。 このウィンドウには、以前のすべてのスキャン実行と、各スキャン実行の状態とメトリックが表示されます。
  4. 実行 ID を選択して、スキャン実行の詳細をチェックします

スキャンを管理する

スキャンを編集、取り消し、または削除するには:

  1. Microsoft Purview ポータルに移動します。 左側のウィンドウで、[ データ マップ] を選択します。

  2. データ ソースを選択します。 [最近のスキャン] で、そのデータ ソースの既存の スキャンの一覧を表示したり、[ スキャン ] タブですべてのスキャンを表示したりできます。

  3. 管理するスキャンを選択します。 次のことを実行できます。

    • [スキャンの編集] を選択して スキャンを編集します
    • [スキャンの実行の取り消し] を選択して、進行中 のスキャンを取り消します
    • [スキャンの削除] を選択して スキャンを削除します

注:

  • スキャンを削除しても、以前のスキャンから作成されたカタログ資産は削除されません。

資産の参照と検索

Azure Databricks をスキャンした後、統合カタログ参照するか、統合カタログを検索して資産の詳細と系列を表示できます。

ソースの種類別に参照すると、Azure Databricks Unity CatalogAzure Databricks の 2 つのエントリがそれぞれ表示されます。 前者には、メタストアとそのカタログ/スキーマ/テーブル/ビューを含むUnity カタログ成果物が含まれますが、後者にはワークスペース成果物が含まれています。

ソースの種類別の資産の参照のスクリーンショット。

Azure Databricks ワークスペース資産から、[プロパティ] タブの [カタログ] に関連付けられているUnityを見つけることができます。逆の場合も適用されます。

Azure Databricks ソースに関連付けられているUnity Catalog を見つけるスクリーンショット。

系統

特定の Azure Databricks 資産を参照すると、系列をキャプチャしたノートブックが表示されます。

資産 -> 系列タブに移動すると、該当する場合は Azure Databricks Notebook 資産またはテーブル/ビュー資産に系列が表示されます。

関連付けられている Azure Databricks Unity Catalog ワークスペース資産に存在するノートブックの参照のスクリーンショット。

関連付けられている Azure Databricks Unity Catalog ワークスペース資産に存在するノートブック系列のスクリーンショット。

サポートされている Databricks Unityカタログ系列シナリオのサポートされている機能に関するセクションを参照してください。 系列全般の詳細については、「データ系列と系列ユーザー ガイド」を参照してください。

よく寄せられる質問 (FAQ)

Unity Catalog からの列レベルの系列は Microsoft Purview によってキャプチャされますか?

Microsoft Purview では、Unity カタログのテーブル/ビュー レベルと列レベルの両方で系列をキャプチャできます。

列レベルの系列が表示されません。何が起こっていますか?

列レベルの系列は、ノートブックがクラスターから実行され、SQL ウェアハウスを介して生成されない場合に生成されます。

タイムアウト エラーが発生しています。どうすればよいですか?

ワークスペースに大量の資産がある場合、スキャンが完了しない可能性があります。 この場合、スキャンの範囲を一度に数個のカタログに設定できます。これにより、スキャンあたりの資産量が減少し、スキャンの完了が許可されます。

ノートブックを実行したばかりですが、Microsoft Purview は系列をフェッチしませんでした。 どうしたんですか。

Databricks がノートブックの実行後にシステム テーブルの系列情報を更新するまでに数分の遅延が発生する可能性があります。 Microsoft Purview は、システム テーブルが更新されると系列をフェッチできます。

次の手順

ソースが登録されたら、次のガイドを使用して、Microsoft Purview とデータの詳細を確認します。