Microsoft Purview で Google BigQuery プロジェクトに接続して管理する

[アーティクル]
11/13/2024

この記事では、Google BigQuery プロジェクトを登録する方法と、Microsoft Purview で Google BigQuery を認証して操作する方法について説明します。 Microsoft Purview の詳細については、入門記事を参照してください。

サポートされている機能

メタデータ抽出	フルスキャン	増分スキャン	スコープスキャン	分類	ラベル付け	アクセスポリシー	系統	データ共有	ライブビュー
○	はい	いいえ	はい	いいえ	いいえ	いいえ	はい	いいえ	いいえ

Google BigQuery ソースをスキャンする場合、Microsoft Purview では次の処理がサポートされます。

以下を含む技術的なメタデータの抽出:
- Projects
- データセット
- 列を含むテーブル
- 列を含むビュー
テーブルとビュー間の資産リレーションシップに対する静的系列のフェッチ。

スキャンを設定するときは、Google BigQuery プロジェクト全体をスキャンするか、指定された名前または名前パターンに一致するデータセットのサブセットにスキャンのスコープを設定するかを選択できます。

既知の制限

現在、Microsoft Purview では、米国の複数リージョンの場所での Google BigQuery データセットのスキャンのみがサポートされています。指定したデータセットが us-east1 や EU などの他の場所にある場合は、スキャンが完了したが、Microsoft Purview に資産は表示されません。
オブジェクトがデータソースから削除された場合、現在、後続のスキャンでは、Microsoft Purview の対応する資産は自動的に削除されません。

前提条件

アクティブなサブスクリプションを持つ Azure アカウント。無料でアカウントを作成します。
アクティブな Microsoft Purview アカウント。
ソースを登録し、Microsoft Purview ガバナンスポータルで管理するには、データソース管理者とデータ閲覧者のアクセス許可が必要です。アクセス許可の詳細については、「 Microsoft Purview でのアクセス制御」を参照してください。
シナリオに適した統合ランタイムを設定します。
- セルフホステッド統合ランタイムを使用するには:
  - 記事に従って、セルフホステッド統合ランタイムを作成して構成します。
  - セルフホステッド統合ランタイムがインストールされているマシンに JDK 11 がインストールされていることを確認します。 JDK を新しくインストールして有効にした後、マシンを再起動します。
  - セルフホステッド統合ランタイムが実行されているコンピューターに、Visual C++ 再頒布可能パッケージ (バージョン Visual Studio 2012 Update 4 以降) がインストールされていることを確認します。この更新プログラムがインストールされていない場合は、今すぐダウンロードしてください。
  - セルフホステッド統合ランタイムが実行されているマシンで BigQuery JDBC ドライバーをダウンロードして解凍します。スキャンの設定に使用するフォルダーパスをメモします。
- kubernetes でサポートされているセルフホステッド統合ランタイムを使用するには:
  - 記事に従って、kubernetes でサポートされている統合ランタイムを作成して構成します。
  - セルフホステッド統合ランタイムが実行されているマシンで BigQuery JDBC ドライバーをダウンロードして解凍します。スキャンの設定に使用するフォルダーパスをメモします。
注:

ドライバーには、セルフホステッド統合ランタイムからアクセスできる必要があります。既定では、セルフホステッド統合ランタイムはローカルサービスアカウント "NT SERVICE\DIAHostService" を使用します。ドライバーフォルダーに対する "読み取りと実行" および "フォルダーの内容の一覧表示" アクセス許可があることを確認します。

スキャンに必要なアクセス許可

スキャンに使用する Google BigQuery サービスアカウントには、スキャンするプロジェクトに BigQuery メタデータビューアーと BigQuery ジョブユーザー IAM ロールの両方が必要です。 Microsoft Purview では、Google BigQuery データベースシステムテーブル (INFORMATION_SCHEMA など) を読み取ってメタデータを抽出するため、これらのアクセス許可が必要です。基になる Google BigQuery JDBC ドライバーは、これらのシステムテーブルから読み取る必要があるときに BigQuery ジョブを作成します。

Microsoft Purview は、Google BigQuery サービスにアクセスするために Oauth 2.0 プロトコルを使用します。「スキャンの作成と実行」セクションの指示に従って、資格情報を設定します。

登録

このセクションでは、 Microsoft Purview ガバナンスポータルを使用して、Microsoft Purview で Google BigQuery プロジェクトを登録する方法について説明します。

登録手順

次の方法で Microsoft Purview ガバナンスポータルを開きます。
- https://web.purview.azure.comに直接移動し、Microsoft Purview アカウントを選択します。
- Azure portalを開き、Microsoft Purview アカウントを検索して選択します。 [Microsoft Purview ガバナンスポータル] ボタンを選択します。
左側のナビゲーションで [ データマップ ] を選択します。
[ 登録] を選択します。
[ソースの登録] で、[ Google BigQuery ] を選択します。 [ 続行] を選択します。

[ソースの登録 (Google BigQuery)] 画面で、次の操作を行います。

カタログ内にデータソースが一覧表示される名前を入力します。
ProjectID を入力します。これは完全修飾プロジェクト ID である必要があります。たとえば、mydomain.com:myProject
一覧からコレクションを選択します。
[登録] を選択します。

スキャン

Google BigQuery プロジェクトをスキャンして資産を自動的に識別するには、次の手順に従います。スキャン全般の詳細については、スキャンとインジェストの概要に関するページを参照してください。

スキャンの作成と実行

管理センターで、[統合ランタイム] を選択します。セルフホステッド統合ランタイムが設定されていることを確認します。セットアップされていない場合は、「前提条件」で説明されている手順を使用します。
[ ソース] に移動します。
登録済みの BigQuery プロジェクトを 選択します。
[ + 新しいスキャン] を選択します。
以下の詳細を指定します。
1. 名前: スキャンの名前
2. 統合ランタイム経由で接続する: 構成済みのセルフホステッド統合ランタイムを選択します
3. 資格情報: BigQuery 資格情報の構成中に、次のことを確認します。
  - 認証方法として [ 基本認証 ] を選択します
  - [ユーザー名] フィールドにサービスアカウントの電子メール ID を指定します。たとえば、xyz\@developer.gserviceaccount.com のように指定します。
  - 次の手順に従って秘密キーを生成し、JSON キーファイル全体をコピーし、Key Vault シークレットの値として格納します。
  Google のクラウドプラットフォームから新しい秘密キーを作成するには:
  1. ナビゲーションメニューで、[IAM & 管理 -> サービスアカウント] -> [プロジェクトの選択] を選択します。>
  2. キーを作成するサービスアカウントのメールアドレスを選択します。
  3. [ キー ] タブを選択します。
  4. [ キーの追加 ] ドロップダウンメニューを選択し、[新しいキーの作成] を選択します。
  5. [JSON 形式] を選択します。
  注:
  
  スキャンプロセスの実行中に、秘密キーの内容が VM 上の一時ファイルに保存されます。スキャンが正常に完了すると、この一時ファイルが削除されます。スキャンエラーが発生した場合、システムは成功するまで再試行を続けます。 SHIR が実行されている VM でアクセスが適切に制限されていることを確認してください。
  
  資格情報の詳細については、こちらのリンクを参照してください。
4. ドライバーの場所: セルフホスト統合ランタイムが実行されているコンピューター内の JDBC ドライバーの場所へのパスを指定します。例: D:\Drivers\GoogleBigQuery。
  1. ローカルコンピューター上のセルフホステッド統合ランタイムの場合: D:\Drivers\GoogleBigQuery。これは、有効な JAR フォルダーの場所へのパスです。値は有効な絶対ファイルパスである必要があり、スペースは含まれません。セルフホステッド統合ランタイムがドライバーにアクセスできることを確認します。詳細については、「前提条件」セクションを参照してください。
  2. Kubernetes でサポートされるセルフホステッド統合ランタイムの場合: ./drivers/GoogleBigQuery。これは、有効な JAR フォルダーの場所へのパスです。値は、有効な相対ファイルパスである必要があります。事前にドライバーをアップロードするための外部ドライバーを含むスキャンを設定するには、ドキュメントを参照してください。
5. データセット: インポートする BigQuery データセットの一覧を指定します。たとえば、「 dataset1;dataset2 」のように入力します。リストが空の場合、使用可能なすべてのデータセットがインポートされます。許容されるデータセット名パターンは、静的名またはワイルドカード % を含めることができます。
  
  例: A%;%B;%C%;D
  - A またはから始める
  - B またはで終わる
  - C またはを含む
  - equal D
  NOT 文字と特殊文字の使用は許可されません。
6. 使用可能な最大メモリ: プロセスのスキャンによって使用される VM で使用可能な最大メモリ (GB 単位)。これは、スキャンする Google BigQuery プロジェクトのサイズによって異なります。
[ 接続のテスト] を選択します。
[続行] を選択します。
スキャントリガーを選択します。スケジュールを設定することも、スキャンを 1 回実行することもできます。
スキャンを確認し、[ 保存して実行] を選択します。

スキャンとスキャンの実行を表示する

既存のスキャンを表示するには:

Microsoft Purview ポータルに移動します。左側のウィンドウで、[ データマップ] を選択します。
データソースを選択します。 [最近のスキャン] で、そのデータソースの既存の スキャンの一覧を表示したり、[ スキャン ] タブですべてのスキャンを表示したりできます。
表示する結果を含むスキャンを選択します。このウィンドウには、以前のすべてのスキャン実行と、各スキャン実行の状態とメトリックが表示されます。
実行 ID を選択して、スキャン実行の詳細をチェックします。

スキャンを管理する

スキャンを編集、取り消し、または削除するには:

Microsoft Purview ポータルに移動します。左側のウィンドウで、[ データマップ] を選択します。
データソースを選択します。 [最近のスキャン] で、そのデータソースの既存の スキャンの一覧を表示したり、[ スキャン ] タブですべてのスキャンを表示したりできます。
管理するスキャンを選択します。次のことを実行できます。
- [スキャンの編集] を選択して スキャンを編集します。
- [スキャンの実行の取り消し] を選択して、進行中 のスキャンを取り消します。
- [スキャンの削除] を選択して スキャンを削除します。

注:

スキャンを削除しても、以前のスキャンから作成されたカタログ資産は削除されません。

系統

Google BigQuery ソースをスキャンした後、統合カタログ参照するか、統合カタログを検索して資産の詳細を表示できます。

[資産 - > 系列] タブに移動すると、該当する場合に資産関係を確認できます。サポートされている Google BigQuery 系列のシナリオについては、サポートされている機能に関するセクションを参照してください。系列全般の詳細については、「データ系列と系列ユーザーガイド」を参照してください。

Google BigQuery 系列ビュー

次の手順

ソースを登録したので、次のガイドに従って、Microsoft Purview とデータの詳細を確認してください。

次の方法で共有