Microsoft Purview で Google BigQuery プロジェクトに接続して管理する
この記事では、Google BigQuery プロジェクトを登録する方法と、Microsoft Purview で Google BigQuery を認証して操作する方法について説明します。 Microsoft Purview の詳細については、 入門記事を参照してください。
サポートされている機能
メタデータ抽出 | フル スキャン | 増分スキャン | スコープスキャン | 分類 | ラベル付け | アクセス ポリシー | 系統 | データ共有 | ライブ ビュー |
---|---|---|---|---|---|---|---|---|---|
○ | はい | いいえ | はい | いいえ | いいえ | いいえ | はい | いいえ | いいえ |
Google BigQuery ソースをスキャンする場合、Microsoft Purview では次の処理がサポートされます。
以下を含む技術的なメタデータの抽出:
- Projects
- データセット
- 列を含むテーブル
- 列を含むビュー
テーブルとビュー間の資産リレーションシップに対する静的系列のフェッチ。
スキャンを設定するときは、Google BigQuery プロジェクト全体をスキャンするか、指定された名前または名前パターンに一致するデータセットのサブセットにスキャンのスコープを設定するかを選択できます。
既知の制限
- 現在、Microsoft Purview では、米国の複数リージョンの場所での Google BigQuery データセットのスキャンのみがサポートされています。 指定したデータセットが us-east1 や EU などの他の場所にある場合は、スキャンが完了したが、Microsoft Purview に資産は表示されません。
- オブジェクトがデータ ソースから削除された場合、現在、後続のスキャンでは、Microsoft Purview の対応する資産は自動的に削除されません。
前提条件
アクティブなサブスクリプションを持つ Azure アカウント。 無料でアカウントを作成します。
アクティブな Microsoft Purview アカウント。
ソースを登録し、Microsoft Purview ガバナンス ポータルで管理するには、データ ソース管理者とデータ 閲覧者のアクセス許可が必要です。 アクセス許可の詳細については、「 Microsoft Purview でのアクセス制御」を参照してください。
-
-
セルフホステッド統合ランタイムを使用するには:
- 記事に従って、セルフホステッド統合ランタイムを作成して構成します。
- セルフホステッド統合ランタイムがインストールされているマシンに JDK 11 がインストールされていることを確認します。 JDK を新しくインストールして有効にした後、マシンを再起動します。
- セルフホステッド統合ランタイムが実行されているコンピューターに、Visual C++ 再頒布可能パッケージ (バージョン Visual Studio 2012 Update 4 以降) がインストールされていることを確認します。 この更新プログラムがインストールされていない場合は、 今すぐダウンロードしてください。
- セルフホステッド統合ランタイムが実行されているマシンで BigQuery JDBC ドライバー をダウンロードして解凍します。 スキャンの設定に使用するフォルダー パスをメモします。
-
kubernetes でサポートされているセルフホステッド統合ランタイムを使用するには:
- 記事に従って、kubernetes でサポートされている統合ランタイムを作成して構成します。
- セルフホステッド統合ランタイムが実行されているマシンで BigQuery JDBC ドライバー をダウンロードして解凍します。 スキャンの設定に使用するフォルダー パスをメモします。
注:
ドライバーには、セルフホステッド統合ランタイムからアクセスできる必要があります。 既定では、セルフホステッド統合ランタイムは ローカル サービス アカウント "NT SERVICE\DIAHostService" を使用します。 ドライバー フォルダーに対する "読み取りと実行" および "フォルダーの内容の一覧表示" アクセス許可があることを確認します。
-
セルフホステッド統合ランタイムを使用するには:
スキャンに必要なアクセス許可
スキャンに使用する Google BigQuery サービス アカウントには、スキャンするプロジェクトに BigQuery メタデータ ビューアーと BigQuery ジョブ ユーザー IAM ロール の両方が必要です。 Microsoft Purview では、Google BigQuery データベース システム テーブル (INFORMATION_SCHEMA など) を読み取ってメタデータを抽出するため、これらのアクセス許可が必要です。 基になる Google BigQuery JDBC ドライバーは、これらのシステム テーブルから読み取る必要があるときに BigQuery ジョブを作成します。
Microsoft Purview は、Google BigQuery サービスにアクセスするために Oauth 2.0 プロトコルを使用します。 「 スキャンの作成と実行 」セクションの指示に従って、資格情報を設定します。
登録
このセクションでは、 Microsoft Purview ガバナンス ポータルを使用して、Microsoft Purview で Google BigQuery プロジェクトを登録する方法について説明します。
登録手順
次の方法で Microsoft Purview ガバナンス ポータルを開きます。
- https://web.purview.azure.comに直接移動し、Microsoft Purview アカウントを選択します。
- Azure portalを開き、Microsoft Purview アカウントを検索して選択します。 [Microsoft Purview ガバナンス ポータル] ボタンを選択します。
左側のナビゲーションで [ データ マップ ] を選択します。
[ 登録] を選択します。
[ソースの登録] で、[ Google BigQuery ] を選択します。 [ 続行] を選択します。
[ソースの登録 (Google BigQuery)] 画面で、次の操作を行います。
カタログ内にデータ ソースが一覧表示される 名前 を入力します。
ProjectID を入力します。これは完全修飾プロジェクト ID である必要があります。 たとえば、mydomain.com:myProject
一覧からコレクションを選択します。
[登録] を選択します。
スキャン
Google BigQuery プロジェクトをスキャンして資産を自動的に識別するには、次の手順に従います。 スキャン全般の詳細については、スキャン とインジェストの概要に関するページを参照してください。
スキャンの作成と実行
管理センターで、[統合ランタイム] を選択します。 セルフホステッド統合ランタイムが設定されていることを確認します。 セットアップされていない場合は、「前提条件」で説明されている手順 を使用します。
[ ソース] に移動します。
登録済みの BigQuery プロジェクトを 選択します。
[ + 新しいスキャン] を選択します。
以下の詳細を指定します。
名前: スキャンの名前
統合ランタイム経由で接続する: 構成済みのセルフホステッド統合ランタイムを選択します
資格情報: BigQuery 資格情報の構成中に、次のことを確認します。
- 認証方法として [ 基本認証 ] を選択します
- [ユーザー名] フィールドにサービス アカウントの電子メール ID を指定します。 たとえば、
xyz\@developer.gserviceaccount.com
のように指定します。 - 次の手順に従って秘密キーを生成し、JSON キー ファイル全体をコピーし、Key Vault シークレットの値として格納します。
Google のクラウド プラットフォームから新しい秘密キーを作成するには:
- ナビゲーション メニューで、[IAM & 管理 -> サービス アカウント] -> [プロジェクトの選択] を選択します。>
- キーを作成するサービス アカウントのメール アドレスを選択します。
- [ キー ] タブを選択します。
- [ キーの追加 ] ドロップダウン メニューを選択し、[新しいキーの作成] を選択します。
- [JSON 形式] を選択します。
注:
スキャン プロセスの実行中に、秘密キーの内容が VM 上の一時ファイルに保存されます。 スキャンが正常に完了すると、この一時ファイルが削除されます。 スキャンエラーが発生した場合、システムは成功するまで再試行を続けます。 SHIR が実行されている VM でアクセスが適切に制限されていることを確認してください。
資格情報の詳細については、 こちらのリンクを参照してください。
ドライバーの場所: セルフホスト統合ランタイムが実行されているコンピューター内の JDBC ドライバーの場所へのパスを指定します。 例:
D:\Drivers\GoogleBigQuery
。- ローカル コンピューター上のセルフホステッド統合ランタイムの場合:
D:\Drivers\GoogleBigQuery
。 これは、有効な JAR フォルダーの場所へのパスです。 値は有効な絶対ファイル パスである必要があり、スペースは含まれません。 セルフホステッド統合ランタイムがドライバーにアクセスできることを確認します。 詳細については、「前提条件」セクションを参照してください。 - Kubernetes でサポートされるセルフホステッド統合ランタイムの場合:
./drivers/GoogleBigQuery
。 これは、有効な JAR フォルダーの場所へのパスです。 値は、有効な相対ファイル パスである必要があります。 事前にドライバーをアップロードするための 外部ドライバーを含むスキャンを設定 するには、ドキュメントを参照してください。
- ローカル コンピューター上のセルフホステッド統合ランタイムの場合:
データセット: インポートする BigQuery データセットの一覧を指定します。 たとえば、「
dataset1;dataset2
」のように入力します。 リストが空の場合、使用可能なすべてのデータセットがインポートされます。 許容されるデータセット名パターンは、静的名またはワイルドカード % を含めることができます。例:
A%;%B;%C%;D
- A または から始める
- B または で終わる
- C または を含む
- equal D
NOT 文字と特殊文字の使用は許可されません。
使用可能な最大メモリ: プロセスのスキャンによって使用される VM で使用可能な最大メモリ (GB 単位)。 これは、スキャンする Google BigQuery プロジェクトのサイズによって異なります。
[ 接続のテスト] を選択します。
[続行] を選択します。
スキャン トリガーを選択します。 スケジュールを設定することも、スキャンを 1 回実行することもできます。
スキャンを確認し、[ 保存して実行] を選択します。
スキャンとスキャンの実行を表示する
既存のスキャンを表示するには:
- Microsoft Purview ポータルに移動します。 左側のウィンドウで、[ データ マップ] を選択します。
- データ ソースを選択します。 [最近のスキャン] で、そのデータ ソースの既存の スキャンの一覧を表示したり、[ スキャン ] タブですべてのスキャンを表示したりできます。
- 表示する結果を含むスキャンを選択します。 このウィンドウには、以前のすべてのスキャン実行と、各スキャン実行の状態とメトリックが表示されます。
- 実行 ID を選択して、スキャン実行の詳細をチェックします。
スキャンを管理する
スキャンを編集、取り消し、または削除するには:
Microsoft Purview ポータルに移動します。 左側のウィンドウで、[ データ マップ] を選択します。
データ ソースを選択します。 [最近のスキャン] で、そのデータ ソースの既存の スキャンの一覧を表示したり、[ スキャン ] タブですべてのスキャンを表示したりできます。
管理するスキャンを選択します。 次のことを実行できます。
- [スキャンの編集] を選択して スキャンを編集します。
- [スキャンの実行の取り消し] を選択して、進行中 のスキャンを取り消します。
- [スキャンの削除] を選択して スキャンを削除します。
注:
- スキャンを削除しても、以前のスキャンから作成されたカタログ資産は削除されません。
系統
Google BigQuery ソースをスキャンした後、 データ カタログ または 検索データ カタログ を参照して、資産の詳細を表示できます。
[資産 - > 系列] タブに移動すると、該当する場合に資産関係を確認できます。 サポートされている Google BigQuery 系列のシナリオについては、サポートされている機能に関するセクションを参照してください。 系列全般の詳細については、「データ系列と系列ユーザー ガイド」を参照してください。
次の手順
ソースを登録したので、次のガイドに従って、Microsoft Purview とデータの詳細を確認してください。