共用方式為


在 Microsoft Purview 中聯機及管理 Google BigQuery 專案

本文概述如何註冊 Google BigQuery 專案,以及如何在 Microsoft Purview 中驗證 Google BigQuery 並與其互動。 如需 Microsoft Purview 的詳細資訊,請閱讀 簡介文章

支援的功能

元數據擷取 完整掃描 增量掃描 限域掃描 分類 加標籤 存取原則 譜系 資料共用 即時檢視

掃描 Google BigQuery 來源時,Microsoft Purview 支援:

  • 擷取技術元數據,包括:

    • 專案
    • 資料集
    • 包含數據行的數據表
    • 包含數據行的檢視
  • 擷取數據表和檢視表之間資產關聯性的靜態譜系。

設定掃描時,您可以選擇掃描整個 Google BigQuery 專案,或將掃描範圍設定為與指定名稱相符的數據集子集 () 或名稱模式 () 。

已知限制

  • 目前,Microsoft Purview 僅支持掃描美國多區域位置的 Google BigQuery 數據集。 如果指定的數據集位於其他位置,例如us-east1或EU,您會看到掃描完成,但 Microsoft Purview 中未顯示任何資產。
  • 從數據源刪除物件時,後續掃描目前不會自動移除 purview Microsoft對應的資產。

必要條件

掃描所需的許可權

您用於掃描的 Google BigQuery 服務帳戶在您想要掃描的專案 () 必須同時具有 BigQuery 元數據查看器和 BigQuery 作業使用者 IAM 角色 。 這些許可權是必要的,因為 Microsoft Purview 會藉由讀取 Google BigQuery 資料庫系統數據表來擷取元數據, (例如INFORMATION_SCHEMA) 。 而基礎Google BigQuery JDBC 驅動程式會在需要從這些系統數據表讀取時建立 BigQuery 作業。

Microsoft Purview 使用 Oauth 2.0 通訊協定來存取 Google BigQuery 服務。 依照建立和執行掃描一節中的指示來設定 認證

登錄

本節說明如何使用 Microsoft Purview 治理入口網站,在 Microsoft Purview 中註冊 Google BigQuery 專案。

註冊步驟

  1. 開啟 Microsoft Purview 治理入口網站,方法如下:

  2. 選取左側導覽上的 [數據對應 ]。

  3. 選取 [註冊]。

  4. 在 [註冊來源] 上,選取 [Google BigQuery] 。 選取 [繼續]。

    註冊 BigQuery 來源

在 [註冊來源 (Google BigQuery) 畫面上,執行下列動作:

  1. 輸入要在目錄中列出數據來源的 [名稱 ]。

  2. 輸入 ProjectID。 這應該是完整的專案標識碼。 例如,mydomain.com:myProject

  3. 從清單中選取集合。

  4. 選取 [登錄]

    設定 BigQuery 來源

掃描

請遵循下列步驟來掃描 Google BigQuery 專案,以自動識別資產。 如需一般掃描的詳細資訊,請參閱 掃描和擷取簡介

建立和執行掃描

  1. 在管理中心中,選取 [整合運行時間]。 請確定已設定自我裝載整合運行時間。 如果未設定,請使用 必要條件中所述的步驟。

  2. 流覽至 [來源]

  3. 選取已註冊的 BigQuery 專案。

  4. 取 [+ 新增掃描]

  5. 提供下列詳細資料:

    1. 名稱:掃描的名稱

    2. 透過整合運行時間連線:選取設定的自我裝載整合運行時間

    3. 認證:設定 BigQuery 認證時,請務必:

      • 選取 [基本身份驗證 ] 作為驗證方法
      • 在 [用戶名稱] 欄位中提供服務帳戶的電子郵件識別碼。 例如,xyz\@developer.gserviceaccount.com
      • 請遵循下列步驟來產生私鑰、複製整個 JSON 金鑰檔案,然後將它儲存為 金鑰保存庫 密碼的值。

      若要從 Google 的雲端平臺建立新的私鑰:

      1. 在導覽功能表中,選取 [IAM & 管理員 -> 服務帳戶 -> 選取專案 ->
      2. 選取您要建立金鑰之服務帳戶的電子郵件位址。
      3. 選取 [ 金鑰] 索引標籤
      4. 選取 [ 新增金鑰 ] 下拉功能表,然後選取 [建立新密鑰]。
      5. 選擇 [JSON 格式]。

      注意事項

      當掃描程式正在執行時,私鑰的內容會儲存在 VM 上的暫存檔案中。 成功完成掃描之後,就會刪除此暫存盤。 如果掃描失敗,系統會繼續重試,直到成功為止。 請確定 SHIR 執行所在的 VM 上已適當地限制存取。

      若要深入了解認證,請參閱 這裡的連結。

    4. 驅動程式位置:指定執行自我裝載整合運行時間之計算機中的 JDBC 驅動程式位置路徑。 例如:D:\Drivers\GoogleBigQuery

      1. 針對本機電腦上的自我裝載整合運行時間: D:\Drivers\GoogleBigQuery。 這是有效 JAR 資料夾位置的路徑。 值必須是有效的絕對檔案路徑,且不包含空間。 請確定自我裝載整合運行時間可存取驅動程式;;請從 必要條件一節深入瞭解。
      2. 針對 Kubernetes 支援的自我裝載整合運行時間: ./drivers/GoogleBigQuery。 這是有效 JAR 資料夾位置的路徑。 值必須是有效的相對檔案路徑。 請參閱檔,以 使用外部驅動 程式設定掃描,以便事先上傳驅動程式。
    5. 數據集:指定要匯入的 BigQuery 數據集清單。 例如,dataset1;dataset2。 當清單空白時,會匯入所有可用的數據集。 可接受的資料集名稱模式可以是靜態名稱或包含通配符 。

      範例:A%;%B;%C%;D

      • 從 A 或開始
      • 結尾為 B 或
      • 包含 C 或
      • 等於 D

      不接受使用 NOT 和特殊字元。

    6. 可用的記憶體上限:掃描處理程式可在 VM 上使用的記憶體 (上限,) GB 為單位。 這取決於要掃描的Google BigQuery專案大小。

      掃描 BigQuery 來源

  6. 取 [測試連線]。

  7. 選取 [繼續]

  8. 選擇掃描 觸發程式。 您可以設定排程或執行掃描一次。

  9. 檢閱您的掃描,然後選取 [ 儲存並執行]

檢視掃描和掃描執行

若要檢視現有的掃描:

  1. 移至 Microsoft Purview 入口網站。 在左窗格中,選取 [ 數據對應]
  2. 選取數據源。 您可以在 [最近掃描] 底下檢視該數據源上現有 掃描的清單,也可以在 [掃描] 索引 卷標上 檢視所有掃描。
  3. 選取具有您想要檢視結果的掃描。 此窗格會顯示所有先前的掃描執行,以及每個掃描執行的狀態和計量。
  4. 選取執行標識碼以檢查 掃描執行詳細數據

管理您的掃描

若要編輯、取消或刪除掃描:

  1. 移至 Microsoft Purview 入口網站。 在左窗格中,選取 [ 數據對應]

  2. 選取數據源。 您可以在 [最近掃描] 底下檢視該數據源上現有 掃描的清單,也可以在 [掃描] 索引 卷標上 檢視所有掃描。

  3. 選取您要管理的掃描。 然後您可以:

    • 選取 [編輯掃描 ],以編輯掃描
    • 選取 [ 取消掃描執行],以取消進行中的掃描。
    • 選取 [ 刪除掃描],以刪除掃描

注意事項

  • 刪除掃描並不會刪除從先前掃描建立的類別目錄資產。

譜系

掃描 Google BigQuery 來源之後,您可以流覽 整合式目錄搜尋 整合式目錄 以檢視資產詳細數據。

移至 [資產 -> 譜系] 索引標籤,您可以在適用時看到資產關聯性。 請參閱 支援的 Google BigQuery譜系案例支援的功能一節。 如需一般譜系的詳細資訊,請參閱 數據譜系譜系使用者指南

Google BigQuery 譜系檢視

後續步驟

既然您已註冊來源,請遵循下列指南來深入瞭解 Microsoft Purview 和您的數據。