在 Microsoft Purview 中聯機及管理 Google BigQuery 專案
本文概述如何註冊 Google BigQuery 專案,以及如何在 Microsoft Purview 中驗證 Google BigQuery 並與其互動。 如需 Microsoft Purview 的詳細資訊,請閱讀 簡介文章。
支援的功能
元數據擷取 | 完整掃描 | 增量掃描 | 限域掃描 | 分類 | 加標籤 | 存取原則 | 譜系 | 資料共用 | 即時檢視 |
---|---|---|---|---|---|---|---|---|---|
是 | 是 | 否 | 是 | 否 | 否 | 否 | 是 | 否 | 否 |
掃描 Google BigQuery 來源時,Microsoft Purview 支援:
擷取技術元數據,包括:
- 專案
- 資料集
- 包含數據行的數據表
- 包含數據行的檢視
擷取數據表和檢視表之間資產關聯性的靜態譜系。
設定掃描時,您可以選擇掃描整個 Google BigQuery 專案,或將掃描範圍設定為與指定名稱相符的數據集子集 () 或名稱模式 () 。
已知限制
- 目前,Microsoft Purview 僅支持掃描美國多區域位置的 Google BigQuery 數據集。 如果指定的數據集位於其他位置,例如us-east1或EU,您會看到掃描完成,但 Microsoft Purview 中未顯示任何資產。
- 從數據源刪除物件時,後續掃描目前不會自動移除 purview Microsoft對應的資產。
必要條件
具有使用中訂用帳戶的 Azure 帳戶。 免費建立帳戶。
您需要數據源管理員和數據讀取者許可權,才能在 Microsoft Purview 治理入口網站中註冊來源及進行管理。 如需許可權的詳細資訊,請參閱 Microsoft Purview 中的訪問控制。
-
-
若要使用自我載入整合執行時間:
- 請遵循文章來建立和設定自我裝載整合運行時間。
- 確定已在安裝自我裝載整合運行時間的計算機上安裝 JDK 11 。 在新安裝 JDK 之後重新啟動電腦,使其生效。
- 確定 C++ 可轉散發套件 (版本 Visual Studio 2012 Update 4 或更新版本的) 安裝在自我裝載整合運行時間執行所在的電腦上。 如果您尚未安裝此更新,請 立即下載。
- 在自我裝載整合運行時間執行所在的計算機上下載並解壓縮 BigQuery JDBC 驅動 程式。 記下您將用來設定掃描的資料夾路徑。
-
若要使用 kubernetes 支援的自我裝載整合運行時間:
- 請遵循文章來建立和設定 kubernetes 支援的整合運行時間。
- 在自我裝載整合運行時間執行所在的計算機上下載並解壓縮 BigQuery JDBC 驅動 程式。 記下您將用來設定掃描的資料夾路徑。
注意事項
自我裝載整合運行時間應該可以存取驅動程式。 根據預設,自我裝載整合運行時間會使用本地服務帳戶 “NT SERVICE\DIAHostService”。 請確定它具有驅動程式資料夾的「讀取和執行」和「列出資料夾內容」許可權。
-
若要使用自我載入整合執行時間:
掃描所需的許可權
您用於掃描的 Google BigQuery 服務帳戶在您想要掃描的專案 () 必須同時具有 BigQuery 元數據查看器和 BigQuery 作業使用者 IAM 角色 。 這些許可權是必要的,因為 Microsoft Purview 會藉由讀取 Google BigQuery 資料庫系統數據表來擷取元數據, (例如INFORMATION_SCHEMA) 。 而基礎Google BigQuery JDBC 驅動程式會在需要從這些系統數據表讀取時建立 BigQuery 作業。
Microsoft Purview 使用 Oauth 2.0 通訊協定來存取 Google BigQuery 服務。 依照建立和執行掃描一節中的指示來設定 認證 。
登錄
本節說明如何使用 Microsoft Purview 治理入口網站,在 Microsoft Purview 中註冊 Google BigQuery 專案。
註冊步驟
開啟 Microsoft Purview 治理入口網站,方法如下:
- 直接流覽並 https://web.purview.azure.com 選取您的 Microsoft Purview 帳戶。
- 開啟 Azure 入口網站,搜尋並選取 Microsoft Purview 帳戶。 選取 [Microsoft Purview 治理入口網站 ] 按鈕。
選取左側導覽上的 [數據對應 ]。
選取 [註冊]。
在 [註冊來源] 上,選取 [Google BigQuery] 。 選取 [繼續]。
在 [註冊來源 (Google BigQuery) 畫面上,執行下列動作:
輸入要在目錄中列出數據來源的 [名稱 ]。
輸入 ProjectID。 這應該是完整的專案標識碼。 例如,mydomain.com:myProject
從清單中選取集合。
選取 [登錄]。
掃描
請遵循下列步驟來掃描 Google BigQuery 專案,以自動識別資產。 如需一般掃描的詳細資訊,請參閱 掃描和擷取簡介。
建立和執行掃描
在管理中心中,選取 [整合運行時間]。 請確定已設定自我裝載整合運行時間。 如果未設定,請使用 必要條件中所述的步驟。
流覽至 [來源]。
選取已註冊的 BigQuery 專案。
選 取 [+ 新增掃描]。
提供下列詳細資料:
名稱:掃描的名稱
透過整合運行時間連線:選取設定的自我裝載整合運行時間
認證:設定 BigQuery 認證時,請務必:
- 選取 [基本身份驗證 ] 作為驗證方法
- 在 [用戶名稱] 欄位中提供服務帳戶的電子郵件識別碼。 例如,
xyz\@developer.gserviceaccount.com
- 請遵循下列步驟來產生私鑰、複製整個 JSON 金鑰檔案,然後將它儲存為 金鑰保存庫 密碼的值。
若要從 Google 的雲端平臺建立新的私鑰:
- 在導覽功能表中,選取 [IAM & 管理員 -> 服務帳戶 -> 選取專案 ->
- 選取您要建立金鑰之服務帳戶的電子郵件位址。
- 選取 [ 金鑰] 索引標籤 。
- 選取 [ 新增金鑰 ] 下拉功能表,然後選取 [建立新密鑰]。
- 選擇 [JSON 格式]。
注意事項
當掃描程式正在執行時,私鑰的內容會儲存在 VM 上的暫存檔案中。 成功完成掃描之後,就會刪除此暫存盤。 如果掃描失敗,系統會繼續重試,直到成功為止。 請確定 SHIR 執行所在的 VM 上已適當地限制存取。
若要深入了解認證,請參閱 這裡的連結。
驅動程式位置:指定執行自我裝載整合運行時間之計算機中的 JDBC 驅動程式位置路徑。 例如:
D:\Drivers\GoogleBigQuery
。數據集:指定要匯入的 BigQuery 數據集清單。 例如,
dataset1;dataset2
。 當清單空白時,會匯入所有可用的數據集。 可接受的資料集名稱模式可以是靜態名稱或包含通配符 。範例:
A%;%B;%C%;D
- 從 A 或開始
- 結尾為 B 或
- 包含 C 或
- 等於 D
不接受使用 NOT 和特殊字元。
可用的記憶體上限:掃描處理程式可在 VM 上使用的記憶體 (上限,) GB 為單位。 這取決於要掃描的Google BigQuery專案大小。
選 取 [測試連線]。
選取 [繼續]。
選擇掃描 觸發程式。 您可以設定排程或執行掃描一次。
檢閱您的掃描,然後選取 [ 儲存並執行]。
檢視掃描和掃描執行
若要檢視現有的掃描:
- 移至 Microsoft Purview 入口網站。 在左窗格中,選取 [ 數據對應]。
- 選取數據源。 您可以在 [最近掃描] 底下檢視該數據源上現有 掃描的清單,也可以在 [掃描] 索引 卷標上 檢視所有掃描。
- 選取具有您想要檢視結果的掃描。 此窗格會顯示所有先前的掃描執行,以及每個掃描執行的狀態和計量。
- 選取執行標識碼以檢查 掃描執行詳細數據。
管理您的掃描
若要編輯、取消或刪除掃描:
移至 Microsoft Purview 入口網站。 在左窗格中,選取 [ 數據對應]。
選取數據源。 您可以在 [最近掃描] 底下檢視該數據源上現有 掃描的清單,也可以在 [掃描] 索引 卷標上 檢視所有掃描。
選取您要管理的掃描。 然後您可以:
- 選取 [編輯掃描 ],以編輯掃描。
- 選取 [ 取消掃描執行],以取消進行中的掃描。
- 選取 [ 刪除掃描],以刪除掃描。
注意事項
- 刪除掃描並不會刪除從先前掃描建立的類別目錄資產。
譜系
掃描 Google BigQuery 來源之後,您可以流覽 整合式目錄 或搜尋 整合式目錄 以檢視資產詳細數據。
移至 [資產 -> 譜系] 索引標籤,您可以在適用時看到資產關聯性。 請參閱 支援的 Google BigQuery譜系案例支援的功能一節。 如需一般譜系的詳細資訊,請參閱 數據譜系 和 譜系使用者指南。
後續步驟
既然您已註冊來源,請遵循下列指南來深入瞭解 Microsoft Purview 和您的數據。