在 Microsoft Purview 中聯機和管理 Azure Databricks Unity 目錄
本文概述如何註冊 Azure Databricks,以及如何在 Microsoft Purview 中驗證 Azure Databricks Unity 目錄並與其互動。 如需 Microsoft Purview 的詳細資訊,請閱讀 簡介文章。
支援的功能
元數據擷取 | 完整掃描 | 增量掃描 | 限域掃描 | 分類 | 加標籤 | 存取原則 | 譜系 | 資料共用 | 即時檢視 |
---|---|---|---|---|---|---|---|---|---|
是 | 是 | 是 | 是 | 是 | 否 | 否 | 是 | 否 | 否 |
掃描 Azure Databricks Unity 目錄時,Microsoft支援:
- 擷取技術元數據,包括:
- 中繼存放區
- 目錄
- Schemas
- 包含數據行的數據表
- 包含數據行的檢視
- 在筆記本執行期間,擷取數據表、檢視表、數據行之間資產關聯性的譜系。
設定掃描時,您可以選擇掃描整個 Unity 目錄,或將掃描範圍設定為目錄子集。
注意事項
此連接器會從 Azure Databricks Unity 目錄帶入元數據。 若要掃描 Azure Databricks 工作區範圍的元數據,請參閱 Azure Databricks Hive 中繼存放區連接器。
已知限制
- 從數據源刪除物件時,後續掃描目前不會自動移除 purview Microsoft對應的資產。
- 如需與原生 Azure Databricks 譜系相關的其他限制詳細資訊,請參閱 Azure Databricks 檔。
必要條件
您必須擁有具有作用中訂用帳戶的 Azure 帳戶。 免費建立帳戶。
您必須有作用 中Microsoft Purview 帳戶。
您需要 Azure 金鑰保存庫,以及授與 Microsoft Purview 存取秘密的許可權。
您需要數據源管理員和數據讀取者許可權,才能在 Microsoft Purview 治理入口網站中註冊來源及進行管理。 如需許可權的詳細資訊,請參閱 Microsoft Purview 中的訪問控制。
若要掃描 Azure Databricks Unity 目錄,Microsoft Purview 會連線到工作區中的 SQL 倉儲,並使用個人存取令牌進行驗證。 您必須啟 用已啟用 Unity 目錄 的 Azure Databricks 工作區,並將其附加至您想要掃描的中繼存放區。 在 Azure Databricks 工作區中:
建立 SQL 倉儲。 如果適用,您也可以使用自動建立的入門版倉儲。
記下 HTTP 路徑。 您可以在 Azure Databricks 工作區 - SQL Warehouses -> 您的倉儲 ->> 連線詳細數據 -> HTTP 路徑中找到它。
請確定使用者具有 [可以使用] 權 限,以便連線到 Azure Databricks SQL 倉儲。 深入瞭解 SQL 倉儲訪問控制。
若要使用 Microsoft Purview 從 Azure Databricks 擷取譜系,必須具備下列必要條件:
啟用系統架構:必須在 Unity 目錄中啟用系統架構 system.access 。 這是必要的,因為歷程資訊會儲存在系統數據表中,而啟用此架構可允許存取這些數據表。 深入瞭解使用系統數據表監視使用量。
使用者權力:用於掃描的使用者帳戶必須具有下列系統數據表的 SELECT 許可權:
system.access.table_lineage
system.access.column_lineage
這些許可權是必要的,因為歷程數據是直接從系統數據表讀取,如果沒有必要的存取權,Microsoft Purview 就無法擷取歷程資訊。
如果您的 Azure Databricks 工作區不允許從公用網路存取,或如果您的 Microsoft Purview 帳戶無法從所有網路啟用存取,您可以使用受控 虛擬網路 Integration Runtime 或 kubernetes 支援的自我裝載整合運行時間進行掃描。 您可以視需要為 Azure Databricks 設定受控私人端點,以建立私人連線能力。
掃描的驗證
您可以使用個人存取令牌、受控識別或服務主體驗證方法來掃描 Azure Databricks Unity 目錄。
如果使用系統或使用者指派的受控識別
- 在 [認證] 下選取系統指派或使用者指派的受控 識別。
若要使用使用者指派的受控識別,您必須 設定 Azure Databricks 的 Azure 受控識別驗證。
針對您想要帶入 purview Microsoft的所有物件,使用者或服務主體至少必須具有數據表/檢視的 SELECT 許可權、對象目錄上的 USE CATALOG ,以及對象架構上的 USE SCHEMA 。
若要掃描 Unity 目錄中繼存放區中的所有物件,請使用具有中繼存放區系統管理員角色的使用者或服務主體。 深入瞭解 Unity 目錄和 Unity 目錄 許可權 和安全性實體物件中的管理許可權。
若要進行分類,用戶也必須具有數據表/檢視的SELECT許可權,才能擷取範例數據。
登錄
本節說明如何使用 Microsoft Purview 治理入口網站,在 Microsoft Purview 中註冊 Azure Databricks 工作區。
移至您的 Microsoft Purview 帳戶。
選取左窗格上的 [數據對應 ]。
選取 [登錄]。
在 [註冊來源] 中,選取 [Azure Databricks Unity 目錄>繼續]。
在 [ 註冊來源 (Azure Databricks Unity 目錄) 畫面上,執行下列動作:
針對 [名稱],輸入 Purview 將列出Microsoft為數據源的名稱。
針對 中繼存放區標識碼,提供您想要掃描之 Azure Databricks Unity 目錄中繼存放區的中繼存放區標識符。
從清單中選取集合。
- 選取 [完成]。
掃描
使用下列步驟掃描 Azure Databricks 以自動識別資產。 如需一般掃描的詳細資訊,請參閱 Microsoft Purview 中的掃描和擷取。
移至 [來源]。
選取已註冊的 Azure Databricks。
選 取 [+ 新增掃描]。
提供下列詳細資料:
名稱:輸入掃描的名稱。
透過整合運行時間連線:選擇您建立的預設 Azure 整合運行時間、受控 VNet IR 或 Kubernetes 支援的自我裝載整合運行時間。
認證:選取要連線到數據源的認證。 請務必:
- 選 取 [存取令牌]、[ 受控識別 ] 或 [服務主體]。
- 您可以在註冊掃描時建立新的存取令牌或服務主體認證。 如需詳細資訊,請參閱 Microsoft Purview 中的來源驗證認證。
工作區 URL: 提供您想要掃描之工作區的 URL。
HTTP 路徑:指定 Microsoft Purview 將連線到並執行掃描的 Databricks SQL Warehouse HTTP 路徑,例如 。
/sql/1.0/endpoints/xxxxxxxxxxxxxxxx
您可以在 Azure Databricks 工作區 - SQL Warehouses -> 您的倉儲 ->> 連線詳細數據 -> HTTP 路徑中找到它。譜系擷取: 將譜系擷取切換至 [開啟 ] 以擷取掃描資產的譜系。
選 取 [測試連線 ] 以驗證設定。
選取 [繼續]。
針對 [掃描觸發程式],選擇要設定排程或執行掃描一次。
檢閱您的掃描,然後選取 [ 儲存並執行]。
掃描成功完成後,請參閱如何 流覽和搜尋資產。
檢視掃描和掃描執行
若要檢視現有的掃描:
- 移至 Microsoft Purview 入口網站。 在左窗格中,選取 [ 數據對應]。
- 選取數據源。 您可以在 [最近掃描] 底下檢視該數據源上現有 掃描的清單,也可以在 [掃描] 索引 卷標上 檢視所有掃描。
- 選取具有您想要檢視結果的掃描。 此窗格會顯示所有先前的掃描執行,以及每個掃描執行的狀態和計量。
- 選取執行標識碼以檢查 掃描執行詳細數據。
管理您的掃描
若要編輯、取消或刪除掃描:
移至 Microsoft Purview 入口網站。 在左窗格中,選取 [ 數據對應]。
選取數據源。 您可以在 [最近掃描] 底下檢視該數據源上現有 掃描的清單,也可以在 [掃描] 索引 卷標上 檢視所有掃描。
選取您要管理的掃描。 然後您可以:
- 選取 [編輯掃描 ],以編輯掃描。
- 選取 [ 取消掃描執行],以取消進行中的掃描。
- 選取 [ 刪除掃描],以刪除掃描。
注意事項
- 刪除掃描並不會刪除從先前掃描建立的類別目錄資產。
流覽和搜尋資產
掃描 Azure Databricks 之後,您可以流覽 整合式目錄 或搜尋 整合式目錄 以檢視資產詳細數據和譜系。
依來源類型流覽時,您會分別看到 Azure Databricks Unity 目錄 和 Azure Databricks 的兩個專案 。 前者包含 Unity 目錄成品,包括中繼存放區及其目錄/架構/數據表/檢視,而後者則包含工作區成品。
從 Azure Databricks 工作區資產中,您可以在 [屬性] 索引標籤下找到相關聯的 Unity 目錄,反轉也適用。
譜系
流覽特定的 Azure Databricks 資產時,您可以看到已擷取譜系的筆記本。
移至 [資產 -> 譜系] 索引標籤,您可以在適用時在 Azure Databricks Notebook 資產或數據表/檢視資產上看到譜系。
請參閱 支援的 Databricks Unity 目錄譜系案例支援的功能一節。 如需一般譜系的詳細資訊,請參閱 數據譜系 和 譜系使用者指南。
常見問題集 (FAQ)
Microsoft Purview 是否從 Unity 目錄擷取數據行層級譜系?
Microsoft Purview 可以在 Unity 目錄數據表/檢視層級和數據行層級擷取譜系。
我看不到數據行層級譜系,發生什麼事?
當您的筆記本是從叢集執行,而不是透過 SQL 倉儲產生時,就會產生數據行層級譜系。
我收到逾時錯誤,該怎麼辦?
當您的工作區中有大量資產時,您的掃描可能無法完成。 在此情況下,您可以一次將掃描範圍設定為幾個目錄,以減少每次掃描的資產數量,並允許掃描完成。
我剛執行筆記本,但Microsoft Purview 並未擷取譜系。 發生了什麼事情?
Databricks 在您的筆記本執行之後,可能會有幾分鐘的延遲來更新其系統數據表中的歷程資訊。 Microsoft一旦系統數據表更新,Purview 就能夠擷取譜系。
後續步驟
現在您的來源已註冊,請使用下列指南來深入瞭解 purview Microsoft和您的數據: