在 Microsoft Purview 中聯機和管理 Azure Databricks
本文概述如何註冊 Azure Databricks,以及如何在 Microsoft Purview 中驗證 Azure Databricks 並與其互動。 如需 Microsoft Purview 的詳細資訊,請閱讀 簡介文章。
支援的功能
元數據擷取 | 完整掃描 | 增量掃描 | 限域掃描 | 分類 | 加標籤 | 存取原則 | 譜系 | 資料共用 | 即時檢視 |
---|---|---|---|---|---|---|---|---|---|
是 | 是 | 否 | 是 | 否 | 否 | 否 | 是 | 否 | 否 |
注意事項
此連接器會從 Azure Databricks 工作區範圍的 Hive 中繼存放區帶入元數據。 若要掃描 Azure Databricks Unity 目錄中的元數據,請參閱 Azure Databricks Unity 目錄連接器。
掃描 Azure Databricks Hive 中繼存放區時,Microsoft Purview 支援:
擷取技術元數據,包括:
- Azure Databricks 工作區
- Hive 伺服器
- 資料庫
- 包含數據行、外鍵、唯一條件約束和記憶體描述的數據表
- 包含數據行和記憶體描述的檢視
擷取外部數據表與 Azure Data Lake Storage Gen2/Azure Blob 資產之間的關聯性, (外部位置) 。
根據檢視定義,在數據表和檢視之間擷取靜態譜系。
設定掃描時,您可以選擇掃描整個 Hive 中繼存放區,或將掃描範圍設定為架構的子集。
比較透過泛型 Hive中繼存放區連接器 進行掃描,以防您使用它來掃描 Azure Databricks:
- 您可以直接設定 Azure Databricks 工作區的掃描,而不需要直接 HMS 存取。 它會使用 Databricks 個人存取令牌進行驗證,並連線到叢集以執行掃描。
- 已擷取 Databricks 工作區資訊。
- 擷取數據表與記憶體資產之間的關聯性。
已知限制
從數據源刪除物件時,後續掃描目前不會自動移除 purview Microsoft對應的資產。
必要條件
您必須擁有具有作用中訂用帳戶的 Azure 帳戶。 免費建立帳戶。
您必須有作用 中Microsoft Purview 帳戶。
您需要 Azure 金鑰保存庫,以及授與 Microsoft Purview 存取秘密的許可權。
您需要數據源管理員和數據讀取者許可權,才能在 Microsoft Purview 治理入口網站中註冊來源及進行管理。 如需許可權的詳細資訊,請參閱 Microsoft Purview 中的訪問控制。
設定最新的 自我裝載整合運行時間。 如需詳細資訊,請參閱 建立和設定自我裝載整合運行時間。 最低支援的自我裝載 Integration Runtime 版本是5.20.8227.2。
在 Azure Databricks 工作區中:
登錄
本節說明如何使用 Microsoft Purview 治理入口網站,在 Microsoft Purview 中註冊 Azure Databricks 工作區。
移至您的 Microsoft Purview 帳戶。
選取左窗格上的 [數據對應 ]。
選取 [登錄]。
在 [註冊來源] 中,選取 [Azure Databricks>繼續]。
在 [ 註冊來源 (Azure Databricks) 畫面上,執行下列動作:
針對 [名稱],輸入 Purview 將列出Microsoft為數據源的名稱。
針對 [Azure 訂用 帳戶] 和 [Databricks 工作區名稱],從下拉式清單中選取您要掃描的訂用帳戶和工作區。 Databricks 工作區 URL 會自動填入。
從清單中選取集合。
選取 [完成]。
掃描
使用下列步驟掃描 Azure Databricks 以自動識別資產。 如需一般掃描的詳細資訊,請參閱 Microsoft Purview 中的掃描和擷取。
在管理中心中,選取 [整合運行時間]。 請確定已設定自我裝載整合運行時間。 如果未設定,請使用 建立和管理自我裝載整合運行時間中的步驟。
移至 [來源]。
選取已註冊的 Azure Databricks。
選 取 [+ 新增掃描]。
提供下列詳細資料:
名稱:輸入掃描的名稱。
擷取方法: 表示要從Hive中繼存放區或 Unity 目錄擷取元數據。 選取 [Hive 中繼存放區]。
透過整合運行時間連線:選取設定的自我裝載整合運行時間。
認證:選取要連線到數據源的認證。 請務必:
- 在建立認證時選 取 [存取令牌驗證 ]。
- 在適當的方 塊中, 提供您在必要條件中建立的個人存取令牌秘密名稱。
如需詳細資訊,請參閱 Microsoft Purview 中的來源驗證認證。
叢集標識碼:指定 Purview Microsoft連線並支援掃描的叢集標識碼。 您可以在 Azure Databricks 工作區中找到它 -> 計算 -> 您的叢集 -> 標籤 -> 自動新增標籤 ->
ClusterId
。載入點:當您手動將外部記憶體掛接到 Databricks 時,請提供裝入點和 Azure 記憶體來源位置字串。 請使用格式
/mnt/<path>=abfss://<container>@<adls_gen2_storage_account>.dfs.core.windows.net/;/mnt/<path>=wasbs://<container>@<blob_storage_account>.blob.core.windows.net
。 它用來擷取數據表與 Microsoft Purview 中對應記憶體資產之間的關聯性。 如果未指定此設定,則此設定為選擇性,則不會擷取這類關聯性。您可以在筆記本中執行下列 Python 命令,以取得 Databricks 工作區中的裝入點清單:
dbutils.fs.mounts()
它會列印所有裝入點,如下所示:
[MountInfo(mountPoint='/databricks-datasets', source='databricks-datasets', encryptionType=''), MountInfo(mountPoint='/mnt/ADLS2', source='abfss://samplelocation1@azurestorage1.dfs.core.windows.net/', encryptionType=''), MountInfo(mountPoint='/databricks/mlflow-tracking', source='databricks/mlflow-tracking', encryptionType=''), MountInfo(mountPoint='/mnt/Blob', source='wasbs://samplelocation2@azurestorage2.blob.core.windows.net', encryptionType=''), MountInfo(mountPoint='/databricks-results', source='databricks-results', encryptionType=''), MountInfo(mountPoint='/databricks/mlflow-registry', source='databricks/mlflow-registry', encryptionType=''), MountInfo(mountPoint='/', source='DatabricksRoot', encryptionType='')]
在這裡範例中,將下列專案指定為裝入點:
/mnt/ADLS2=abfss://samplelocation1@azurestorage1.dfs.core.windows.net/;/mnt/Blob=wasbs://samplelocation2@azurestorage2.blob.core.windows.net
架構:要匯入的架構子集,以分號分隔的架構清單表示。 例如,
schema1;schema2
。 如果該清單是空的,則會匯入所有用戶架構。 預設會忽略所有系統架構和物件。可接受的架構名稱模式可以是靜態名稱或包含通配符 。 例如:
A%;%B;%C%;D
- 從 A 或開始
- 以 B 結尾或
- 包含 C 或
- 等於 D
不接受使用 NOT 和特殊字元。
注意事項
自我裝載 Integration Runtime 版本 5.32.8597.1 和更新版本支援此架構篩選。
可用的記憶體上限:客戶計算機上可用的最大記憶體 (以 GB 為單位) 供掃描程式使用。 此值取決於要掃描的 Azure Databricks 大小。
注意事項
根據經驗法則,請為每 1000 個數據表提供 1GB 記憶體。
選取 [繼續]。
針對 [掃描觸發程式],選擇要設定排程或執行掃描一次。
檢閱您的掃描,然後選取 [ 儲存並執行]。
掃描成功完成後,請參閱如何 瀏覽和搜尋 Azure Databricks 資產。
檢視掃描和掃描執行
若要檢視現有的掃描:
- 移至 Microsoft Purview 入口網站。 在左窗格中,選取 [ 數據對應]。
- 選取數據源。 您可以在 [最近掃描] 底下檢視該數據源上現有 掃描的清單,也可以在 [掃描] 索引 卷標上 檢視所有掃描。
- 選取具有您想要檢視結果的掃描。 此窗格會顯示所有先前的掃描執行,以及每個掃描執行的狀態和計量。
- 選取執行標識碼以檢查 掃描執行詳細數據。
管理您的掃描
若要編輯、取消或刪除掃描:
移至 Microsoft Purview 入口網站。 在左窗格中,選取 [ 數據對應]。
選取數據源。 您可以在 [最近掃描] 底下檢視該數據源上現有 掃描的清單,也可以在 [掃描] 索引 卷標上 檢視所有掃描。
選取您要管理的掃描。 然後您可以:
- 選取 [編輯掃描 ],以編輯掃描。
- 選取 [ 取消掃描執行],以取消進行中的掃描。
- 選取 [ 刪除掃描],以刪除掃描。
注意事項
- 刪除掃描並不會刪除從先前掃描建立的類別目錄資產。
流覽和搜尋資產
掃描 Azure Databricks 之後,您可以流覽 整合式目錄 或搜尋 整合式目錄 以檢視資產詳細數據。
從 Databricks 工作區資產中,您也可以找到相關聯的 Hive 中繼存放區和數據表/檢視,反轉也適用。
譜系
請參閱 支援的 Azure Databricks 案例支援的功能一節。 如需一般譜系的詳細資訊,請參閱 數據譜系 和 譜系使用者指南。
移至 [Hive 數據表/檢視資產 -> 譜系] 索引卷標,您可以在適用時看到資產關聯性。 針對數據表與外部記憶體資產之間的關聯性,您會看到Hive數據表資產和記憶體資產會雙向直接連線,因為它們彼此相互影響。 如果您在 create table 語句中使用裝入點,您必須在 掃描設定 中提供裝入點資訊,以擷取這類關聯性。
後續步驟
現在您已註冊來源,請使用下列指南來深入瞭解 Microsoft Purview 和您的數據: