聯機到及管理 Microsoft Purview 中的 Hive 中繼存放區資料庫
本文概述如何註冊 Hive 中繼存放區資料庫,以及如何在 Microsoft Purview 中驗證 Hive 中繼存放區資料庫並與其互動。 如需 Microsoft Purview 的詳細資訊,請閱讀 簡介文章。
支援的功能
元數據擷取 | 完整掃描 | 增量掃描 | 限域掃描 | 分類 | 加標籤 | 存取原則 | 譜系 | 資料共用 | 即時檢視 |
---|---|---|---|---|---|---|---|---|---|
是 | 是 | 否 | 是 | 否 | 否 | 否 | 是的* | 否 | 否 |
* 除了數據源內資產的譜系之外,如果在 Data Factory 或 Synapse 管線中使用數據集做為來源/接收器,也支援譜系。
支援的Hive版本為2.x到3.x。 支持的平臺包括 Apache Hadoop、Cloudera 和 Hortonworks。 如果您想要掃描 Azure Databricks,建議您使用更相容且方便使用的 Azure Databricks 連接器。
掃描 Hive 中繼存放區來源時,Microsoft Purview 支援:
擷取技術元數據,包括:
- 伺服器
- 資料庫
- 包含數據行、外鍵、唯一條件約束和記憶體描述的數據表
- 包含數據行和記憶體描述的檢視
擷取數據表和檢視表之間資產關聯性的靜態譜系。
設定掃描時,您可以選擇掃描整個 Hive 中繼存放區資料庫,或將掃描範圍設定為符合指定名稱的架構子集 () 或名稱模式 () 。
已知限制
從數據源刪除物件時,後續掃描目前不會自動移除 purview Microsoft對應的資產。
必要條件
您必須擁有具有作用中訂用帳戶的 Azure 帳戶。 免費建立帳戶。
您必須有作用 中Microsoft Purview 帳戶。
您需要數據源管理員和數據讀取者許可權,才能在 Microsoft Purview 治理入口網站中註冊來源及進行管理。 如需許可權的詳細資訊,請參閱 Microsoft Purview 中的訪問控制。
如果您的數據源無法公開存取,請設定最新的自我裝載整合運行時間。
-
為您的案例選擇正確的整合運行時間:
-
若要使用自我載入整合執行時間:
- 請遵循文章來建立和設定自我裝載整合運行時間。
- 確定已在安裝自我裝載整合運行時間的計算機上安裝 JDK 11 。 在新安裝 JDK 之後重新啟動電腦,使其生效。
- 確定 C++ 可轉散發套件 (版本 Visual Studio 2012 Update 4 或更新版本的) 安裝在自我裝載整合運行時間執行所在的電腦上。 如果您尚未安裝此更新,請 立即下載。
- 在自我裝載整合運行時間執行所在的計算機上下載Hive中繼存放區資料庫的JDBC驅動程式。 例如,如果資料庫是 mssql,請下載Microsoft的 JDBC driver for SQL Server。 記下您將用來設定掃描的資料夾路徑。
-
若要使用 kubernetes 支援的自我裝載整合運行時間:
- 請遵循文章來建立和設定 kubernetes 支援的整合運行時間。
- 在自我裝載整合運行時間執行所在的計算機上下載Hive中繼存放區資料庫的JDBC驅動程式。 例如,如果資料庫是 mssql,請下載Microsoft的 JDBC driver for SQL Server。 記下您將用來設定掃描的資料夾路徑。
-
若要使用自我載入整合執行時間:
注意事項
自我裝載整合運行時間應該可以存取 JDBC 驅動程式。 根據預設,自我裝載整合運行時間會使用本地服務帳戶 “NT SERVICE\DIAHostService”。 請確定它具有驅動程式資料夾的「讀取和執行」和「列出資料夾內容」許可權。
-
為您的案例選擇正確的整合運行時間:
登錄
本節說明如何使用 Microsoft Purview 治理入口網站,在 Microsoft Purview 中註冊 Hive 中繼存放區資料庫。
Hive 中繼存放區資料庫唯一支援的驗證是基本身份驗證。
開啟 Microsoft Purview 治理入口網站,方法如下:
- 直接流覽並 https://web.purview.azure.com 選取您的 Microsoft Purview 帳戶。
- 開啟 Azure 入口網站,搜尋並選取 Microsoft Purview 帳戶。 選取 [Microsoft Purview 治理入口網站 ] 按鈕。
選取左窗格上的 [數據對應 ]。
選取 [登錄]。
在 [註冊來源] 中,選取 [Hive 中繼存放區>繼續]。
在 [登錄 來源 (Hive 中繼存放區) 畫面上,執行下列動作:
針對 [名稱],輸入 Purview 將列出Microsoft為數據源的名稱。
針對 [Hive 叢集 URL],輸入您從 Ambari URL 取得的值。 例如,輸入 hive.azurehdinsight.net。
針對 Hive中繼存放區伺服器URL,輸入伺服器的URL。 例如,輸入 sqlserver://hive.database.windows.net。
從清單中選取集合。
選取 [完成]。
掃描
使用下列步驟掃描Hive中繼存放區資料庫,以自動識別資產。 如需一般掃描的詳細資訊,請參閱 Microsoft Purview 中的掃描和擷取。
在管理中心中,選取 [整合運行時間]。 請確定已設定自我裝載整合運行時間。 如果未設定,請使用 必要條件中的步驟。
移至 [來源]。
選取已註冊的Hive中繼存放區資料庫。
選 取 [+ 新增掃描]。
提供下列詳細資料:
名稱:輸入掃描的名稱。
透過整合運行時間連線:選取設定的自我裝載整合運行時間。
認證:選取要連線到數據源的認證。 請務必:
- 建立認證時選取 [基本身份驗證]。
- 在適當的方塊中提供中繼存放區用戶名稱。
- 將中繼存放區密碼儲存在秘密金鑰中。
如需詳細資訊,請參閱 Microsoft Purview 中的來源驗證認證。
中繼存放區 JDBC 驅動程式位置:指定執行自我主機整合運行時間之計算機中的 JDBC 驅動程式位置路徑。 例如,
D:\Drivers\HiveMetastore
。中繼存放區 JDBC 驅動程式類別:提供連接驅動程式的類別名稱。 例如,輸入 \com.microsoft.sqlserver.jdbc.SQLServerDriver。
中繼存放區 JDBC URL:提供連線 URL 值,並定義與中繼存放區資料庫伺服器 URL 的連線。 例如:
jdbc:sqlserver://hive.database.windows.net;database=hive;encrypt=true;trustServerCertificate=true;create=false;loginTimeout=300
。注意事項
當您從 hive-site.xml複製 URL 時,請從字串中移除
amp;
,否則掃描將會失敗。將 SSL 憑證下載 到自我裝載整合運行時間電腦,然後在 URL 中更新您電腦上 SSL 憑證位置的路徑。
當您在掃描組態中輸入本機檔案路徑時,請將 Windows 路徑分隔符從反斜杠 ()
\
變更為正斜線 ()/
。 例如,如果您將 SSL 憑證放在本機檔案路徑 D:\Drivers\SSLCert\BaltimoreCyberTrustRoot.crt.pem,請將參數值變更serverSslCert
為 D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem。中 繼存放區 JDBC URL 值看起來會像下列範例:
jdbc:mariadb://samplehost.mysql.database.azure.com:3306/XXXXXXXXXXXXXXXX?useSSL=true&enabledSslProtocolSuites=TLSv1,TLSv1.1,TLSv1.2&serverSslCert=D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem
中繼存放區資料庫名稱:提供Hive中繼存放區資料庫的名稱。
架構:指定要匯入的Hive架構清單。 例如: schema1;schema2。
如果該清單是空的,則會匯入所有用戶架構。 例如,預設會忽略 SysAdmin) 和物件等所有系統架構 (。
使用 SQL
LIKE
運算式語法的可接受架構名稱模式包括百分比符號 (%) 。 例如, 表示A%; %B; %C%; D
:- 從 A 或開始
- 以 B 結尾或
- 包含 C 或
- 等於 D
NOT
無法接受和特殊字元的使用方式。可用的記憶體上限:客戶計算機上可用的最大記憶體 (以 GB 為單位) 供掃描程式使用。 此值取決於要掃描的Hive中繼存放區資料庫大小。
注意事項
根據經驗法則,請為每 1000 個數據表提供 1GB 記憶體。
選取 [繼續]。
針對 [掃描觸發程式],選擇要設定排程或執行掃描一次。
檢閱您的掃描,然後選取 [ 儲存並執行]。
檢視掃描和掃描執行
若要檢視現有的掃描:
- 移至 Microsoft Purview 入口網站。 在左窗格中,選取 [ 數據對應]。
- 選取數據源。 您可以在 [最近掃描] 底下檢視該數據源上現有 掃描的清單,也可以在 [掃描] 索引 卷標上 檢視所有掃描。
- 選取具有您想要檢視結果的掃描。 此窗格會顯示所有先前的掃描執行,以及每個掃描執行的狀態和計量。
- 選取執行標識碼以檢查 掃描執行詳細數據。
管理您的掃描
若要編輯、取消或刪除掃描:
移至 Microsoft Purview 入口網站。 在左窗格中,選取 [ 數據對應]。
選取數據源。 您可以在 [最近掃描] 底下檢視該數據源上現有 掃描的清單,也可以在 [掃描] 索引 卷標上 檢視所有掃描。
選取您要管理的掃描。 然後您可以:
- 選取 [編輯掃描 ],以編輯掃描。
- 選取 [ 取消掃描執行],以取消進行中的掃描。
- 選取 [ 刪除掃描],以刪除掃描。
注意事項
- 刪除掃描並不會刪除從先前掃描建立的類別目錄資產。
譜系
掃描 Hive 中繼存放區來源之後,您可以瀏覽 整合式目錄 或搜尋 整合式目錄 以檢視資產詳細數據。
移至 [資產 -> 譜系] 索引標籤,您可以在適用時看到資產關聯性。 請參閱 支援的 Hive中繼存放區譜系案例支援的功能一節。 如需一般譜系的詳細資訊,請參閱 數據譜系 和 譜系使用者指南。
後續步驟
現在您已註冊來源,請使用下列指南來深入瞭解 Microsoft Purview 和您的數據: