共用方式為


聯機到及管理 Microsoft Purview 中的 Hive 中繼存放區資料庫

本文概述如何註冊 Hive 中繼存放區資料庫,以及如何在 Microsoft Purview 中驗證 Hive 中繼存放區資料庫並與其互動。 如需 Microsoft Purview 的詳細資訊,請閱讀 簡介文章

支援的功能

元數據擷取 完整掃描 增量掃描 限域掃描 分類 加標籤 存取原則 譜系 資料共用 即時檢視
是的*

* 除了數據源內資產的譜系之外,如果在 Data Factory 或 Synapse 管線中使用數據集做為來源/接收器,也支援譜系。

支援的Hive版本為2.x到3.x。 支持的平臺包括 Apache Hadoop、Cloudera 和 Hortonworks。 如果您想要掃描 Azure Databricks,建議您使用更相容且方便使用的 Azure Databricks 連接器

掃描 Hive 中繼存放區來源時,Microsoft Purview 支援:

  • 擷取技術元數據,包括:

    • 伺服器
    • 資料庫
    • 包含數據行、外鍵、唯一條件約束和記憶體描述的數據表
    • 包含數據行和記憶體描述的檢視
  • 擷取數據表和檢視表之間資產關聯性的靜態譜系。

設定掃描時,您可以選擇掃描整個 Hive 中繼存放區資料庫,或將掃描範圍設定為符合指定名稱的架構子集 () 或名稱模式 () 。

已知限制

從數據源刪除物件時,後續掃描目前不會自動移除 purview Microsoft對應的資產。

必要條件

登錄

本節說明如何使用 Microsoft Purview 治理入口網站,在 Microsoft Purview 中註冊 Hive 中繼存放區資料庫。

Hive 中繼存放區資料庫唯一支援的驗證是基本身份驗證。

  1. 開啟 Microsoft Purview 治理入口網站,方法如下:

  2. 選取左窗格上的 [數據對應 ]。

  3. 選取 [登錄]

  4. [註冊來源] 中,選取 [Hive 中繼存放區>繼續]

  5. 在 [登錄 來源 (Hive 中繼存放區) 畫面上,執行下列動作:

    1. 針對 [名稱],輸入 Purview 將列出Microsoft為數據源的名稱。

    2. 針對 [Hive 叢集 URL],輸入您從 Ambari URL 取得的值。 例如,輸入 hive.azurehdinsight.net

    3. 針對 Hive中繼存放區伺服器URL,輸入伺服器的URL。 例如,輸入 sqlserver://hive.database.windows.net

    4. 從清單中選取集合。

    顯示註冊Hive來源之方塊的螢幕快照。

  6. 選取 [完成]

掃描

提示

若要針對掃描的任何問題進行疑難解答:

  1. 確認您已遵循所有 必要條件
  2. 檢閱我們的 掃描疑難解答檔

使用下列步驟掃描Hive中繼存放區資料庫,以自動識別資產。 如需一般掃描的詳細資訊,請參閱 Microsoft Purview 中的掃描和擷取。

  1. 在管理中心中,選取 [整合運行時間]。 請確定已設定自我裝載整合運行時間。 如果未設定,請使用 必要條件中的步驟。

  2. 移至 [來源]

  3. 選取已註冊的Hive中繼存放區資料庫。

  4. 取 [+ 新增掃描]

  5. 提供下列詳細資料:

    1. 名稱:輸入掃描的名稱。

    2. 透過整合運行時間連線:選取設定的自我裝載整合運行時間。

    3. 認證:選取要連線到數據源的認證。 請務必:

      • 建立認證時選取 [基本身份驗證]。
      • 在適當的方塊中提供中繼存放區用戶名稱。
      • 將中繼存放區密碼儲存在秘密金鑰中。

      如需詳細資訊,請參閱 Microsoft Purview 中的來源驗證認證。

    4. 中繼存放區 JDBC 驅動程式位置:指定執行自我主機整合運行時間之計算機中的 JDBC 驅動程式位置路徑。 例如,D:\Drivers\HiveMetastore

      1. 針對本機電腦上的自我裝載整合運行時間: D:\Drivers\HiveMetastore。 這是有效 JAR 資料夾位置的路徑。 值必須是有效的絕對檔案路徑,且不包含空間。 請確定自我裝載整合運行時間可存取驅動程式;;請從 必要條件一節深入瞭解。
      2. 針對 Kubernetes 支援的自我裝載整合運行時間: ./drivers/HiveMetastore。 這是有效 JAR 資料夾位置的路徑。 值必須是有效的相對檔案路徑。 請參閱檔,以 使用外部驅動 程式設定掃描,以便事先上傳驅動程式。
    5. 中繼存放區 JDBC 驅動程式類別:提供連接驅動程式的類別名稱。 例如,輸入 \com.microsoft.sqlserver.jdbc.SQLServerDriver

    6. 中繼存放區 JDBC URL:提供連線 URL 值,並定義與中繼存放區資料庫伺服器 URL 的連線。 例如:jdbc:sqlserver://hive.database.windows.net;database=hive;encrypt=true;trustServerCertificate=true;create=false;loginTimeout=300

      注意事項

      當您從 hive-site.xml複製 URL 時,請從字串中移除 amp; ,否則掃描將會失敗。

      將 SSL 憑證下載 到自我裝載整合運行時間電腦,然後在 URL 中更新您電腦上 SSL 憑證位置的路徑。

      當您在掃描組態中輸入本機檔案路徑時,請將 Windows 路徑分隔符從反斜杠 () \ 變更為正斜線 () / 。 例如,如果您將 SSL 憑證放在本機檔案路徑 D:\Drivers\SSLCert\BaltimoreCyberTrustRoot.crt.pem,請將參數值變更 serverSslCertD:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem

      繼存放區 JDBC URL 值看起來會像下列範例:

      jdbc:mariadb://samplehost.mysql.database.azure.com:3306/XXXXXXXXXXXXXXXX?useSSL=true&enabledSslProtocolSuites=TLSv1,TLSv1.1,TLSv1.2&serverSslCert=D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem

    7. 中繼存放區資料庫名稱:提供Hive中繼存放區資料庫的名稱。

    8. 架構:指定要匯入的Hive架構清單。 例如: schema1;schema2

      如果該清單是空的,則會匯入所有用戶架構。 例如,預設會忽略 SysAdmin) 和物件等所有系統架構 (。

      使用 SQL LIKE 運算式語法的可接受架構名稱模式包括百分比符號 (%) 。 例如, 表示 A%; %B; %C%; D

      • 從 A 或開始
      • 以 B 結尾或
      • 包含 C 或
      • 等於 D

      NOT無法接受和特殊字元的使用方式。

    9. 可用的記憶體上限:客戶計算機上可用的最大記憶體 (以 GB 為單位) 供掃描程式使用。 此值取決於要掃描的Hive中繼存放區資料庫大小。

      注意事項

      根據經驗法則,請為每 1000 個數據表提供 1GB 記憶體。

    顯示掃描詳細數據方塊的螢幕快照。

  6. 選取 [繼續]

  7. 針對 [掃描觸發程式],選擇要設定排程或執行掃描一次。

  8. 檢閱您的掃描,然後選取 [ 儲存並執行]

檢視掃描和掃描執行

若要檢視現有的掃描:

  1. 移至 Microsoft Purview 入口網站。 在左窗格中,選取 [ 數據對應]
  2. 選取數據源。 您可以在 [最近掃描] 底下檢視該數據源上現有 掃描的清單,也可以在 [掃描] 索引 卷標上 檢視所有掃描。
  3. 選取具有您想要檢視結果的掃描。 此窗格會顯示所有先前的掃描執行,以及每個掃描執行的狀態和計量。
  4. 選取執行標識碼以檢查 掃描執行詳細數據

管理您的掃描

若要編輯、取消或刪除掃描:

  1. 移至 Microsoft Purview 入口網站。 在左窗格中,選取 [ 數據對應]

  2. 選取數據源。 您可以在 [最近掃描] 底下檢視該數據源上現有 掃描的清單,也可以在 [掃描] 索引 卷標上 檢視所有掃描。

  3. 選取您要管理的掃描。 然後您可以:

    • 選取 [編輯掃描 ],以編輯掃描
    • 選取 [ 取消掃描執行],以取消進行中的掃描。
    • 選取 [ 刪除掃描],以刪除掃描

注意事項

  • 刪除掃描並不會刪除從先前掃描建立的類別目錄資產。

譜系

掃描 Hive 中繼存放區來源之後,您可以瀏覽 整合式目錄搜尋 整合式目錄 以檢視資產詳細數據。

移至 [資產 -> 譜系] 索引標籤,您可以在適用時看到資產關聯性。 請參閱 支援的 Hive中繼存放區譜系案例支援的功能一節。 如需一般譜系的詳細資訊,請參閱 數據譜系譜系使用者指南

後續步驟

現在您已註冊來源,請使用下列指南來深入瞭解 Microsoft Purview 和您的數據: