共用方式為


在 Microsoft Purview 中連線和管理 HDFS

本文概述如何在 HDFS) (註冊 Hadoop 分散式文件系統,以及如何在 Microsoft Purview 中驗證 HDFS 並與其互動。 如需 Microsoft Purview 的詳細資訊,請閱讀 簡介文章

支援的功能

元數據擷取 完整掃描 增量掃描 限域掃描 分類 加標籤 存取原則 譜系 資料共用 即時檢視

掃描 HDFS 來源時,Microsoft Purview 支援擷取技術元數據,包括 HDFS:

  • Namenode
  • 資料夾
  • 檔案
  • 資源集

設定掃描時,您可以選擇掃描整個 HDFS 或選擇性資料夾。 在這裡瞭解支援的檔案格式。

連接器會使用 Webhdfs 通訊協議來連線到 HDFS 並擷取元數據。 不支援 MapR Hadoop 散發。

必要條件

登錄

本節說明如何使用 Microsoft Purview 治理入口網站,在 Microsoft Purview 中註冊 HDFS。

註冊步驟

若要在 Microsoft Purview 整合式目錄 中註冊新的 HDFS 來源,請遵循下列步驟:

  1. 在 Microsoft Purview 治理入口網站中,流覽至 您的 Microsoft Purview 帳戶。
  2. 選取左側導覽上的 [數據對應 ]。
  3. 選取 [註冊]
  4. 在 [註冊來源] 上,選取 [HDFS]。 選取 [繼續]

在 [ HDFS) ] 畫面 ([註冊來源 ] 畫面上,遵循下列步驟:

  1. 輸入要在目錄中列出數據來源的 [名稱 ]。

  2. 以 或 http://<namenode>:<port>的形式輸入 HDFS NameNode 的https://<namenode>:<port>集 URL , 例如 或 http://namenodeserver.com:50070https://namenodeserver.com:50470

  3. 從清單中選取集合。

  4. 完成註冊數據源。

    Purview 中 HDFS 來源註冊的螢幕快照。

掃描

請遵循下列步驟掃描 HDFS 以自動識別資產。 如需一般掃描的詳細資訊,請參閱 掃描和擷取簡介

掃描的驗證

HDFS 來源支持的驗證類型是 Kerberos 驗證

建立和執行掃描

若要建立並執行新的掃描,請遵循下列步驟:

  1. 請確定已設定自我裝載整合運行時間。 如果未設定,請使用 必要條件中 所述的步驟來建立自我裝載整合運行時間。

  2. 流覽至 [來源]

  3. 選取已註冊的 HDFS 來源。

  4. 取 [+ 新增掃描]

  5. 在 [掃描 source_name] 頁面上,提供下列詳細數據:

    1. 名稱:掃描的名稱

    2. 透過整合運行時間連線:選取設定的自我裝載整合運行時間。 請參閱 必要條件 一節中的設定需求。

    3. 認證:選取要連線到數據源的認證。 請務必:

      • 在建立認證時選取 [Kerberos 驗證 ]。
      • 在 [用戶名稱] 輸入欄位中,以 的 <username>@<domain>.com 格式提供使用者名稱。 若要深入瞭解 ,請參閱針對 HDFS 連接器使用 Kerberos 驗證
      • 將用來連線至 HDFS 的使用者密碼儲存在秘密金鑰中。

      Purview 中 HDFS 掃描設定的螢幕快照。

  6. 取 [測試連線]

  7. 選取 [繼續]

  8. 在 [設定掃描範圍] 頁面上,選取您要掃描 () 路徑。

  9. 在 [選取掃描規則集] 頁面上,選取您要用於架構擷取和分類的掃描規則集。 您可以選擇系統預設值、現有的自訂規則集,或建立內嵌的新規則集。 從 建立掃描規則集深入瞭解。

  10. 在 [設定掃描觸發程式] 頁面上,選擇您的 掃描觸發程式。 您可以設定排程或執行掃描一次。

  11. 檢閱您的掃描,然後選取 [ 儲存並執行]

檢視掃描和掃描執行

若要檢視現有的掃描:

  1. 移至 Microsoft Purview 入口網站。 在左窗格中,選取 [ 數據對應]
  2. 選取數據源。 您可以在 [最近掃描] 底下檢視該數據源上現有 掃描的清單,也可以在 [掃描] 索引 卷標上 檢視所有掃描。
  3. 選取具有您想要檢視結果的掃描。 此窗格會顯示所有先前的掃描執行,以及每個掃描執行的狀態和計量。
  4. 選取執行標識碼以檢查 掃描執行詳細數據

管理您的掃描

若要編輯、取消或刪除掃描:

  1. 移至 Microsoft Purview 入口網站。 在左窗格中,選取 [ 數據對應]

  2. 選取數據源。 您可以在 [最近掃描] 底下檢視該數據源上現有 掃描的清單,也可以在 [掃描] 索引 卷標上 檢視所有掃描。

  3. 選取您要管理的掃描。 然後您可以:

    • 選取 [編輯掃描 ],以編輯掃描
    • 選取 [ 取消掃描執行],以取消進行中的掃描。
    • 選取 [ 刪除掃描],以刪除掃描

注意事項

  • 刪除掃描並不會刪除從先前掃描建立的類別目錄資產。

針對 HDFS 連接器使用 Kerberos 驗證

設定內部部署環境以使用 HDFS 連接器的 Kerberos 驗證有兩個選項。 您可以選擇最適合您情況的工具。

針對任一選項,請務必開啟 Hadoop 叢集的 Webhdfs:

  1. 建立 Webhdfs 的 HTTP 主體和金鑰表。

    重要事項

    根據 Kerberos HTTP SPNEGO 規格,HTTP Kerberos 主體必須以 “HTTP/” 開頭。 從 這裡深入瞭解。

    Kadmin> addprinc -randkey HTTP/<namenode hostname>@<REALM.COM>
    Kadmin> ktadd -k /etc/security/keytab/spnego.service.keytab HTTP/<namenode hostname>@<REALM.COM>
    
  2. HDFS 組態選項:在 中新增下列三個 hdfs-site.xml屬性。

    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
    <property>
        <name>dfs.web.authentication.kerberos.principal</name>
        <value>HTTP/_HOST@<REALM.COM></value>
    </property>
    <property>
        <name>dfs.web.authentication.kerberos.keytab</name>
        <value>/etc/security/keytab/spnego.service.keytab</value>
    </property>
    

選項 1:在 Kerberos 領域中加入自我裝載整合運行時間機器

需求

  • 自我裝載整合運行時間機器必須加入 Kerberos 領域,且無法加入任何 Windows 網域。

如何設定

在 KDC 伺服器上:

建立主體,並指定密碼。

重要事項

使用者名稱不應該包含主機名。

Kadmin> addprinc <username>@<REALM.COM>

在自我載入整合執行時間電腦上:

  1. 執行 Ksetup 公用程式,以設定 Kerberos 金鑰發佈中心 (KDC) 伺服器和領域。

    計算機必須設定為工作組的成員,因為 Kerberos 領域與 Windows 網域不同。 您可以藉由設定 Kerberos 領域並執行下列命令來新增 KDC 伺服器,來達成此設定。 將 REALM.COM 取代為您自己的領域名稱。

    C:> Ksetup /setdomain REALM.COM
    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    

    執行這些命令之後,請重新啟動電腦。

  2. 使用 命令驗證組態 Ksetup 。 輸出應該如下所示:

    C:> Ksetup
    default realm = REALM.COM (external)
    REALM.com:
        kdc = <your_kdc_server_address>
    

在您的 Purview 帳戶中:

  • 使用您的 Kerberos 主體名稱和密碼設定具有 Kerberos 驗證類型的認證,以掃描 HDFS。 如需組態詳細數據,請檢查 [掃描] 區段中的認證設定部分。

選項 2:啟用 Windows 網域與 Kerberos 領域之間的相互信任

需求

  • 自我裝載整合運行時間計算機必須加入 Windows 網域。
  • 您需要許可權才能更新域控制器的設定。

如何設定

注意事項

將下列教學課程中的 REALM.COM 和 AD.COM 取代為您自己的領域名稱和域控制器。

在 KDC 伺服器上:

  1. 編輯 krb5.conf 檔案中的 KDC 組態,讓 KDC 參考下列設定範本來信任 Windows 網域。 根據預設,組態位於 /etc/krb5.conf

    [logging]
     default = FILE:/var/log/krb5libs.log
     kdc = FILE:/var/log/krb5kdc.log
     admin_server = FILE:/var/log/kadmind.log
    
    [libdefaults]
     default_realm = REALM.COM
     dns_lookup_realm = false
     dns_lookup_kdc = false
     ticket_lifetime = 24h
     renew_lifetime = 7d
     forwardable = true
    
    [realms]
     REALM.COM = {
      kdc = node.REALM.COM
      admin_server = node.REALM.COM
     }
    AD.COM = {
     kdc = windc.ad.com
     admin_server = windc.ad.com
    }
    
    [domain_realm]
     .REALM.COM = REALM.COM
     REALM.COM = REALM.COM
     .ad.com = AD.COM
     ad.com = AD.COM
    
    [capaths]
     AD.COM = {
      REALM.COM = .
     }
    

    設定檔案之後,請重新啟動 KDC 服務。

  2. 使用下列命令,在 KDC 伺服器中準備名為 krbtgt/REALM.COM@AD.COM 的主體:

    Kadmin> addprinc krbtgt/REALM.COM@AD.COM
    
  3. hadoop.security.auth_to_local HDFS 服務組態檔中,新增 RULE:[1:$1@$0](.*\@AD.COM)s/\@.*//

在網域控制器上:

  1. 執行下列 Ksetup 命令以新增領域專案:

    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
    
  2. 建立從 Windows 網域到 Kerberos 領域的信任。 [password] 是主體 krbtgt/REALM.COM@AD.COM的密碼。

    C:> netdom trust REALM.COM /Domain: AD.COM /add /realm /password:[password]
    
  3. 選取 Kerberos 中使用的加密演算法。

    1. 取 [伺服器管理員>群組原則 管理>網域>群組原則 對象>預設值或作用中網域原則],然後選取 [編輯]

    2. [群組原則 管理 編輯器] 窗格上,選取 [計算機>>設定原則] [Windows 設定>安全性>設定] [本>機原則安全性選項],然後設定網络安全性:設定 Kerberos 允許的加密類型

    3. 選取您要在連線到 KDC 伺服器時使用的加密演算法。 您可以選取所有選項。

      [網路安全性:設定 Kerberos 允許的加密類型] 窗格的螢幕快照。

    4. Ksetup使用 命令來指定要在指定領域上使用的加密演算法。

      C:> ksetup /SetEncTypeAttr REALM.COM DES-CBC-CRC DES-CBC-MD5 RC4-HMAC-MD5 AES128-CTS-HMAC-SHA1-96 AES256-CTS-HMAC-SHA1-96
      
  4. 建立網域帳戶與 Kerberos 主體之間的對應,讓您可以在 Windows 網域中使用 Kerberos 主體。

    1. 取[系統管理工具>) Active Directory 使用者和電腦] 。

    2. 選取 [檢視>進階功能],以設定進階功能

    3. 在 [ 進階功能] 窗格中,以滑鼠右鍵按下您要建立對應的帳戶,然後在 [ 名稱對應 ] 窗格上,選取 [ Kerberos 名稱] 索引卷 標。

    4. 從領域新增主體。

      [安全性身分識別對應] 窗格的螢幕快照。

在自我載入整合執行時間電腦上:

  • 執行下列 Ksetup 命令以新增領域專案。

    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
    

在您的 Purview 帳戶中:

  • 使用您的 Kerberos 主體名稱和密碼設定具有 Kerberos 驗證類型的認證,以掃描 HDFS。 如需組態詳細數據,請檢查 [掃描] 區段中的認證設定部分。

已知限制

目前,HDFS 連接器不支援進階 資源集的自定義資源集模式規則,將會套用內建資源集模式。

尚未支援敏感度標籤

後續步驟

既然您已註冊來源,請遵循下列指南來深入瞭解 Microsoft Purview 和您的數據。