Connettersi e gestire HDFS in Microsoft Purview
Questo articolo descrive come registrare Hadoop Distributed File System (HDFS) e come autenticare e interagire con HDFS in Microsoft Purview. Per altre informazioni su Microsoft Purview, vedere l'articolo introduttivo.
Funzionalità supportate
Estrazione dei metadati | Analisi completa | Analisi incrementale | Analisi con ambito | Classificazione | Applicazione di etichette | Criteri di accesso | Derivazione | Condivisione dati | Visualizzazione in diretta |
---|---|---|---|---|---|---|---|---|---|
Sì | Sì | Sì | Sì | Sì | No | No | No | No | No |
Durante l'analisi dell'origine HDFS, Microsoft Purview supporta l'estrazione di metadati tecnici, tra cui HDFS:
- Namenode
- Cartelle
- File
- Set di risorse
Quando si configura l'analisi, è possibile scegliere di analizzare l'intera cartella HDFS o selettiva. Per informazioni sul formato di file supportato, vedere qui.
Il connettore usa il protocollo webhdfs per connettersi a HDFS e recuperare i metadati. La distribuzione di Hadoop MapR non è supportata.
Prerequisiti
- Un account Azure con una sottoscrizione attiva. Creare un account gratuitamente.
- Un account Microsoft Purview attivo.
- Sono necessarie le autorizzazioni Amministratore origine dati e Lettore dati per registrare un'origine e gestirla nel portale di governance di Microsoft Purview. Per altre informazioni sulle autorizzazioni, vedere Controllo di accesso in Microsoft Purview.
-
Configurare il runtime di integrazione corretto per lo scenario:
-
Per usare un runtime di integrazione self-hosted:
- Seguire l'articolo per creare e configurare un runtime di integrazione self-hosted.
- Assicurarsi che JDK 11 sia installato nel computer in cui è installato il runtime di integrazione self-hosted. Riavviare il computer dopo aver installato il JDK per renderlo effettivo.
- Assicurarsi che Visual C++ Redistributable (versione Visual Studio 2012 Update 4 o versione successiva) sia installata nel computer in cui è in esecuzione il runtime di integrazione self-hosted. Se l'aggiornamento non è installato, scaricarlo ora.
- Per configurare l'ambiente per abilitare l'autenticazione Kerberos, vedere la sezione Usare l'autenticazione Kerberos per il connettore HDFS .
-
Per usare un runtime di integrazione self-hosted supportato da kubernetes:
- Seguire l'articolo per creare e configurare un runtime di integrazione supportato da kubernetes.
- Per configurare l'ambiente per abilitare l'autenticazione Kerberos, vedere la sezione Usare l'autenticazione Kerberos per il connettore HDFS .
-
Per usare un runtime di integrazione self-hosted:
Registrazione
Questa sezione descrive come registrare HDFS in Microsoft Purview usando il portale di governance di Microsoft Purview.
Passaggi per la registrazione
Per registrare una nuova origine HDFS nel catalogo dati, seguire questa procedura:
- Passare all'account Microsoft Purview nel portale di governance di Microsoft Purview.
- Selezionare Mappa dati nel riquadro di spostamento a sinistra.
- Selezionare Registra
- In Registra origini selezionare HDFS. Selezionare Continua.
Nella schermata Registra origini (HDFS) seguire questa procedura:
Immettere un nome in cui l'origine dati verrà elencata all'interno del catalogo.
Immettere l'URL cluster di HDFS NameNode nel formato
https://<namenode>:<port>
ohttp://<namenode>:<port>
, ad esempiohttps://namenodeserver.com:50470
ohttp://namenodeserver.com:50070
.Selezionare una raccolta dall'elenco.
Completare la registrazione dell'origine dati.
Analisi
Seguire la procedura seguente per analizzare HDFS per identificare automaticamente gli asset. Per altre informazioni sull'analisi in generale, vedere l'introduzione alle analisi e all'inserimento.
Autenticazione per un'analisi
Il tipo di autenticazione supportato per un'origine HDFS è l'autenticazione Kerberos.
Creare ed eseguire l'analisi
Per creare ed eseguire una nuova analisi, seguire questa procedura:
Assicurarsi che sia configurato un runtime di integrazione self-hosted. Se non è configurato, usare i passaggi indicati nei prerequisiti per creare un runtime di integrazione self-hosted.
Passare a Origini.
Selezionare l'origine HDFS registrata.
Selezionare + Nuova analisi.
Nella pagina "Scan source_name"" specificare i dettagli seguenti:
Nome: nome dell'analisi
Connettersi tramite il runtime di integrazione: selezionare il runtime di integrazione self-hosted configurato. Vedere i requisiti di configurazione nella sezione Prerequisiti .
Credenziali: selezionare le credenziali per connettersi all'origine dati. Assicurarsi di:
- Selezionare Autenticazione Kerberos durante la creazione di credenziali.
- Specificare il nome utente nel formato di nel campo di
<username>@<domain>.com
input Nome utente. Per altre informazioni, vedere Usare l'autenticazione Kerberos per il connettore HDFS. - Archiviare la password utente usata per connettersi a HDFS nella chiave privata.
Selezionare Test connessione.
Selezionare Continua.
Nella pagina "Ambito dell'analisi" selezionare i percorsi da analizzare.
Nella pagina "Selezionare un set di regole di analisi" selezionare il set di regole di analisi da usare per l'estrazione e la classificazione dello schema. È possibile scegliere tra i set di regole personalizzati predefiniti del sistema o esistenti oppure creare un nuovo set di regole inline. Per altre informazioni , vedere Creare un set di regole di analisi.
Nella pagina "Imposta trigger di analisi" scegliere il trigger di analisi. È possibile configurare una pianificazione o eseguire l'analisi una sola volta.
Esaminare l'analisi e selezionare Salva ed esegui.
Visualizzare le analisi e le esecuzioni di analisi
Per visualizzare le analisi esistenti:
- Passare al portale di Microsoft Purview. Nel riquadro sinistro selezionare Mappa dati.
- Selezionare l'origine dati. È possibile visualizzare un elenco di analisi esistenti nell'origine dati in Analisi recenti oppure è possibile visualizzare tutte le analisi nella scheda Analisi .
- Selezionare l'analisi con i risultati che si desidera visualizzare. Il riquadro mostra tutte le esecuzioni di analisi precedenti, insieme allo stato e alle metriche per ogni esecuzione dell'analisi.
- Selezionare l'ID di esecuzione per controllare i dettagli dell'esecuzione dell'analisi.
Gestire le analisi
Per modificare, annullare o eliminare un'analisi:
Passare al portale di Microsoft Purview. Nel riquadro sinistro selezionare Mappa dati.
Selezionare l'origine dati. È possibile visualizzare un elenco di analisi esistenti nell'origine dati in Analisi recenti oppure è possibile visualizzare tutte le analisi nella scheda Analisi .
Selezionare l'analisi da gestire. È quindi possibile eseguire automaticamente le seguenti azioni:
- Modificare l'analisi selezionando Modifica analisi.
- Annullare un'analisi in corso selezionando Annulla esecuzione analisi.
- Eliminare l'analisi selezionando Elimina analisi.
Nota
- L'eliminazione dell'analisi non elimina gli asset del catalogo creati dalle analisi precedenti.
Usare l'autenticazione Kerberos per il connettore HDFS
Sono disponibili due opzioni per configurare l'ambiente locale per l'uso dell'autenticazione Kerberos per il connettore HDFS. Puoi scegliere quello che meglio si adatta alla tua situazione.
- Opzione 1: Aggiungere un computer di runtime di integrazione self-hosted nell'area di autenticazione Kerberos
- Opzione 2: abilitare l'attendibilità reciproca tra il dominio Windows e l'area di autenticazione Kerberos
Per entrambe le opzioni, assicurarsi di attivare webhdfs per il cluster Hadoop:
Creare l'entità HTTP e la scheda chiave per webhdfs.
Importante
L'entità Kerberos HTTP deve iniziare con "HTTP/" in base alla specifica SPNEGO HTTP Kerberos. Altre informazioni sono disponibili qui.
Kadmin> addprinc -randkey HTTP/<namenode hostname>@<REALM.COM> Kadmin> ktadd -k /etc/security/keytab/spnego.service.keytab HTTP/<namenode hostname>@<REALM.COM>
Opzioni di configurazione HDFS: aggiungere le tre proprietà seguenti in
hdfs-site.xml
.<property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> <property> <name>dfs.web.authentication.kerberos.principal</name> <value>HTTP/_HOST@<REALM.COM></value> </property> <property> <name>dfs.web.authentication.kerberos.keytab</name> <value>/etc/security/keytab/spnego.service.keytab</value> </property>
Opzione 1: Aggiungere un computer di runtime di integrazione self-hosted nell'area di autenticazione Kerberos
Requisiti
- Il computer di runtime di integrazione self-hosted deve aggiungere l'area di autenticazione Kerberos e non può aggiungere alcun dominio Windows.
Configurazione
Nel server KDC:
Creare un'entità e specificare la password.
Importante
Il nome utente non deve contenere il nome host.
Kadmin> addprinc <username>@<REALM.COM>
Nel computer di runtime di integrazione self-hosted:
Eseguire l'utilità Ksetup per configurare l'area di autenticazione e il server KDC (Kerberos Key Distribution Center).
Il computer deve essere configurato come membro di un gruppo di lavoro, perché un'area di autenticazione Kerberos è diversa da un dominio Windows. È possibile ottenere questa configurazione impostando l'area di autenticazione Kerberos e aggiungendo un server KDC eseguendo i comandi seguenti. Sostituire REALM.COM con il nome dell'area di autenticazione.
C:> Ksetup /setdomain REALM.COM C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
Dopo aver eseguito questi comandi, riavviare il computer.
Verificare la configurazione con il
Ksetup
comando . L'output dovrebbe essere simile al seguente:C:> Ksetup default realm = REALM.COM (external) REALM.com: kdc = <your_kdc_server_address>
Nell'account Purview:
- Configurare una credenziale con il tipo di autenticazione Kerberos con il nome e la password dell'entità Kerberos per analizzare HDFS. Per informazioni dettagliate sulla configurazione, controllare la parte relativa all'impostazione delle credenziali nella sezione Analisi.
Opzione 2: abilitare l'attendibilità reciproca tra il dominio Windows e l'area di autenticazione Kerberos
Requisiti
- Il computer di runtime di integrazione self-hosted deve aggiungere un dominio Windows.
- È necessaria l'autorizzazione per aggiornare le impostazioni del controller di dominio.
Configurazione
Nota
Sostituire REALM.COM e AD.COM nell'esercitazione seguente con il nome dell'area di autenticazione e il controller di dominio personalizzati.
Nel server KDC:
Modificare la configurazione KDC nel file krb5.conf per consentire a KDC di considerare attendibile il dominio Windows facendo riferimento al modello di configurazione seguente. Per impostazione predefinita, la configurazione si trova in /etc/krb5.conf.
[logging] default = FILE:/var/log/krb5libs.log kdc = FILE:/var/log/krb5kdc.log admin_server = FILE:/var/log/kadmind.log [libdefaults] default_realm = REALM.COM dns_lookup_realm = false dns_lookup_kdc = false ticket_lifetime = 24h renew_lifetime = 7d forwardable = true [realms] REALM.COM = { kdc = node.REALM.COM admin_server = node.REALM.COM } AD.COM = { kdc = windc.ad.com admin_server = windc.ad.com } [domain_realm] .REALM.COM = REALM.COM REALM.COM = REALM.COM .ad.com = AD.COM ad.com = AD.COM [capaths] AD.COM = { REALM.COM = . }
Dopo aver configurato il file, riavviare il servizio KDC.
Preparare un'entità denominata krbtgt/REALM.COM@AD.COM nel server KDC con il comando seguente:
Kadmin> addprinc krbtgt/REALM.COM@AD.COM
Nel file di configurazione del servizio HDFS hadoop.security.auth_to_local aggiungere
RULE:[1:$1@$0](.*\@AD.COM)s/\@.*//
.
Nel controller di dominio:
Eseguire i comandi seguenti
Ksetup
per aggiungere una voce dell'area di autenticazione:C:> Ksetup /addkdc REALM.COM <your_kdc_server_address> C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
Stabilire l'attendibilità dal dominio Windows all'area di autenticazione Kerberos. [password] è la password per l'entità krbtgt/REALM.COM@AD.COM.
C:> netdom trust REALM.COM /Domain: AD.COM /add /realm /password:[password]
Selezionare l'algoritmo di crittografia usato in Kerberos.
Selezionare Server Manager>Criteri di gruppo Management>Domain>Criteri di gruppo Objects>Default o Active Domain Policy e quindi selezionare Modifica.
Nel riquadro Criteri di gruppo Gestione Editor selezionareCriteri> di configurazione> computerImpostazioni di windows Impostazioni>di sicurezza Impostazioni>locali>Opzioni di sicurezza e quindi configurare Sicurezza di rete: Configurare i tipi di crittografia consentiti per Kerberos.
Selezionare l'algoritmo di crittografia da usare quando ci si connette al server KDC. È possibile selezionare tutte le opzioni.
Usare il
Ksetup
comando per specificare l'algoritmo di crittografia da usare nell'area di autenticazione specificata.C:> ksetup /SetEncTypeAttr REALM.COM DES-CBC-CRC DES-CBC-MD5 RC4-HMAC-MD5 AES128-CTS-HMAC-SHA1-96 AES256-CTS-HMAC-SHA1-96
Creare il mapping tra l'account di dominio e l'entità Kerberos, in modo che sia possibile usare l'entità Kerberos nel dominio Windows.
Selezionare Strumenti di amministrazione>Utenti e computer di Active Directory.
Configurare le funzionalità avanzate selezionando Visualizza>funzionalità avanzate.
Nel riquadro Funzionalità avanzate fare clic con il pulsante destro del mouse sull'account a cui si desidera creare i mapping e nel riquadro Mapping dei nomi selezionare la scheda Nomi Kerberos .
Aggiungere un'entità dall'area di autenticazione.
Nel computer di runtime di integrazione self-hosted:
Eseguire i comandi seguenti
Ksetup
per aggiungere una voce dell'area di autenticazione.C:> Ksetup /addkdc REALM.COM <your_kdc_server_address> C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
Nell'account Purview:
- Configurare una credenziale con il tipo di autenticazione Kerberos con il nome e la password dell'entità Kerberos per analizzare HDFS. Per informazioni dettagliate sulla configurazione, controllare la parte relativa all'impostazione delle credenziali nella sezione Analisi.
Limitazioni note
Attualmente, il connettore HDFS non supporta la regola del modello di set di risorse personalizzato per il set di risorse avanzato, verranno applicati i modelli predefiniti del set di risorse.
L'etichetta di riservatezza non è ancora supportata.
Passaggi successivi
Dopo aver registrato l'origine, seguire le guide seguenti per altre informazioni su Microsoft Purview e i dati.