Connettersi ai database Hive Metastore e gestirli in Microsoft Purview

Articolo
11/13/2024

Questo articolo illustra come registrare i database metastore Hive e come autenticare e interagire con i database metastore Hive in Microsoft Purview. Per altre informazioni su Microsoft Purview, vedere l'articolo introduttivo.

Funzionalità supportate

Estrazione dei metadati	Analisi completa	Analisi incrementale	Analisi con ambito	Classificazione	Applicazione di etichette	Criteri di accesso	Derivazione	Condivisione dati	Visualizzazione in diretta
Sì	Sì	No	Sì	No	No	No	Sì*	No	No

* Oltre alla derivazione degli asset all'interno dell'origine dati, la derivazione è supportata anche se il set di dati viene usato come origine/sink nella pipeline di Data Factory o Synapse.

Le versioni hive supportate sono da 2.x a 3.x. Le piattaforme supportate sono Apache Hadoop, Cloudera e Hortonworks. Se si vuole analizzare Azure Databricks, è consigliabile usare il connettore Azure Databricks, che è più compatibile e intuitivo.

Durante l'analisi dell'origine del metastore Hive, Microsoft Purview supporta:

Estrazione di metadati tecnici, tra cui:
- Server
- Database
- Tabelle che includono colonne, chiavi esterne, vincoli univoci e descrizione dell'archiviazione
- Viste che includono le colonne e la descrizione dell'archiviazione
Recupero della derivazione statica sulle relazioni tra gli asset tra tabelle e viste.

Quando si configura l'analisi, è possibile scegliere di analizzare un intero database di metastore Hive o di definire l'ambito dell'analisi in un subset di schemi corrispondenti ai nomi o ai criteri di nome specificati.

Limitazioni note

Quando l'oggetto viene eliminato dall'origine dati, attualmente l'analisi successiva non rimuove automaticamente l'asset corrispondente in Microsoft Purview.

Prerequisiti

È necessario avere un account Azure con una sottoscrizione attiva. Creare un account gratuitamente.
È necessario disporre di un account Microsoft Purview attivo.
Sono necessarie le autorizzazioni Amministratore origine dati e Lettore dati per registrare un'origine e gestirla nel portale di governance di Microsoft Purview. Per altre informazioni sulle autorizzazioni, vedere Controllo di accesso in Microsoft Purview.
Se l'origine dati non è accessibile pubblicamente, configurare il runtime di integrazione self-hosted più recente.
- Scegliere il runtime di integrazione corretto per lo scenario:
  - Per usare un runtime di integrazione self-hosted:
    - Seguire l'articolo per creare e configurare un runtime di integrazione self-hosted.
    - Assicurarsi che JDK 11 sia installato nel computer in cui è installato il runtime di integrazione self-hosted. Riavviare il computer dopo aver installato il JDK per renderlo effettivo.
    - Assicurarsi che Visual C++ Redistributable (versione Visual Studio 2012 Update 4 o versione successiva) sia installata nel computer in cui è in esecuzione il runtime di integrazione self-hosted. Se l'aggiornamento non è installato, scaricarlo ora.
    - Scaricare il driver JDBC del database Hive Metastore nel computer in cui è in esecuzione il runtime di integrazione self-hosted. Ad esempio, se il database è mssql, scaricare il driver JDBC di Microsoft per SQL Server. Prendere nota del percorso della cartella che verrà usato per configurare l'analisi.
  - Per usare un runtime di integrazione self-hosted supportato da kubernetes:
    - Seguire l'articolo per creare e configurare un runtime di integrazione supportato da kubernetes.
    - Scaricare il driver JDBC del database Hive Metastore nel computer in cui è in esecuzione il runtime di integrazione self-hosted. Ad esempio, se il database è mssql, scaricare il driver JDBC di Microsoft per SQL Server. Prendere nota del percorso della cartella che verrà usato per configurare l'analisi.
Nota

Il driver JDBC deve essere accessibile dal runtime di integrazione self-hosted. Per impostazione predefinita, il runtime di integrazione self-hosted usa l'account del servizio locale "NT SERVICE\DIAHostService". Assicurarsi che disponga dell'autorizzazione "Lettura ed esecuzione" e "Elenca contenuto cartella" per la cartella del driver.

Registrazione

Questa sezione descrive come registrare un database Hive Metastore in Microsoft Purview usando il portale di governance di Microsoft Purview.

L'unica autenticazione supportata per un database Hive Metastore è l'autenticazione di base.

Aprire il portale di governance di Microsoft Purview:
- Passare direttamente all'account https://web.purview.azure.com Microsoft Purview e selezionarlo.
- Apertura del portale di Azure, ricerca e selezione dell'account Microsoft Purview. Selezione del pulsante del portale di governance di Microsoft Purview .
Selezionare Mappa dati nel riquadro sinistro.
Selezionare Registra.
In Registra origini selezionare Hive MetastoreContinue.InRegister sources (Registra origini) selezionare Hive Metastore Continue (Continua metastore> Hive).
Nella schermata Registra origini (Hive Metastore) eseguire le operazioni seguenti:
1. In Nome immettere un nome che verrà visualizzato da Microsoft Purview come origine dati.
2. Per URL cluster Hive immettere un valore ottenuto dall'URL di Ambari. Ad esempio, immettere hive.azurehdinsight.net.
3. Per Url del server metastore Hive immettere un URL per il server. Ad esempio, immettere sqlserver://hive.database.windows.net.
4. Selezionare una raccolta dall'elenco.
Seleziona Fine.

Analisi

Consiglio

Per risolvere eventuali problemi relativi all'analisi:

Verificare di aver seguito tutti i prerequisiti.
Esaminare la documentazione sulla risoluzione dei problemi di analisi.

Seguire questa procedura per analizzare i database metastore Hive per identificare automaticamente gli asset. Per altre informazioni sull'analisi in generale, vedere Analisi e inserimento in Microsoft Purview.

Nel Centro gestione selezionare Runtime di integrazione. Assicurarsi che sia configurato un runtime di integrazione self-hosted. Se non è configurato, usare la procedura descritta nei prerequisiti.
Passare a Origini.
Selezionare il database Hive Metastore registrato.
Selezionare + Nuova analisi.
Quando richiesto, specificare i dettagli seguenti:
1. Nome: immettere un nome per l'analisi.
2. Connettersi tramite il runtime di integrazione: selezionare il runtime di integrazione self-hosted configurato.
3. Credenziali: selezionare le credenziali per connettersi all'origine dati. Assicurarsi di:
  - Selezionare Autenticazione di base durante la creazione di credenziali.
  - Specificare il nome utente metastore nella casella appropriata.
  - Archiviare la password metastore nella chiave privata.
  Per altre informazioni, vedere Credenziali per l'autenticazione di origine in Microsoft Purview.
4. Percorso del driver JDBC del metastore: specificare il percorso del driver JDBC nel computer in cui è in esecuzione il runtime di integrazione self-host. Ad esempio, D:\Drivers\HiveMetastore.
  1. Per il runtime di integrazione self-hosted in un computer locale: D:\Drivers\HiveMetastore. Si tratta del percorso della cartella JAR valida. Il valore deve essere un percorso di file assoluto valido e non contiene spazio. Assicurarsi che il driver sia accessibile dal runtime di integrazione self-hosted; Altre informazioni sono disponibili nella sezione prerequisiti.
  2. Per il runtime di integrazione self-hosted supportato da Kubernetes: ./drivers/HiveMetastore. Si tratta del percorso della cartella JAR valida. Il valore deve essere un percorso di file relativo valido. Fare riferimento alla documentazione per configurare un'analisi con driver esterni per caricare i driver in anticipo.
5. Classe di driver JDBC metastore: specificare il nome della classe per il driver di connessione. Ad esempio, immettere \com.microsoft.sqlserver.jdbc.SQLServerDriver.
6. URL JDBC metastore: specificare il valore dell'URL di connessione e definire la connessione all'URL del server di database Metastore. Ad esempio: jdbc:sqlserver://hive.database.windows.net;database=hive;encrypt=true;trustServerCertificate=true;create=false;loginTimeout=300.
  
  Nota
  
  Quando si copia l'URL da hive-site.xml, rimuovere amp; dalla stringa o l'analisi avrà esito negativo.
  
  Scaricare il certificato SSL nel computer di runtime di integrazione self-hosted, quindi aggiornare il percorso del certificato SSL nel computer nell'URL.
  
  Quando si immettono percorsi di file locali nella configurazione dell'analisi, modificare il carattere separatore di percorso di Windows da una barra rovesciata (\) a una barra rovesciata (/). Ad esempio, se si inserisce il certificato SSL nel percorso del file locale D:\Drivers\SSLCert\BaltimoreCyberTrustRoot.crt.pem, modificare il valore del serverSslCert parametro in D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem.
  
  Il valore dell'URL JDBC del Metastore sarà simile al seguente:
  
  jdbc:mariadb://samplehost.mysql.database.azure.com:3306/XXXXXXXXXXXXXXXX?useSSL=true&enabledSslProtocolSuites=TLSv1,TLSv1.1,TLSv1.2&serverSslCert=D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem
7. Nome database metastore: specificare il nome del database Hive Metastore.
8. Schema: specificare un elenco di schemi Hive da importare. Ad esempio: schema1; schema2.
  
  Tutti gli schemi utente vengono importati se l'elenco è vuoto. Tutti gli schemi di sistema ,ad esempio SysAdmin, e gli oggetti vengono ignorati per impostazione predefinita.
  
  I modelli di nome dello schema accettabili che usano la sintassi delle espressioni SQL LIKE includono il segno di percentuale (%). Ad esempio, A%; %B; %C%; D significa:
  - Iniziare con A o
  - Terminare con B o
  - Contengono C o
  - Uguale a D
  L'utilizzo di NOT caratteri speciali e non è accettabile.
9. Memoria massima disponibile: memoria massima (in gigabyte) disponibile nel computer del cliente per i processi di analisi da usare. Questo valore dipende dalle dimensioni del database Hive Metastore da analizzare.
  
  Nota
  
  Come regola generale, specificare 1 GB di memoria per ogni 1000 tabelle.
Selezionare Continua.
Per Esegui analisi, scegliere se configurare una pianificazione o eseguire l'analisi una sola volta.
Esaminare l'analisi e selezionare Salva ed esegui.

Visualizzare le analisi e le esecuzioni di analisi

Per visualizzare le analisi esistenti:

Passare al portale di Microsoft Purview. Nel riquadro sinistro selezionare Mappa dati.
Selezionare l'origine dati. È possibile visualizzare un elenco di analisi esistenti nell'origine dati in Analisi recenti oppure è possibile visualizzare tutte le analisi nella scheda Analisi .
Selezionare l'analisi con i risultati che si desidera visualizzare. Il riquadro mostra tutte le esecuzioni di analisi precedenti, insieme allo stato e alle metriche per ogni esecuzione dell'analisi.
Selezionare l'ID di esecuzione per controllare i dettagli dell'esecuzione dell'analisi.

Gestire le analisi

Per modificare, annullare o eliminare un'analisi:

Passare al portale di Microsoft Purview. Nel riquadro sinistro selezionare Mappa dati.
Selezionare l'origine dati. È possibile visualizzare un elenco di analisi esistenti nell'origine dati in Analisi recenti oppure è possibile visualizzare tutte le analisi nella scheda Analisi .
Selezionare l'analisi da gestire. È quindi possibile eseguire automaticamente le seguenti azioni:
- Modificare l'analisi selezionando Modifica analisi.
- Annullare un'analisi in corso selezionando Annulla esecuzione analisi.
- Eliminare l'analisi selezionando Elimina analisi.

Nota

L'eliminazione dell'analisi non elimina gli asset del catalogo creati dalle analisi precedenti.

Derivazione

Dopo aver eseguito l'analisi dell'origine metastore Hive, è possibile esplorare Unified Catalog o cercare Unified Catalog per visualizzare i dettagli dell'asset.

Passare alla scheda asset -> derivazione. Se applicabile, è possibile visualizzare la relazione tra asset. Fare riferimento alla sezione relativa alle funzionalità supportate negli scenari di derivazione di Hive Metastore supportati. Per altre informazioni sulla derivazione in generale, vedere la guida dell'utente alla derivazione e alla derivazione dei dati.

Passaggi successivi

Dopo aver registrato l'origine, usare le guide seguenti per altre informazioni su Microsoft Purview e sui dati:

Condividi tramite