Condividi tramite


Connettersi ai database Hive Metastore e gestirli in Microsoft Purview

Questo articolo illustra come registrare i database metastore Hive e come autenticare e interagire con i database metastore Hive in Microsoft Purview. Per altre informazioni su Microsoft Purview, vedere l'articolo introduttivo.

Funzionalità supportate

Estrazione dei metadati Analisi completa Analisi incrementale Analisi con ambito Classificazione Applicazione di etichette Criteri di accesso Derivazione Condivisione dati Visualizzazione in diretta
No No No No Sì* No No

* Oltre alla derivazione degli asset all'interno dell'origine dati, la derivazione è supportata anche se il set di dati viene usato come origine/sink nella pipeline di Data Factory o Synapse.

Le versioni hive supportate sono da 2.x a 3.x. Le piattaforme supportate sono Apache Hadoop, Cloudera e Hortonworks. Se si vuole analizzare Azure Databricks, è consigliabile usare il connettore Azure Databricks, che è più compatibile e intuitivo.

Durante l'analisi dell'origine del metastore Hive, Microsoft Purview supporta:

  • Estrazione di metadati tecnici, tra cui:

    • Server
    • Database
    • Tabelle che includono colonne, chiavi esterne, vincoli univoci e descrizione dell'archiviazione
    • Viste che includono le colonne e la descrizione dell'archiviazione
  • Recupero della derivazione statica sulle relazioni tra gli asset tra tabelle e viste.

Quando si configura l'analisi, è possibile scegliere di analizzare un intero database di metastore Hive o di definire l'ambito dell'analisi in un subset di schemi corrispondenti ai nomi o ai criteri di nome specificati.

Limitazioni note

Quando l'oggetto viene eliminato dall'origine dati, attualmente l'analisi successiva non rimuove automaticamente l'asset corrispondente in Microsoft Purview.

Prerequisiti

Registrazione

Questa sezione descrive come registrare un database Hive Metastore in Microsoft Purview usando il portale di governance di Microsoft Purview.

L'unica autenticazione supportata per un database Hive Metastore è l'autenticazione di base.

  1. Aprire il portale di governance di Microsoft Purview:

  2. Selezionare Mappa dati nel riquadro sinistro.

  3. Selezionare Registra.

  4. In Registra origini selezionare Hive MetastoreContinue.InRegister sources (Registra origini) selezionare Hive Metastore Continue (Continua metastore> Hive).

  5. Nella schermata Registra origini (Hive Metastore) eseguire le operazioni seguenti:

    1. In Nome immettere un nome che verrà visualizzato da Microsoft Purview come origine dati.

    2. Per URL cluster Hive immettere un valore ottenuto dall'URL di Ambari. Ad esempio, immettere hive.azurehdinsight.net.

    3. Per Url del server metastore Hive immettere un URL per il server. Ad esempio, immettere sqlserver://hive.database.windows.net.

    4. Selezionare una raccolta dall'elenco.

    Screenshot che mostra le caselle per la registrazione delle origini Hive.

  6. Seleziona Fine.

Analisi

Consiglio

Per risolvere eventuali problemi relativi all'analisi:

  1. Verificare di aver seguito tutti i prerequisiti.
  2. Esaminare la documentazione sulla risoluzione dei problemi di analisi.

Seguire questa procedura per analizzare i database metastore Hive per identificare automaticamente gli asset. Per altre informazioni sull'analisi in generale, vedere Analisi e inserimento in Microsoft Purview.

  1. Nel Centro gestione selezionare Runtime di integrazione. Assicurarsi che sia configurato un runtime di integrazione self-hosted. Se non è configurato, usare la procedura descritta nei prerequisiti.

  2. Passare a Origini.

  3. Selezionare il database Hive Metastore registrato.

  4. Selezionare + Nuova analisi.

  5. Quando richiesto, specificare i dettagli seguenti:

    1. Nome: immettere un nome per l'analisi.

    2. Connettersi tramite il runtime di integrazione: selezionare il runtime di integrazione self-hosted configurato.

    3. Credenziali: selezionare le credenziali per connettersi all'origine dati. Assicurarsi di:

      • Selezionare Autenticazione di base durante la creazione di credenziali.
      • Specificare il nome utente metastore nella casella appropriata.
      • Archiviare la password metastore nella chiave privata.

      Per altre informazioni, vedere Credenziali per l'autenticazione di origine in Microsoft Purview.

    4. Percorso del driver JDBC del metastore: specificare il percorso del driver JDBC nel computer in cui è in esecuzione il runtime di integrazione self-host. Ad esempio, D:\Drivers\HiveMetastore.

      1. Per il runtime di integrazione self-hosted in un computer locale: D:\Drivers\HiveMetastore. Si tratta del percorso della cartella JAR valida. Il valore deve essere un percorso di file assoluto valido e non contiene spazio. Assicurarsi che il driver sia accessibile dal runtime di integrazione self-hosted; Altre informazioni sono disponibili nella sezione prerequisiti.
      2. Per il runtime di integrazione self-hosted supportato da Kubernetes: ./drivers/HiveMetastore. Si tratta del percorso della cartella JAR valida. Il valore deve essere un percorso di file relativo valido. Fare riferimento alla documentazione per configurare un'analisi con driver esterni per caricare i driver in anticipo.
    5. Classe di driver JDBC metastore: specificare il nome della classe per il driver di connessione. Ad esempio, immettere \com.microsoft.sqlserver.jdbc.SQLServerDriver.

    6. URL JDBC metastore: specificare il valore dell'URL di connessione e definire la connessione all'URL del server di database Metastore. Ad esempio: jdbc:sqlserver://hive.database.windows.net;database=hive;encrypt=true;trustServerCertificate=true;create=false;loginTimeout=300.

      Nota

      Quando si copia l'URL da hive-site.xml, rimuovere amp; dalla stringa o l'analisi avrà esito negativo.

      Scaricare il certificato SSL nel computer di runtime di integrazione self-hosted, quindi aggiornare il percorso del certificato SSL nel computer nell'URL.

      Quando si immettono percorsi di file locali nella configurazione dell'analisi, modificare il carattere separatore di percorso di Windows da una barra rovesciata (\) a una barra rovesciata (/). Ad esempio, se si inserisce il certificato SSL nel percorso del file locale D:\Drivers\SSLCert\BaltimoreCyberTrustRoot.crt.pem, modificare il valore del serverSslCert parametro in D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem.

      Il valore dell'URL JDBC del Metastore sarà simile al seguente:

      jdbc:mariadb://samplehost.mysql.database.azure.com:3306/XXXXXXXXXXXXXXXX?useSSL=true&enabledSslProtocolSuites=TLSv1,TLSv1.1,TLSv1.2&serverSslCert=D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem

    7. Nome database metastore: specificare il nome del database Hive Metastore.

    8. Schema: specificare un elenco di schemi Hive da importare. Ad esempio: schema1; schema2.

      Tutti gli schemi utente vengono importati se l'elenco è vuoto. Tutti gli schemi di sistema ,ad esempio SysAdmin, e gli oggetti vengono ignorati per impostazione predefinita.

      I modelli di nome dello schema accettabili che usano la sintassi delle espressioni SQL LIKE includono il segno di percentuale (%). Ad esempio, A%; %B; %C%; D significa:

      • Iniziare con A o
      • Terminare con B o
      • Contengono C o
      • Uguale a D

      L'utilizzo di NOT caratteri speciali e non è accettabile.

    9. Memoria massima disponibile: memoria massima (in gigabyte) disponibile nel computer del cliente per i processi di analisi da usare. Questo valore dipende dalle dimensioni del database Hive Metastore da analizzare.

      Nota

      Come regola generale, specificare 1 GB di memoria per ogni 1000 tabelle.

    Screenshot che mostra le caselle per i dettagli dell'analisi.

  6. Selezionare Continua.

  7. Per Esegui analisi, scegliere se configurare una pianificazione o eseguire l'analisi una sola volta.

  8. Esaminare l'analisi e selezionare Salva ed esegui.

Visualizzare le analisi e le esecuzioni di analisi

Per visualizzare le analisi esistenti:

  1. Passare al portale di Microsoft Purview. Nel riquadro sinistro selezionare Mappa dati.
  2. Selezionare l'origine dati. È possibile visualizzare un elenco di analisi esistenti nell'origine dati in Analisi recenti oppure è possibile visualizzare tutte le analisi nella scheda Analisi .
  3. Selezionare l'analisi con i risultati che si desidera visualizzare. Il riquadro mostra tutte le esecuzioni di analisi precedenti, insieme allo stato e alle metriche per ogni esecuzione dell'analisi.
  4. Selezionare l'ID di esecuzione per controllare i dettagli dell'esecuzione dell'analisi.

Gestire le analisi

Per modificare, annullare o eliminare un'analisi:

  1. Passare al portale di Microsoft Purview. Nel riquadro sinistro selezionare Mappa dati.

  2. Selezionare l'origine dati. È possibile visualizzare un elenco di analisi esistenti nell'origine dati in Analisi recenti oppure è possibile visualizzare tutte le analisi nella scheda Analisi .

  3. Selezionare l'analisi da gestire. È quindi possibile eseguire automaticamente le seguenti azioni:

    • Modificare l'analisi selezionando Modifica analisi.
    • Annullare un'analisi in corso selezionando Annulla esecuzione analisi.
    • Eliminare l'analisi selezionando Elimina analisi.

Nota

  • L'eliminazione dell'analisi non elimina gli asset del catalogo creati dalle analisi precedenti.

Derivazione

Dopo aver eseguito l'analisi dell'origine metastore Hive, è possibile esplorare il catalogo dati o cercare il catalogo dati per visualizzare i dettagli dell'asset.

Passare alla scheda asset -> derivazione. Se applicabile, è possibile visualizzare la relazione tra asset. Fare riferimento alla sezione relativa alle funzionalità supportate negli scenari di derivazione di Hive Metastore supportati. Per altre informazioni sulla derivazione in generale, vedere la guida dell'utente alla derivazione e alla derivazione dei dati.

Passaggi successivi

Dopo aver registrato l'origine, usare le guide seguenti per altre informazioni su Microsoft Purview e sui dati: