Usare pipeline di tabelle live Delta con metastore Hive legacy

Articolo
01/30/2025

Questo articolo illustra in dettaglio le configurazioni e le avvertenze specifiche delle pipeline di tabelle live Delta configurate per pubblicare i dati nel metastore Hive legacy. Databricks consiglia di usare Unity Catalog per tutte le nuove pipeline. Consultare Usare il catalogo Unity con le pipeline di Delta Live Tables.

Nota

Questo articolo illustra le funzionalità per la modalità di pubblicazione predefinita corrente per le pipeline. Le pipeline create prima del 5 febbraio 2025 potrebbero usare la modalità di pubblicazione legacy e lo schema virtuale LIVE. Visualizza lo schema IN DIRETTA (legacy) .

Come interrogare le tabelle di streaming e le viste materializzate nel metastore Hive legacy

Al termine di un aggiornamento, è possibile visualizzare lo schema e le tabelle, eseguire query sui dati o usare i dati nelle applicazioni downstream.

Dopo la pubblicazione, è possibile eseguire query sulle tabelle Live Delta da qualsiasi ambiente con accesso allo schema di destinazione. Sono inclusi Databricks SQL, notebook e altre pipeline Delta Live Tables.

Importante

Quando si crea una configurazione target, vengono pubblicate solo le tabelle e i metadati associati. Le visualizzazioni non vengono pubblicate nel metastore.

Configurare una pipeline per la pubblicazione nel metastore Hive

Quando si crea una nuova pipeline, è possibile specificare metastore Hive nelle opzioni di archiviazione pubblicare nel metastore Hive legacy. È necessario specificare uno schema di destinazione predefinito durante la pubblicazione nel metastore Hive. Vedere Configurare una pipeline di tabelle live Delta.

Specificare un percorso di archiviazione

È possibile specificare un percorso di archiviazione per una pipeline che pubblica nel metastore Hive. La motivazione principale per specificare una posizione consiste nel controllare la posizione di archiviazione degli oggetti per i dati scritti dalla pipeline. Databricks consiglia sempre di specificare un percorso di archiviazione per evitare di scrivere nella radice DBFS.

Poiché tutte le tabelle, i dati, i checkpoint e i metadati per le pipeline di tabelle live Delta sono completamente gestite da tabelle live Delta, la maggior parte dell'interazione con i set di dati delle tabelle live delta avviene tramite tabelle registrate nel metastore Hive o nel catalogo Unity.

Configurazione dell'archiviazione cloud

Per accedere all'archiviazione Azure , è necessario configurare i parametri necessari, inclusi i token di accesso, utilizzando le impostazioni spark.conf nelle configurazioni del tuo cluster. Per un esempio di configurazione dell'accesso a un account di archiviazione di Azure Data Lake Storage Gen2 (ADLS Gen2), vedere Accedere in modo sicuro alle credenziali di archiviazione con segreti in una pipeline.

Notebook del codice sorgente della pipeline di esempio per le aree di lavoro senza Unity Catalog

È possibile importare i notebook seguenti in un'area di lavoro di Azure Databricks senza che Unity Catalog sia abilitato e usarli per distribuire una pipeline di tabelle live Delta. Importare il notebook della lingua scelta e specificare il percorso nel campo Codice sorgente durante la configurazione di una pipeline con l'opzione di archiviazione metastore Hive. Vedere Configurare una pipeline di tabelle live Delta.

Inizia con il notebook Python per Delta Live Tables

Prendi il notebook

Inizia con il notebook SQL di Delta Live Tables