Använd DLT-pipelines med äldre Hive-metastore

Artikel
03/06/2025

Den här artikeln beskriver konfigurationer och varningar som är specifika för DLT-pipelines som konfigurerats för att publicera data till det äldre Hive-metaarkivet. Databricks rekommenderar att du använder Unity Catalog för alla nya pipelines. Se använd Unity Catalog med dina DLT-pipelines.

Not

I den här artikeln beskrivs funktioner för det aktuella standardpubliceringsläget för pipelines. Pipelines som skapats före den 5 februari 2025 kan använda det äldre publiceringsläget och LIVE virtuella schemat. Se LIVE-schema (äldre).

Köra frågor mot strömmande tabeller och materialiserade vyer i det äldre Hive-metaarkivet

När en uppdatering är klar kan du visa schemat och tabellerna, fråga efter data eller använda data i underordnade program.

När DLT-tabeller har publicerats kan de frågas från valfri miljö med åtkomst till målschemat. Detta omfattar Databricks SQL, notebook-filer och andra DLT-pipelines.

Viktig

När du skapar en target konfiguration publiceras endast tabeller och associerade metadata. Vyer publiceras inte i metastore.

Konfigurera en pipeline för publicering till Hive-metaarkiv

När du skapar en ny pipeline kan du ange Hive-metaarkivet under alternativen för Storage att publicera till det äldre Hive-metaarkivet. Du måste ange ett standardmålschema när du publicerar till Hive-metaarkivet. Se till Konfigurera en DLT-pipeline.

Ange en lagringsplats

Du kan ange en lagringsplats för en pipeline som publicerar till Hive-metaarkivet. Den främsta motivationen för att ange en plats är att styra objektlagringsplatsen för data som skrivits av din pipeline. Databricks rekommenderar att du alltid anger en lagringsplats för att undvika att skriva till DBFS-roten.

Eftersom alla tabeller, data, kontrollpunkter och metadata för DLT-pipelines hanteras fullständigt av DLT sker de flesta interaktioner med DLT-datamängder via tabeller som är registrerade i Hive-metaarkivet eller Unity Catalog.

Molnlagringskonfiguration

Om du vill komma åt Azure Storage-måste du konfigurera obligatoriska parametrar, inklusive åtkomsttoken, med hjälp av spark.conf inställningar i klusterkonfigurationerna. Ett exempel på hur du konfigurerar åtkomst till ett Azure Data Lake Storage Gen2-lagringskonto (ADLS Gen2) finns i Säker åtkomst till autentiseringsuppgifter för lagring med hemligheter i en pipeline.

Arbeta med händelselogg för Hive metastore-pipelines

Om din pipeline publicerar tabeller till Hive-metaarkivetlagras händelseloggen i /system/events under storage plats. Till exempel, om du har konfigurerat inställningen för din pipeline storage som /Users/username/data, lagras händelseloggen i sökvägen /Users/username/data/system/events i DBFS.

Om du inte har konfigurerat inställningen storage är standardplatsen för händelseloggen /pipelines/<pipeline-id>/system/events i DBFS. Om till exempel ID:t för din pipeline är 91de5e48-35ed-11ec-8d3d-0242ac130003är lagringsplatsen /pipelines/91de5e48-35ed-11ec-8d3d-0242ac130003/system/events.

Du kan skapa en vy för att förenkla frågeställningar mot händelseloggen. I följande exempel skapas en tillfällig vy med namnet event_log_raw. Den här vyn används i exempelfrågorna i händelseloggen som ingår i den här artikeln:

CREATE OR REPLACE TEMP VIEW event_log_raw
AS SELECT * FROM delta.`<event-log-path>`;

Ersätt <event-log-path> med platsen för händelseloggen.

Varje instans av en pipelinekörning kallas för en uppdatering. Du vill ofta extrahera information för den senaste uppdateringen. Kör följande fråga för att hitta identifieraren för den senaste uppdateringen och spara den i den latest_update_id tillfälliga vyn. Den här vyn används i exempelfrågorna i händelseloggen som ingår i den här artikeln:

CREATE OR REPLACE TEMP VIEW latest_update AS
SELECT origin.update_id AS id
FROM event_log_raw
WHERE event_type = 'create_update'
ORDER BY timestamp DESC
LIMIT 1;

Du kan ställa frågor mot händelseloggen i en Azure Databricks-anteckningsbok eller SQL-redigeraren. Använd en notebook-fil eller SQL-redigeraren för att köra exempelfrågorna i händelseloggen.

Exempel på pipelinens källkodsanteckningsböcker för arbetsytor utan Unity Catalog

Du kan importera följande notebook-filer till en Azure Databricks-arbetsyta utan att Unity Catalog är aktiverat och använda dem för att distribuera en DLT-pipeline. Importera anteckningsboken för det valda språket och ange sökvägen i fältet Källkod när du konfigurerar en pipeline med lagringsalternativet Hive-metastore. Se Konfigurera en DLT-pipeline.

Kom igång med DLT Python Notebook

Hämta anteckningsbok

Kom igång med DLT SQL Notebook