Delta Live Tables-pijplijnen gebruiken met verouderde Hive-metastore
In dit artikel worden configuraties en opmerkingen beschreven die specifiek zijn voor Delta Live Tables-pijplijnen die zijn geconfigureerd voor het publiceren van gegevens naar de verouderde Hive-metastore. Databricks raadt het gebruik van Unity Catalog aan voor alle nieuwe pijplijnen. Zie Unity Catalog gebruiken met uw Delta Live Tables-pijplijnen.
Pijplijngegevenssets publiceren naar de verouderde Hive-metastore
Hoewel dit optioneel is, moet u een doel opgeven voor het publiceren van tabellen die door uw pijplijn zijn gemaakt wanneer u verdergaat met ontwikkelen en testen voor een nieuwe pijplijn. Door een pijplijn te publiceren naar een doel, zijn gegevenssets beschikbaar voor het uitvoeren van query's ergens anders in uw Azure Databricks-omgeving.
U kunt de uitvoergegevens van uw pijplijn detecteerbaar en beschikbaar maken om query's uit te voeren door gegevenssets te publiceren naar de Hive-metastore. Als u gegevenssets naar de metastore wilt publiceren, voert u een schemanaam in het veld Doel in wanneer u een pijplijn maakt. U kunt ook een doeldatabase toevoegen aan een bestaande pijplijn.
Alle tabellen en weergaven die in Delta Live Tables zijn gemaakt, zijn standaard lokaal voor de pijplijn. U moet tabellen publiceren naar een doelschema om gegevenssets van Delta Live Tables op te vragen of te gebruiken buiten de pijplijn waarin ze worden gedeclareerd.
Als u tabellen uit uw pijplijnen naar Unity Catalog wilt publiceren, raadpleegt u Unity Catalog gebruiken met uw Delta Live Tables-pijplijnen.
Delta Live Tables-gegevenssets publiceren naar de verouderde Hive-metastore
U kunt een doelschema declareren voor alle tabellen in uw Delta Live Tables-pijplijn met behulp van het schemaveld Doel in de pijplijninstellingen en pijplijn-UIS's maken.
U kunt ook een schema opgeven in een JSON-configuratie door de waarde in te target
stellen.
U moet een update uitvoeren voor de pijplijn om resultaten naar het doelschema te publiceren.
U kunt deze functie gebruiken met meerdere omgevingsconfiguraties om te publiceren naar verschillende schema's op basis van de omgeving. U kunt bijvoorbeeld publiceren naar een dev
schema voor ontwikkeling en een prod
schema voor productiegegevens.
Query's uitvoeren op streamingtabellen en gerealiseerde weergaven in de verouderde Hive-metastore
Nadat een update is voltooid, kunt u het schema en de tabellen bekijken, de gegevens opvragen of de gegevens gebruiken in downstreamtoepassingen.
Zodra ze zijn gepubliceerd, kunnen tabellen in Delta Live Tables vanuit elke omgeving worden opgevraagd met toegang tot het doelschema. Dit omvat Databricks SQL, notebooks en andere Delta Live Tables-pijplijnen.
Belangrijk
Wanneer u een target
configuratie maakt, worden alleen tabellen en gekoppelde metagegevens gepubliceerd. Weergaven worden niet gepubliceerd naar de metastore.
Een opslaglocatie opgeven
U kunt een opslaglocatie opgeven voor een pijplijn die naar de Hive-metastore wordt gepubliceerd. De primaire motivatie voor het opgeven van een locatie is het beheren van de opslaglocatie van objecten voor gegevens die zijn geschreven door uw pijplijn.
Omdat alle tabellen, gegevens, controlepunten en metagegevens voor Delta Live Tables-pijplijnen volledig worden beheerd door Delta Live Tables, gebeurt de meeste interactie met Delta Live Tables-gegevenssets via tabellen die zijn geregistreerd bij de Hive-metastore of Unity Catalog.
Cloudopslagconfiguratie
Voor toegang tot Azure Storage moet u de vereiste parameters, inclusief toegangstokens, configureren met behulp van spark.conf
instellingen in uw clusterconfiguraties. Voor een voorbeeld van het configureren van toegang tot een ADLS Gen2-opslagaccount (Azure Data Lake Storage Gen2), raadpleegt u Veilig toegang tot opslagreferenties met geheimen in een pijplijn.
Voorbeeld van broncodenotebooks voor pijplijnen voor werkruimten zonder Unity Catalog
U kunt de volgende notebooks importeren in een Azure Databricks-werkruimte zonder Unity Catalog ingeschakeld en deze gebruiken om een Delta Live Tables-pijplijn te implementeren. Importeer het notebook van de gekozen taal en geef het pad op in het veld Broncode bij het configureren van een pijplijn met de hive-metastore-opslagoptie . Zie Een Delta Live Tables-pijplijn configureren.