Een Delta Live Tables-pijplijn configureren
In dit artikel wordt de basisconfiguratie voor Delta Live Tables-pijplijnen beschreven met behulp van de gebruikersinterface van de werkruimte.
Databricks raadt aan om nieuwe pijplijnen te ontwikkelen met serverloos. Zie Een serverloze Delta Live Tables-pijplijn configureren voor configuratie-instructies voor serverloze pijplijnen.
In de configuratie-instructies in dit artikel wordt Unity Catalog gebruikt. Zie Delta Live Tables-pijplijnen gebruiken met verouderde Hive-metastore voor instructies voor het configureren van pijplijnen met verouderde Hive-metastore.
Notitie
De gebruikersinterface heeft een optie om instellingen in JSON weer te geven en te bewerken. U kunt de meeste instellingen configureren met de gebruikersinterface of een JSON-specificatie. Sommige geavanceerde opties zijn alleen beschikbaar met behulp van de JSON-configuratie.
JSON-configuratiebestanden zijn ook handig bij het implementeren van pijplijnen in nieuwe omgevingen of met behulp van de CLI of REST API.
Zie Delta Live Tables-pijplijnconfiguraties voor een volledig overzicht van de JSON-configuratie-instellingen voor Delta Live Tables.
Een nieuwe Delta Live Tables-pijplijn configureren
Ga als volgt te werk om een nieuwe Delta Live Tables-pijplijn te configureren:
- Klik op Delta Live-tabellen in de zijbalk.
- Klik op Pijplijn maken.
- Geef een unieke pijplijnnaam op.
- (Optioneel) Gebruik de bestandskiezer om notebooks en werkruimtebestanden als broncode te configureren.
- Als u geen broncode toevoegt, wordt er een nieuw notebook gemaakt voor de pijplijn. Het notebook wordt gemaakt in een nieuwe map in uw gebruikersmap en er wordt een koppeling voor toegang tot dit notitieblok weergegeven in het veld Broncode in het deelvenster Pijplijndetails nadat u de pijplijn hebt gemaakt.
- U hebt toegang tot dit notebook met de URL die wordt weergegeven onder het veld Broncode in het deelvenster Pijplijndetails nadat u de pijplijn hebt gemaakt.
- Gebruik de knop Broncode toevoegen om extra broncodeassets toe te voegen.
- Als u geen broncode toevoegt, wordt er een nieuw notebook gemaakt voor de pijplijn. Het notebook wordt gemaakt in een nieuwe map in uw gebruikersmap en er wordt een koppeling voor toegang tot dit notitieblok weergegeven in het veld Broncode in het deelvenster Pijplijndetails nadat u de pijplijn hebt gemaakt.
- Selecteer Unity Catalog onder Opslagopties.
- Selecteer een catalogus om gegevens te publiceren.
- Selecteer een schema in de catalogus. Alle streamingtabellen en gerealiseerde weergaven die in de pijplijn zijn gedefinieerd, worden in dit schema gemaakt.
- Schakel in de sectie Compute het selectievakje naast Photon Acceleration gebruiken in. Zie Compute-configuratieopties voor aanvullende overwegingen bij de berekeningsconfiguratie.
- Klik op Create.
Met deze aanbevolen configuraties maakt u een nieuwe pijplijn die is geconfigureerd voor uitvoering in de geactiveerde modus en gebruikt u het Huidige kanaal. Deze configuratie wordt aanbevolen voor veel gebruiksvoorbeelden, waaronder ontwikkeling en testen, en is geschikt voor productieworkloads die volgens een planning moeten worden uitgevoerd. Zie Pijplijntaak voor Delta Live Tables voor taken voor meer informatie over het plannen van pijplijnen.
Opties voor berekeningsconfiguratie
Databricks raadt altijd aan verbeterde automatische schaalaanpassing te gebruiken. Standaardwaarden voor andere rekenconfiguraties werken goed voor veel pijplijnen.
Serverloze pijplijnen verwijderen rekenconfiguratieopties. Zie Een serverloze Delta Live Tables-pijplijn configureren voor configuratie-instructies voor serverloze pijplijnen.
Gebruik de volgende instellingen om rekenconfiguraties aan te passen:
Werkruimtebeheerders kunnen een clusterbeleid configureren. Met rekenbeleid kunnen beheerders bepalen welke rekenopties beschikbaar zijn voor gebruikers. Zie Een clusterbeleid selecteren.
U kunt desgewenst de clustermodus configureren voor uitvoering met vaste grootte of verouderde automatische schaalaanpassing. Zie Het clustergebruik van Delta Live Tables-pijplijnen optimaliseren met verbeterde automatische schaalaanpassing.
Voor workloads waarvoor automatische schaalaanpassing is ingeschakeld, stelt u Minimale werkrollen en Max-werkrollen in om limieten in te stellen voor schaalgedrag. Zie Compute configureren voor een Delta Live Tables-pijplijn.
U kunt fotoversnelling desgewenst uitschakelen. Zie Wat is Photon?
Gebruik clustertags om de kosten te bewaken die zijn gekoppeld aan Delta Live Tables-pijplijnen. Zie Clustertags configureren.
Configureer exemplaartypen om het type virtuele machines op te geven dat wordt gebruikt om uw pijplijn uit te voeren. Zie Exemplaartypen selecteren om een pijplijn uit te voeren.
- Selecteer een werkroltype dat is geoptimaliseerd voor de werkbelastingen die in uw pijplijn zijn geconfigureerd.
- U kunt desgewenst een stuurprogrammatype selecteren dat verschilt van uw werkroltype. Dit kan handig zijn voor het verlagen van de kosten in pijplijnen met grote werkrollen en een laag rekengebruik van stuurprogramma's of voor het kiezen van een groter stuurprogrammatype om problemen met onvoldoende geheugen in workloads met veel kleine werkrollen te voorkomen.
Andere configuratieoverwegingen
De volgende configuratieopties zijn ook beschikbaar voor pijplijnen:
- De geavanceerde producteditie biedt u toegang tot alle functies van Delta Live Tables. U kunt eventueel pijplijnen uitvoeren met behulp van de Pro- of Core-productedities. Zie Een producteditie kiezen.
- U kunt ervoor kiezen om de modus Continue pijplijn te gebruiken bij het uitvoeren van pijplijnen in productie. Zie Geactiveerd versus continue pijplijnmodus.
- Als uw werkruimte niet is geconfigureerd voor Unity Catalog of als uw workload verouderde Hive-metastore moet gebruiken, raadpleegt u Delta Live Tables-pijplijnen gebruiken met verouderde Hive-metastore.
- Meldingen voor e-mailupdates toevoegen op basis van geslaagde of mislukte voorwaarden. Zie E-mailmeldingen toevoegen voor pijplijn gebeurtenissen.
- Gebruik het veld Configuratie om sleutel-waardeparen in te stellen voor de pijplijn. Deze configuraties dienen twee doeleinden:
- Stel willekeurige parameters in waarnaar u in uw broncode kunt verwijzen. Zie Parameters gebruiken met Delta Live Tables-pijplijnen.
- Configureer pijplijninstellingen en Spark-configuraties. Zie de referentie voor eigenschappen van Delta Live Tables.
- Gebruik het preview-kanaal om uw pijplijn te testen op wijzigingen in runtime van Delta Live Tables en nieuwe functies te testen.
Een producteditie kiezen
Selecteer de producteditie van Delta Live Tables met de beste functies voor uw pijplijnvereisten. De volgende productedities zijn beschikbaar:
Core
om streaming-opnameworkloads uit te voeren. Selecteer deCore
editie als voor uw pijplijn geen geavanceerde functies nodig zijn, zoals het vastleggen van wijzigingen in gegevens (CDC) of de verwachtingen van Delta Live Tables.Pro
om streaming-opname- en CDC-workloads uit te voeren. DePro
producteditie ondersteunt alle functies, plus ondersteuning voor workloads die tabellen moeten bijwerken op basis vanCore
wijzigingen in brongegevens.Advanced
voor het uitvoeren van streaming-opnameworkloads, CDC-workloads en workloads waarvoor verwachtingen zijn vereist. DeAdvanced
producteditie ondersteunt de functies van deCore
enPro
edities en bevat beperkingen voor gegevenskwaliteit met de verwachtingen van Delta Live Tables.
U kunt de producteditie selecteren wanneer u een pijplijn maakt of bewerkt. U kunt voor elke pijplijn een andere editie kiezen. Zie de productpagina delta livetabellen.
Opmerking: Als uw pijplijn functies bevat die niet worden ondersteund door de geselecteerde producteditie, zoals verwachtingen, krijgt u een foutbericht waarin de reden voor de fout wordt uitgelegd. Vervolgens kunt u de pijplijn bewerken om de juiste editie te selecteren.
Broncode configureren
U kunt de bestandskiezer in de gebruikersinterface van Delta Live Tables gebruiken om de broncode te configureren die uw pijplijn definieert. De broncode van de pijplijn wordt gedefinieerd in Databricks-notebooks of SQL- of Python-scripts die zijn opgeslagen in werkruimtebestanden. Wanneer u uw pijplijn maakt of bewerkt, kunt u een of meer notitieblokken of werkruimtebestanden of een combinatie van notitieblokken en werkruimtebestanden toevoegen.
Omdat Delta Live Tables automatisch gegevenssetafhankelijkheden analyseert om de verwerkingsgrafiek voor uw pijplijn te maken, kunt u broncodeassets in elke volgorde toevoegen.
U kunt het JSON-bestand wijzigen om de broncode van Delta Live Tables op te nemen die is gedefinieerd in SQL- en Python-scripts die zijn opgeslagen in werkruimtebestanden. Het volgende voorbeeld bevat notebooks en werkruimtebestanden:
{
"name": "Example pipeline 3",
"storage": "dbfs:/pipeline-examples/storage-location/example3",
"libraries": [
{ "notebook": { "path": "/example-notebook_1" } },
{ "notebook": { "path": "/example-notebook_2" } },
{ "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
{ "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
]
}
Externe afhankelijkheden beheren voor pijplijnen die gebruikmaken van Python
Delta Live Tables ondersteunt het gebruik van externe afhankelijkheden in uw pijplijnen, zoals Python-pakketten en -bibliotheken. Zie Python-afhankelijkheden beheren voor Delta Live Tables-pijplijnen voor meer informatie over opties en aanbevelingen voor het gebruik van afhankelijkheden.
Python-modules gebruiken die zijn opgeslagen in uw Azure Databricks-werkruimte
Naast het implementeren van uw Python-code in Databricks-notebooks, kunt u Databricks Git-mappen of werkruimtebestanden gebruiken om uw code op te slaan als Python-modules. Het opslaan van uw code als Python-modules is vooral handig wanneer u algemene functionaliteit hebt die u wilt gebruiken in meerdere pijplijnen of notebooks in dezelfde pijplijn. Zie Python-modules importeren uit Git-mappen of werkruimtebestanden voor meer informatie over het gebruik van Python-modules met uw pijplijnen.