Een Delta Live Tables-pijplijn configureren
In dit artikel wordt de basisconfiguratie voor Delta Live Tables-pijplijnen beschreven via de werkruimte-gebruikersinterface.
Databricks raadt aan om nieuwe pijplijnen te ontwikkelen met serverloos. Zie Een serverloze Delta Live-Tables-pijplijn configurerenvoor configuratie-instructies voor serverloze pijplijnen.
In de configuratie-instructies in dit artikel wordt Unity Cataloggebruikt. Zie voor instructies voor het configureren van pijplijnen met de verouderde Hive-metastore Gebruik Delta Live Tables-pijplijnen met verouderde Hive-metastore.
Notitie
De gebruikersinterface heeft een optie om instellingen in JSON weer te geven en te bewerken. U kunt de meeste instellingen configureren met de gebruikersinterface of een JSON-specificatie. Sommige geavanceerde opties zijn alleen beschikbaar met behulp van de JSON-configuratie.
JSON-configuratiebestanden zijn ook handig bij het implementeren van pijplijnen in nieuwe omgevingen of met behulp van de CLI of REST API.
Zie Delta Live Tables pijplijnconfiguratiesvoor een volledig overzicht van de configuratie-instellingen van Delta Live Tables JSON.
Een nieuwe Delta Live Tables-pijplijn configureren
Ga als volgt te werk om een nieuwe Delta Live-Tables-pijplijn te configureren:
- Klik op Delta Live Tables in de zijbalk.
- Klik op Pijplijn maken.
- Geef een unieke pijplijnnaam op.
- (Optioneel) Gebruik de bestandskiezer om notebooks en werkruimtebestanden als broncode te configureren.
- Als u geen broncode toevoegt, wordt er een nieuw notebook gemaakt voor de pijplijn. Het notebook wordt gemaakt in een nieuwe map in uw gebruikersmap en er wordt een koppeling voor toegang tot dit notitieblok weergegeven in het veld Broncode in het deelvenster Pijplijndetails nadat u de pijplijn hebt gemaakt.
- U hebt toegang tot dit notebook met de URL die wordt weergegeven onder het veld Broncode in het deelvenster Pijplijndetails nadat u de pijplijn hebt gemaakt.
- Gebruik de knop Broncode toevoegen om extra broncodeassets toe te voegen.
- Als u geen broncode toevoegt, wordt er een nieuw notebook gemaakt voor de pijplijn. Het notebook wordt gemaakt in een nieuwe map in uw gebruikersmap en er wordt een koppeling voor toegang tot dit notitieblok weergegeven in het veld Broncode in het deelvenster Pijplijndetails nadat u de pijplijn hebt gemaakt.
- Select Unity Catalog onder opslagopties.
- Select een Catalog om gegevens te publiceren.
- Select een Schema in de catalog. Alle tables voor streaming en views voor materialisatie die in de pijplijn zijn gedefinieerd, worden in deze schemagemaakt.
- Schakel in de sectie Compute het selectievakje naast Photon Acceleration gebruiken in. Zie Compute-configuratieopties voor aanvullende overwegingen bij de berekeningsconfiguratie.
- Klik op Create.
Met deze aanbevolen configuraties maakt u een nieuwe pijplijn die is geconfigureerd voor uitvoering in de geactiveerde modus en gebruikt u het Huidige kanaal. Deze configuratie wordt aanbevolen voor veel gebruiksvoorbeelden, waaronder ontwikkeling en testen, en is geschikt voor productieworkloads die volgens een planning moeten worden uitgevoerd. Voor meer informatie over het plannen van pijplijnen, zie de Delta Live Tables pijplijntaak voor taken.
Opties voor berekeningsconfiguratie
Databricks raadt altijd aan verbeterde automatische schaalaanpassing te gebruiken. De standaard-values voor andere rekenconfiguraties werken goed voor veel pijplijnen.
Serverloze pijplijnen remove rekenconfiguratieopties. Zie Een serverloze Delta Live-Tables-pijplijn configurerenvoor configuratie-instructies voor serverloze pijplijnen.
Gebruik de volgende instellingen om rekenconfiguraties aan te passen:
Werkruimtebeheerders kunnen een clusterbeleid configureren. Met rekenbeleid kunnen beheerders bepalen welke rekenopties beschikbaar zijn voor gebruikers. Zie Select een clusterbeleid.
U kunt desgewenst de clustermodus configureren voor uitvoering met vaste grootte of verouderde automatische schaalaanpassing. Zie Optimize het clustergebruik van Delta Live Tables-pijplijnen met verbeterde automatische schaalaanpassing.
Voor workloads waarvoor automatische schaalaanpassing is ingeschakeld, setMinimale werkrollen en Max-werkrollen tot set limieten voor schaalgedrag. Zie Compute configureren voor een Delta Live-Tables-pijplijn.
U kunt fotoversnelling desgewenst uitschakelen. Zie Wat is Photon?
Gebruik clustertags om de kosten te bewaken die zijn gekoppeld aan Delta Live Tables-pijplijnen. Zie Clustertags configureren.
Configureer exemplaartypen om het type virtuele machines op te geven dat wordt gebruikt om uw pijplijn uit te voeren. Zie Select instantietypen om een pijplijn uit te voeren.
- Select een Werknemerstype geoptimaliseerd voor de werkbelastingen die in uw pijplijn geconfigureerd zijn.
- U kunt desgewenst een selectbesturingsprogramma gebruiken dat verschilt van uw werkroltype. Dit kan handig zijn voor het verlagen van de kosten in pijplijnen met grote werkrollen en een laag rekengebruik van stuurprogramma's of voor het kiezen van een groter stuurprogrammatype om problemen met onvoldoende geheugen in workloads met veel kleine werkrollen te voorkomen.
Andere configuratieoverwegingen
De volgende configuratieopties zijn ook beschikbaar voor pijplijnen:
- De Advanced producteditie geeft u toegang tot alle functies van Delta Live Tables. U kunt eventueel pijplijnen uitvoeren met behulp van de Pro- of Core-productedities. Zie Een producteditie kiezen.
- U kunt ervoor kiezen om de modus Continue pijplijn te gebruiken bij het uitvoeren van pijplijnen in productie. Zie Geactiveerd versus continue pijplijnmodus.
- Als uw werkruimte niet is geconfigureerd voor Unity Catalog of als uw workload de verouderde Hive-metastore moet gebruiken, raadpleegt u voor het gebruik van Delta Live-Tables-pijplijnen met de verouderde Hive-metastore-.
- Meldingen voor e-mailupdates toevoegen op basis van geslaagde of mislukte voorwaarden. Zie E-mailmeldingen toevoegen voor pijplijn gebeurtenissen.
- Gebruik het veld Configuration om sleutel-waardeparen voor de pijplijn te set beheren. Deze configuraties dienen twee doeleinden:
-
Set willekeurige parameters waarnaar u kunt verwijzen in uw broncode. Gebruik
met Delta Live -pijplijnen, zie . - Configureer pijplijninstellingen en Spark-configuraties. Zie Eigenschappen van Delta Live Tables verwijzen naar.
-
Set willekeurige parameters waarnaar u kunt verwijzen in uw broncode. Gebruik
- Gebruik het Preview--kanaal om uw pijplijn te testen tegen nog lopende wijzigingen van de Delta Live Tables runtime en om nieuwe functies uit te proberen.
Een producteditie kiezen
Select de Delta Live Tables producteditie met de beste functies voor uw pijplijnvereisten. De volgende productedities zijn beschikbaar:
-
Core
om streaming-opnameworkloads uit te voeren. Select deCore
-editie als uw pijplijn geen geavanceerde functies nodig heeft, zoals wijzigingsgegevens vastleggen (CDC) of Delta Live Tables verwachtingen. -
Pro
om streaming-opname- en CDC-workloads uit te voeren. DePro
producteditie ondersteunt alleCore
functies, plus ondersteuning voor workloads waarvoor tables moet worden bijgewerkt op basis van wijzigingen in brongegevens. -
Advanced
voor het uitvoeren van streaming-opnameworkloads, CDC-workloads en workloads waarvoor verwachtingen zijn vereist. DeAdvanced
producteditie ondersteunt de functies van deCore
- enPro
-edities en bevat beperkingen van de gegevenskwaliteit met de verwachtingen van Delta Live Tables.
U kunt de producteditie wijzigen naar select wanneer u een pijplijn maakt of bewerkt. U kunt voor elke pijplijn een andere editie kiezen. Zie de productpagina van Delta Live Tables.
Opmerking: Als uw pijplijn functies bevat die niet worden ondersteund door de geselecteerde producteditie, zoals verwachtingen, krijgt u een foutbericht waarin de reden voor de fout wordt uitgelegd. Vervolgens kunt u de pijplijn bewerken om de juiste editie te kiezen met behulp van select.
Broncode configureren
U kunt de bestandskiezer in de Delta Live-Tables-gebruikersinterface gebruiken om de broncode te configureren die uw pijplijn definieert. De broncode van de pijplijn wordt gedefinieerd in Databricks-notebooks of SQL- of Python-scripts die zijn opgeslagen in werkruimtebestanden. Wanneer u uw pijplijn maakt of bewerkt, kunt u een of meer notitieblokken of werkruimtebestanden of een combinatie van notitieblokken en werkruimtebestanden toevoegen.
Omdat Delta Live Tables automatisch gegevenssetafhankelijkheden analyseert om de verwerkingsgrafiek voor uw pijplijn te maken, kunt u broncodeassets in elke volgorde toevoegen.
U kunt het JSON-bestand wijzigen zodat Delta Live Tables broncode wordt opgenomen die is gedefinieerd in SQL- en Python-scripts die zijn opgeslagen in werkruimtebestanden. Het volgende voorbeeld bevat notebooks en werkruimtebestanden:
{
"name": "Example pipeline 3",
"storage": "dbfs:/pipeline-examples/storage-location/example3",
"libraries": [
{ "notebook": { "path": "/example-notebook_1" } },
{ "notebook": { "path": "/example-notebook_2" } },
{ "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
{ "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
]
}
Externe afhankelijkheden beheren voor pijplijnen die gebruikmaken van Python
Delta Live Tables ondersteunt het gebruik van externe afhankelijkheden in uw pijplijnen, zoals Python-pakketten en -bibliotheken. Zie Python-afhankelijkheden beheren voor Delta Live Tables-pijplijnenvoor meer informatie over opties en aanbevelingen voor het gebruik van afhankelijkheden.
Python-modules gebruiken die zijn opgeslagen in uw Azure Databricks-werkruimte
Naast het implementeren van uw Python-code in Databricks-notebooks, kunt u Databricks Git-mappen of werkruimtebestanden gebruiken om uw code op te slaan als Python-modules. Het opslaan van uw code als Python-modules is vooral handig wanneer u algemene functionaliteit hebt die u wilt gebruiken in meerdere pijplijnen of notebooks in dezelfde pijplijn. Zie Python-modules importeren uit Git-mappen of werkruimtebestanden voor meer informatie over het gebruik van Python-modules met uw pijplijnen.