Een serverloze DLT-pijplijn configureren
In dit artikel worden configuraties beschreven voor serverloze DLT-pijplijnen.
Databricks raadt aan om nieuwe pijplijnen te ontwikkelen met serverless. Voor sommige workloads moet u mogelijk klassieke rekenkracht configureren of werken met de verouderde Hive-metastore. Zie Compute configureren voor een DLT-pijplijn en DLT-pijplijnen gebruiken met verouderde Hive-metastore.
Notitie
- Serverloze pijplijnen maken altijd gebruik van Unity Catalog. Unity Catalog voor DLT is in openbare preview en heeft enkele beperkingen. Zie Unity Catalog gebruiken met uw DLT-pijplijnen.
- Zie Serverloze rekenbeperkingenvoor serverloze rekenbeperkingen.
- U kunt geen rekeninstellingen handmatig toevoegen aan een
clusters
-object in de JSON-configuratie voor een serverloze pijplijn. Als u dit probeert, treedt er een fout op.
- Als u een Azure Private Link-verbinding met uw serverloze DLT-pijplijnen wilt gebruiken, neemt u contact op met uw Databricks-vertegenwoordiger.
Eisen
- Voor uw werkruimte moet Unity Catalog zijn ingeschakeld om serverloze pijplijnen te kunnen gebruiken.
- Uw werkruimte moet zich in een regio met serverloze functionaliteit bevinden.
Aanbevolen configuratie voor serverloze pijplijnen
Belangrijk
Machtiging voor het maken van clusters is niet vereist voor het configureren van serverloze pijplijnen. Standaard kunnen alle werkruimtegebruikers serverloze pijplijnen gebruiken.
Serverloze pijplijnen verwijderen de meeste configuratieopties, omdat Azure Databricks alle infrastructuur beheert. Ga als volgt te werk om een serverloze pijplijn te configureren:
- Klik op DLT- in de zijbalk.
- Klik op Pijplijn maken.
- Geef een unieke pijplijnnaam op.
- Vink het selectievakje naast serverlozeaan.
- (Optioneel) Gebruik het
om notitieblokken en werkruimtebestanden te configureren als broncode.
- Als u geen broncode toevoegt, wordt er een nieuw notebook gemaakt voor de pijplijn. Het notitieblok wordt gemaakt in een nieuwe map in uw gebruikersmap en er wordt een koppeling voor toegang tot dit notitieblok weergegeven in het veld broncode in het deelvenster Pijplijndetails deelvenster nadat u de pijplijn hebt gemaakt.
- Er is een koppeling voor toegang tot dit notitieblok beschikbaar in het veld broncode in het deelvenster Pijplijndetails nadat u de pijplijn hebt gemaakt.
- Gebruik de knop Broncode toevoegen om extra broncodeassets toe te voegen.
- Als u geen broncode toevoegt, wordt er een nieuw notebook gemaakt voor de pijplijn. Het notitieblok wordt gemaakt in een nieuwe map in uw gebruikersmap en er wordt een koppeling voor toegang tot dit notitieblok weergegeven in het veld broncode in het deelvenster Pijplijndetails deelvenster nadat u de pijplijn hebt gemaakt.
- Selecteer een Catalogus om gegevens te publiceren.
- Selecteer een -schema in de catalogus. Alle streamingtabellen en gerealiseerde weergaven die in de pijplijn zijn gedefinieerd, worden in dit schema gemaakt.
- Klik op maken.
Met deze aanbevolen configuraties maakt u een nieuwe pijplijn die is geconfigureerd voor uitvoering in geactiveerde modus en het huidige-kanaal. Deze configuratie wordt aanbevolen voor veel gebruiksvoorbeelden, waaronder ontwikkeling en testen, en is geschikt voor productieworkloads die volgens een planning moeten worden uitgevoerd. Zie DLT-pijplijntaak voor takenvoor meer informatie over het plannen van pijplijnen.
U kunt ook bestaande pijplijnen die zijn geconfigureerd met Unity Catalog converteren om serverloos te gebruiken. Zie Een bestaande pijplijn converteren om serverlozete gebruiken.
Andere configuratieoverwegingen
De volgende configuratieopties zijn ook beschikbaar voor serverloze pijplijnen:
- U kunt ervoor kiezen om de continue pijplijnmodus te gebruiken bij het uitvoeren van processen in productie. Zie getriggerde versus continue modus van de pijplijn.
- Voeg Meldingen toe voor e-mailupdates op basis van succes- of faalcondities. Zie E-mailmeldingen toevoegen voor pijplijn gebeurtenissen.
- Gebruik het veld Configuration om sleutel-waardeparen in te stellen voor de pijplijn. Deze configuraties dienen twee doeleinden:
- Stel willekeurige parameters in waarnaar u in uw broncode kunt verwijzen. Zie Gebruik parameters met DLT-pijplijnen.
- Configureer pijplijninstellingen en Spark-configuraties. Zie de DLT-eigenschappentabel bij.
- Gebruik het Preview--kanaal om uw pijplijn te testen op wachtende DLT-runtimewijzigingen en nieuwe functies te testen.
budgetbeleid
Belangrijk
Deze functie bevindt zich in openbare preview-versie.
Met budgetbeleid kan uw organisatie aangepaste tags toepassen op serverloos gebruik voor gedetailleerde factureringstoewijzing. Nadat u het selectievakje Serverless hebt ingeschakeld, wordt de instelling voor budgetbeleid weergegeven, waar u het beleid kunt selecteren dat u wilt toepassen op de pijplijn. De tags worden overgenomen van het budgetbeleid en kunnen alleen worden bewerkt door werkruimtebeheerders.
Notitie
Nadat u een budgetbeleid hebt toegewezen, worden uw bestaande pijplijnen niet automatisch gelabeld met uw beleid. U moet bestaande pijplijnen handmatig bijwerken als u een beleid aan deze pijplijnen wilt koppelen.
Zie het attribueren van serverloos gebruik met budgetbeleidvoor meer informatie over budgetbeleid.
Serverloze pijplijnfuncties
Naast het vereenvoudigen van de configuratie hebben serverloze pijplijnen de volgende functies:
- Incrementele vernieuwing voor gematerialiseerde weergaven: Updates voor gematerialiseerde weergaven worden indien mogelijk incrementeel vernieuwd. Incrementeel vernieuwen heeft dezelfde resultaten als volledige hercomputatie. De update maakt gebruik van een volledige vernieuwing als de resultaten niet incrementeel kunnen worden berekend. Zie Incrementeel vernieuwen voor gerealiseerde weergaven.
- Pijplijning van stromen: om het gebruik, de doorvoer en de latentie voor werkbelastingen voor streaminggegevens, zoals gegevensopname, te verbeteren, worden microbatches pijplijn. Met andere woorden, in plaats van microbatches opeenvolgend uit te voeren, zoals standaard Spark Structured Streaming, worden serverloze DLT-pijplijnen gelijktijdig microbatches uitgevoerd, waardoor het gebruik van rekenresources wordt verbeterd. Stream pipelining is standaard ingeschakeld in serverloze DLT-pijplijnen.
- verticale automatische schaalaanpassing: serverloze DLT-pijplijnen worden toegevoegd aan de horizontale automatische schaalaanpassing die door Databricks wordt geleverd door verbeterde automatische schaalaanpassing door automatisch de meest kostenefficiƫnte exemplaartypen toe te wijzen die uw DLT-pijplijn kunnen uitvoeren zonder dat er fouten optreden vanwege fouten in het geheugen. Zie Wat is verticaal automatisch schalen?
Wat is verticale automatische schaalaanpassing?
Serverless DLT-pijplijnen benutten automatische verticale schaalvergroting om automatisch de meest kostenefficiƫnte beschikbare exemplaartypen toe te wijzen, zodat uw DLT-pijplijnupdates kunnen worden uitgevoerd zonder te falen door onvoldoende geheugencapaciteit. Verticaal automatisch schalen schaalt op wanneer grotere instantietypen nodig zijn om een pijplijnupdate uit te voeren en schaalt ook af wanneer wordt vastgesteld dat de update kan worden uitgevoerd met kleinere instantietypen. Verticale automatische schaalaanpassing bepaalt of stuurprogrammaknooppunten, werkknooppunten of zowel stuurprogramma- als werkknooppunten omhoog of omlaag moeten worden geschaald.
Verticale automatische schaalaanpassing wordt gebruikt voor alle serverloze DLT-pijplijnen, inclusief pijplijnen die door Databricks SQL gerealiseerde weergaven en streamingtabellen worden gebruikt.
Verticale automatische schaalaanpassing werkt door pijplijnupdates te detecteren die zijn mislukt vanwege geheugenfouten. Verticale automatische schaalaanpassing wijst grotere instantietypen toe wanneer deze fouten worden gedetecteerd op basis van de onvoldoende geheugengegevens die zijn verzameld uit de mislukte update. In de productiemodus wordt automatisch een nieuwe update gestart die gebruikmaakt van de nieuwe rekenresources. In de ontwikkelingsmodus worden de nieuwe rekenresources gebruikt wanneer u handmatig een nieuwe update start.
Als bij verticaal automatisch schalen wordt gedetecteerd dat het geheugen van de toegewezen exemplaren consistent onderbenut is, worden de exemplaartypen omlaag geschaald voor gebruik in de volgende pijplijnupdate.
een bestaande pijplijn converteren om serverloos te gebruiken
U kunt bestaande pijplijnen die zijn geconfigureerd met Unity Catalog, converteren naar serverloze pijplijnen. Voer de volgende stappen uit:
- Klik op DLT- in de zijbalk.
- Klik op de naam van de gewenste pijplijn in de lijst.
- Klik op Instellingen.
- Vink het selectievakje aan naast serverloze.
- Klik op Opslaan en start.
Belangrijk
Wanneer u serverloos inschakelt, worden alle rekeninstellingen die u voor een pijplijn hebt geconfigureerd, verwijderd. Als u een pijplijn terugzet naar niet-serverloze updates, moet u de gewenste rekeninstellingen opnieuw configureren voor de pijplijnconfiguratie.
Hoe vind ik het DBU-gebruik van een serverloze pijplijn?
U vindt het DBU-gebruik van serverloze DLT-pijplijnen door een query uit te voeren op de factureerbare gebruikstabellen, onderdeel van de Azure Databricks-systeemtabellen. Zie Wat is het DBU-verbruik van een serverloze DLT-pijplijn?.