Compute configureren voor een Delta Live Tables-pijplijn
Dit artikel bevat instructies en overwegingen bij het configureren van aangepaste rekeninstellingen voor Delta Live Tables-pijplijnen.
Serverloze pijplijnen bieden geen rekenconfiguratieopties. Zie Een serverloze Delta Live Tables-pijplijn configureren.
Een clusterbeleid selecteren
Gebruikers moeten gemachtigd zijn om compute te implementeren om Delta Live Tables-pijplijnen te configureren en bij te werken. Werkruimtebeheerders kunnen clusterbeleid configureren om gebruikers toegang te bieden tot rekenresources voor Delta Live Tables. Zie Limieten definiëren voor pijplijnreken van Delta Live Tables.
Notitie
Clusterbeleid is optioneel. Neem contact op met uw werkruimtebeheerder als u niet beschikt over de rekenbevoegdheden die vereist zijn voor Delta Live Tables.
Als u ervoor wilt zorgen dat de standaardwaarden van het clusterbeleid correct worden toegepast, stelt u deze in
apply_policy_default_values
true
op de clusterconfiguraties in uw pijplijnconfiguratie:{ "clusters": [ { "label": "default", "policy_id": "<policy-id>", "apply_policy_default_values": true } ] }
Clustertags configureren
U kunt clustertags gebruiken om het gebruik van uw pijplijnclusters te bewaken. Voeg clustertags toe in de gebruikersinterface van Delta Live Tables wanneer u een pijplijn maakt of bewerkt of door de JSON-instellingen voor uw pijplijnclusters te bewerken.
Instantietypen selecteren om een pijplijn uit te voeren
Delta Live Tables selecteert standaard de exemplaartypen voor het stuurprogramma en de werkknooppunten van uw pijplijn. U kunt desgewenst de exemplaartypen configureren.
Selecteer bijvoorbeeld exemplaartypen om de pijplijnprestaties te verbeteren of geheugenproblemen op te lossen bij het uitvoeren van uw pijplijn. U kunt exemplaartypen configureren wanneer u een pijplijn maakt of bewerkt met de REST API of in de gebruikersinterface van Delta Live Tables.
Instantietypen configureren wanneer u een pijplijn maakt of bewerkt in de gebruikersinterface van Delta Live Tables:
- Klik op de knop Instellingen .
- Selecteer in de sectie Geavanceerd van de pijplijninstellingen in de vervolgkeuzelijsten Werkrol en Stuurprogrammatype de instantietypen voor de pijplijn.
Geavanceerde rekenconfiguraties
Notitie
Omdat rekenresources volledig worden beheerd voor serverloze DLT-pijplijnen, zijn de rekeninstellingen niet beschikbaar wanneer u Serverloos voor een pijplijn selecteert.
Elke Delta Live Tables-pijplijn heeft twee gekoppelde clusters:
- Het
updates
cluster verwerkt pijplijnupdates. - Het
maintenance
cluster voert dagelijkse onderhoudstaken uit.
De rekeninstellingen die zijn opgegeven met behulp van de gebruikersinterface voor de configuratie van de werkruimtepijplijn, zijn van toepassing op zowel update- als onderhoudsclusters. U moet de JSON-configuratie bewerken om deze instellingen onafhankelijk te wijzigen.
De configuratie die door deze clusters wordt gebruikt, wordt bepaald door het clusters
kenmerk dat is opgegeven in uw pijplijninstellingen.
Met behulp van clusterlabels kunt u rekeninstellingen toevoegen die alleen van toepassing zijn op een specifiek clustertype. Er zijn drie labels die u kunt gebruiken bij het configureren van pijplijnclusters:
Notitie
De instelling voor het clusterlabel kan worden weggelaten als u slechts één clusterconfiguratie definieert. Het default
label wordt toegepast op clusterconfiguraties als er geen instelling voor het label wordt opgegeven. De clusterlabelinstelling is alleen vereist als u instellingen voor verschillende clustertypen moet aanpassen.
- Het
default
label definieert rekeninstellingen voor zowel de alsmaintenance
deupdates
clusters. Het toepassen van dezelfde instellingen op beide clusters verbetert de betrouwbaarheid van onderhoudsuitvoeringen door ervoor te zorgen dat vereiste configuraties, zoals referenties voor gegevenstoegang voor een opslaglocatie, worden toegepast op het onderhoudscluster. - Het
maintenance
label definieert rekeninstellingen die alleen van toepassing zijn op hetmaintenance
cluster. U kunt hetmaintenance
label ook gebruiken om instellingen te overschrijven die door hetdefault
label zijn geconfigureerd. - Het
updates
label definieert instellingen die alleen van toepassing zijn op hetupdates
cluster. Gebruik deze om instellingen te configureren die niet op hetmaintenance
cluster moeten worden toegepast.
Instellingen die zijn gedefinieerd met behulp van de default
labels, updates
worden samengevoegd om de uiteindelijke configuratie voor het updates
cluster te maken. Als dezelfde instelling wordt gedefinieerd met beide default
labels en updates
labels, overschrijft de instelling die is gedefinieerd met het updates
label de instelling die is gedefinieerd met het default
label.
In het volgende voorbeeld wordt een Spark-configuratieparameter gedefinieerd die alleen wordt toegevoegd aan de configuratie voor het updates
cluster:
{
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
},
{
"label": "updates",
"spark_conf": {
"key": "value"
}
}
]
}
Delta Live Tables heeft vergelijkbare opties voor clusterinstellingen als andere berekeningen in Azure Databricks. Net als bij andere pijplijninstellingen kunt u de JSON-configuratie voor clusters wijzigen om opties op te geven die niet aanwezig zijn in de gebruikersinterface. Zie Compute.
Notitie
Omdat de Delta Live Tables-runtime de levenscyclus van pijplijnclusters beheert en een aangepaste versie van Databricks Runtime uitvoert, kunt u sommige clusterinstellingen niet handmatig instellen in een pijplijnconfiguratie, zoals de Spark-versie of clusternamen. Zie Clusterkenmerken die geen gebruikerssettabel zijn.
Exemplaartypen configureren voor update- en onderhoudsclusters
Als u exemplaartypen in de JSON-instellingen van de pijplijn wilt configureren, klikt u op de JSON-knop en voert u de configuraties van het exemplaartype in de clusterconfiguratie in:
Notitie
Om te voorkomen dat onnodige resources aan het maintenance
cluster worden toegewezen, wordt in dit voorbeeld het updates
label gebruikt om alleen de exemplaartypen voor het updates
cluster in te stellen. Als u de instantietypen aan beide updates
en maintenance
clusters wilt toewijzen, gebruikt u het default
label of laat u de instelling voor het label weg. Het default
label wordt toegepast op configuraties van pijplijnclusters als er geen instelling voor het label is opgegeven. Zie Geavanceerde rekenconfiguraties.
{
"clusters": [
{
"label": "updates",
"node_type_id": "Standard_D12_v2",
"driver_node_type_id": "Standard_D3_v2",
"..." : "..."
}
]
}
Afsluiten van rekenproces vertragen
Als u het gedrag van het afsluiten van clusters wilt beheren, kunt u de ontwikkelings- of productiemodus gebruiken of de pipelines.clusterShutdown.delay
instelling in de pijplijnconfiguratie gebruiken. In het volgende voorbeeld wordt de pipelines.clusterShutdown.delay
waarde ingesteld op 60 seconden:
{
"configuration": {
"pipelines.clusterShutdown.delay": "60s"
}
}
Wanneer production
de modus is ingeschakeld, is pipelines.clusterShutdown.delay
de standaardwaarde voor 0 seconds
. Wanneer development
de modus is ingeschakeld, is 2 hours
de standaardwaarde.
Notitie
Omdat een Delta Live Tables-cluster automatisch wordt afgesloten wanneer dit niet wordt gebruikt, verwijst u naar een clusterbeleid dat in uw clusterconfiguratie wordt ingesteld autotermination_minutes
, tot een fout.
Een cluster met één knooppunt maken
Als u instelt op num_workers
0 in de clusterinstellingen, wordt het cluster gemaakt als een cluster met één knooppunt. Als u een cluster voor automatisch schalen configureert en instelt op min_workers
0 en max_workers
0, wordt een cluster met één knooppunt gemaakt.
Als u een cluster voor automatisch schalen configureert en alleen min_workers
op 0 instelt, wordt het cluster niet gemaakt als een cluster met één knooppunt. Het cluster heeft ten minste één actieve werkrol totdat deze wordt beëindigd.
Een voorbeeld van een clusterconfiguratie voor het maken van een cluster met één knooppunt in Delta Live Tables:
{
"clusters": [
{
"num_workers": 0
}
]
}