Rekenproces configureren voor taken
Dit artikel bevat aanbevelingen en resources voor het configureren van rekenkracht voor Databricks-taken.
Belangrijk
Beperkingen voor serverloze berekeningen voor taken zijn onder andere:
- Geen ondersteuning voor continue planning.
- Geen ondersteuning voor standaard- of tijdgebaseerde intervaltriggers in Structured Streaming.
Zie Serverloze rekenbeperkingen voor meer beperkingen.
Elke taak kan een of meer taken hebben. U definieert rekenresources voor elke taak. Meerdere taken die voor dezelfde taak zijn gedefinieerd, kunnen dezelfde rekenresource gebruiken.
Wat is de aanbevolen berekening voor elke taak?
De volgende tabel geeft de aanbevolen en ondersteunde rekentypen voor elk taaktype aan.
Notitie
Serverloze rekenkracht voor taken heeft beperkingen en biedt geen ondersteuning voor alle workloads. Zie beperkingen voor serverloze berekeningen.
Opdracht | Aanbevolen rekenkracht | Ondersteunde berekeningen |
---|---|---|
Notebooks | Serverloze taken | Serverloze taken, klassieke taken, klassieke all-purpose |
Python-script | Serverloze taken | Serverloze taken, klassieke taken, klassieke all-purpose |
Python-wiel | Serverloze taken | Serverloze taken, klassieke taken, klassieke all-purpose |
SQL | Serverloze SQL Warehouse | Serverloze SQL Warehouse, pro SQL Warehouse |
Delta Live Tables-pijplijn | Serverloze pijplijn | Serverloze pijplijn, klassieke pijplijn |
dbt | Serverloze SQL Warehouse | Serverloze SQL Warehouse, pro SQL Warehouse |
DBT CLI-opdrachten | Serverloze taken | Serverloze taken, klassieke taken, klassieke all-purpose |
JAR | Klassieke taken | Klassieke taken, klassiek all-purpose |
Spark Submit | Klassieke taken | Klassieke taken |
Prijzen voor taken zijn gekoppeld aan de berekening die wordt gebruikt voor het uitvoeren van taken. Zie De prijzen van Databricks voor meer informatie.
Hoe kan ik rekenkracht configureren voor taken?
Het berekenen van klassieke taken wordt rechtstreeks vanuit de gebruikersinterface van Databricks-taken geconfigureerd en deze configuraties maken deel uit van de taakdefinitie. Alle andere beschikbare rekentypen slaan hun configuraties op met andere werkruimteactiva. De volgende tabel bevat meer informatie:
Rekentype | DETAILS |
---|---|
Klassieke taken berekenen | U configureert rekenkracht voor klassieke taken met dezelfde gebruikersinterface en instellingen die beschikbaar zijn voor rekendoeleinden voor alle doeleinden. Raadpleeg de referentie voor compute-configuratie. |
Serverloze rekenkracht voor taken | Serverloze berekening voor taken is de standaardinstelling voor alle taken die deze ondersteunen. Databricks beheert rekeninstellingen voor serverloze berekeningen. Zie Uw Azure Databricks-taak uitvoeren met serverloze berekeningen voor werkstromen. nn A workspace admin must enable serverless compute for this option to bevisible. Zie Serverloze berekening inschakelen. |
SQL-magazijnen | Serverloze en pro SQL-warehouses worden geconfigureerd door werkruimtebeheerders of gebruikers met onbeperkte bevoegdheden voor het maken van clusters. U configureert taken die moeten worden uitgevoerd op bestaande SQL-warehouses. Zie Verbinding maken met een SQL-warehouse. |
Pijplijnreken van Delta Live Tables | U configureert rekeninstellingen voor Delta Live Tables-pijplijnen tijdens de pijplijnconfiguratie. Zie Rekenkracht configureren voor een Delta Live Tables-pijplijn. nn Azure Databricks beheert rekenresources voor serverloze Delta Live Tables-pijplijnen. Zie Een serverloze Delta Live Tables-pijplijn configureren. |
Rekenproces voor alle doeleinden | U kunt desgewenst taken configureren met behulp van klassieke berekeningen voor alle doeleinden. Databricks raadt deze configuratie niet aan voor productietaken. Zie De referentie voor de compute-configuratie en moet er ooit rekenkracht voor alle doeleinden worden gebruikt voor taken?. |
Rekenkracht delen tussen taken
Configureer taken om dezelfde rekenresources van werk te gebruiken om het resourcegebruik te optimaliseren met werk dat meerdere taken coördineert. Het delen van rekenkracht over taken kan de latentie verminderen die is gekoppeld aan opstarttijden.
U kunt één taakresource gebruiken om alle taken uit te voeren die deel uitmaken van de taak of meerdere taakresources die zijn geoptimaliseerd voor specifieke workloads. Elke taak die is geconfigureerd als onderdeel van een taak, is beschikbaar voor alle andere taken in de taak.
In de volgende tabel worden de verschillen benadrukt tussen rekenkracht die geconfigureerd is voor één taak en rekenkracht die gedeeld wordt tussen taken.
Eén taak | Gedeeld tussen taken | |
---|---|---|
Begin | Wanneer de taak wordt uitgevoerd. | Wanneer de eerste taak wordt uitgevoerd die is geconfigureerd om de rekenresource te gebruiken, begint. |
Terminate | Nadat de taak is uitgevoerd. | Nadat de laatste taak is geconfigureerd voor het gebruik van de rekenresource wordt uitgevoerd. |
Niet-actieve rekenkracht | Niet van toepassing. | Berekening blijft ingeschakeld en niet actief terwijl taken die geen gebruikmaken van de uitvoering van de rekenresource. |
Een gedeeld taakcluster is gericht op één taakuitvoering en kan niet worden gebruikt door andere taken of uitvoeringen van dezelfde taak.
Bibliotheken kunnen niet worden gedeclareerd in een configuratie van een gedeeld taakcluster. U moet afhankelijke bibliotheken toevoegen in taakinstellingen.
Compute voor taken controleren, configureren en wisselen
De sectie Compute in het deelvenster Taakdetails bevat alle berekeningen die zijn geconfigureerd voor taken in de huidige taak.
Taken die zijn geconfigureerd voor het gebruik van een rekenresource, worden gemarkeerd in de taakgrafiek wanneer u de muisaanwijzer boven de berekeningsspecificatie beweegt.
Gebruik de knop Wisselen om de berekening te wijzigen voor alle taken die zijn gekoppeld aan een rekenresource.
Rekenresources voor klassieke taken hebben een optie Configureren . Andere rekenresources bieden u opties om details van de rekenconfiguratie weer te geven en te wijzigen.
Aanbevelingen voor het configureren van klassieke taken berekenen
Deze sectie is gericht op algemene aanbevelingen over functies en configuraties die kunnen profiteren van bepaalde werkstromen. Specifieke aanbevelingen voor het configureren van de grootte en typen rekenresources variëren op basis van de workload.
Databricks raadt aan Photon Acceleration in te schakelen, recente Databricks Runtime-versies te gebruiken en rekenkracht te gebruiken die is geconfigureerd voor Unity Catalog.
Serverloze berekening voor taken beheert alle infrastructuur, waardoor de volgende overwegingen worden geëlimineerd. Zie Uw Azure Databricks-taak uitvoeren met serverloze berekeningen voor werkstromen.
Notitie
Gestructureerde streamingwerkstromen hebben specifieke aanbevelingen. Zie Overwegingen voor productie voor gestructureerd streamen.
Modus voor gedeelde toegang gebruiken
Databricks raadt aan om de modus voor gedeelde toegang te gebruiken voor taken. Zie Access-modi.
Notitie
De modus voor gedeelde toegang biedt geen ondersteuning voor sommige workloads en functies. Databricks raadt de toegangsmodus voor één gebruiker aan voor deze workloads. Zie beperkingen voor de compute-toegangsmodus voor Unity Catalog-.
Clusterbeleid gebruiken
Databricks raadt aan dat werkruimtebeheerders clusterbeleid voor taken definiëren en dit beleid afdwingen voor alle gebruikers die taken configureren.
Met clusterbeleid kunnen werkruimtebeheerders kostenbeheer instellen en de configuratieopties van gebruikers beperken. Zie Rekenbeleid maken en beheren voor meer informatie over het configureren van clusterbeleid.
Azure Databricks biedt een standaardbeleid dat is geconfigureerd voor taken. Beheerders kunnen dit beleid beschikbaar maken voor andere werkruimtegebruikers. Zie Taak berekenen.
Automatische schaalaanpassing gebruiken
Stel het automatisch schalen zo in dat langdurige taken werkknooppunten dynamisch kunnen toevoegen en verwijderen tijdens het uitvoeren van de taken. Bekijk automatisch schalen inschakelen.
Een pool gebruiken om de begintijden van het cluster te verminderen
Met rekengroepen kunt u rekenresources reserveren van uw cloudprovider. Pools zijn nuttig om de begintijd van het nieuwe taakcluster te verlagen en ervoor te zorgen dat de beschikbaarheid van rekenresources wordt gegarandeerd. Raadpleeg de naslaginformatie voor de poolconfiguratie.
Spot-exemplaren gebruiken
Stel spot-instanties in voor workloads met minder strikte latentievereisten om de kosten te optimaliseren. Zie Spot-exemplaren.
Moet berekening voor alle doeleinden ooit worden gebruikt voor taken?
Er zijn talloze redenen waarom Databricks het gebruik van rekenkracht voor alle doeleinden voor taken aanbeveelt, waaronder de volgende:
- Azure Databricks factureert voor berekeningen voor alle doeleinden met een ander tarief dan het berekenen van taken.
- Het berekenen van taken wordt automatisch beëindigd nadat een taakuitvoering is voltooid. Compute voor alle doeleinden ondersteunt automatische beëindiging, die is gekoppeld aan inactiviteit in plaats van het einde van een taakuitvoering.
- Berekeningen voor alle doeleinden worden vaak gedeeld tussen teams van gebruikers. Taken die zijn gepland op basis van berekeningen voor alle doeleinden, hebben vaak een verhoogde latentie vanwege concurrentie voor rekenresources.
- Veel aanbevelingen voor het optimaliseren van de rekenconfiguratie van taken zijn niet geschikt voor het type ad-hocquery's en interactieve workloads die worden uitgevoerd op rekenprocessen voor alle doeleinden.
Hier volgen gebruiksscenario's waarin u ervoor kunt kiezen om berekeningen voor alle doeleinden te gebruiken voor taken:
- U bent iteratief bezig met het ontwikkelen of testen van nieuwe taken. Opstarttijden voor het berekenen van taken kunnen iteratieve ontwikkeling tijdrovend maken. Met berekeningen voor alle doeleinden kunt u wijzigingen toepassen en uw taak snel uitvoeren.
- U hebt kortstondige taken die regelmatig of volgens een specifiek schema moeten worden uitgevoerd. Er is geen opstarttijd gekoppeld aan de momenteel uitgevoerde berekening voor alle doeleinden. Houd rekening met kosten die zijn gekoppeld aan niet-actieve tijd als u dit patroon gebruikt.
Serverloze berekening voor taken is de aanbevolen vervanging voor de meeste taaktypen die u kunt uitvoeren op alle rekendoeleinden.