Het clustergebruik van Delta Live Tables-pijplijnen optimaliseren met verbeterde automatische schaalaanpassing

Artikel
10/31/2024

In dit artikel wordt beschreven hoe u verbeterde automatische schaalaanpassing kunt gebruiken om uw Delta Live Tables-pijplijnen te optimaliseren in Azure Databricks.

Verbeterde automatische schaalaanpassing is standaard ingeschakeld voor alle nieuwe pijplijnen.

Voor serverloze pijplijnen is verbeterde automatische schaalaanpassing altijd ingeschakeld en kan deze niet worden uitgeschakeld. Zie Een serverloze Delta Live Tables-pijplijn configureren.

Wat is verbeterde automatische schaalaanpassing?

Dankzij verbeterde automatische schaalaanpassing van Databricks wordt het clustergebruik geoptimaliseerd door clusterresources automatisch toe te wijzen op basis van het workloadvolume, met minimale gevolgen voor de latentie van gegevensverwerking van uw pijplijnen.

Verbeterde automatische schaalaanpassing verbetert de functionaliteit voor automatisch schalen van Azure Databricks-clusters met de volgende functies:

Verbeterde automatische schaalaanpassing implementeert optimalisatie van streamingworkloads en voegt verbeteringen toe om de prestaties van batchworkloads te verbeteren. Verbeterde automatische schaalaanpassing optimaliseert de kosten door machines toe te voegen of te verwijderen wanneer de workload verandert.
Verbeterde automatische schaalaanpassing sluit proactief onderbenutte knooppunten af en garandeert dat er tijdens het afsluiten geen mislukte taken zijn. Met de bestaande functie voor automatisch schalen van clusters worden alleen knooppunten omlaag geschaald als het knooppunt niet actief is.

Verbeterde automatische schaalaanpassing is de standaardmodus voor automatisch schalen wanneer u een nieuwe pijplijn maakt in de gebruikersinterface van Delta Live Tables. U kunt verbeterde automatische schaalaanpassing voor bestaande pijplijnen inschakelen door de pijplijninstellingen in de gebruikersinterface te bewerken. U kunt ook verbeterde automatische schaalaanpassing inschakelen wanneer u pijplijnen maakt of bewerkt met de Delta Live Tables-API.

Welke metrische gegevens gebruiken verbeterde automatische schaalaanpassing om een beslissing te nemen om omhoog of omlaag te schalen?

Verbeterde automatische schaalaanpassing maakt gebruik van twee metrische gegevens om te bepalen of u omhoog of omlaag kunt schalen:

Taaksitegebruik: Dit is de gemiddelde verhouding van het aantal bezet-taaksites tot het totale aantal taaksites dat beschikbaar is in het cluster.
Grootte van taakwachtrij: dit is het aantal taken dat moet worden uitgevoerd in taaksites.

Verbeterde automatische schaalaanpassing inschakelen voor een Delta Live Tables-pijplijn

Verbeterde automatische schaalaanpassing is de standaardmodus voor automatisch schalen wanneer u een nieuwe pijplijn maakt in de gebruikersinterface van Delta Live Tables. U kunt verbeterde automatische schaalaanpassing voor bestaande pijplijnen inschakelen door de pijplijninstellingen in de gebruikersinterface te bewerken. U kunt ook verbeterde automatische schaalaanpassing inschakelen wanneer u een pijplijn maakt of bewerkt met de Delta Live Tables-API.

Ga op een van de volgende manieren te werk om verbeterde automatische schaalaanpassing te gebruiken:

Stel de clustermodus in op Verbeterde automatische schaalaanpassing bij het maken of bewerken van een pijplijn in de gebruikersinterface van Delta Live Tables.
Voeg de autoscale instelling toe aan de configuratie van het pijplijncluster en stel het mode veld in op ENHANCED. Zie Compute configureren voor een Delta Live Tables-pijplijn.

Gebruik de volgende richtlijnen bij het configureren van verbeterde automatische schaalaanpassing voor productiepijplijnen:

Laat de Min workers instelling op de standaardwaarde staan.
Stel de Max workers instelling in op een waarde op basis van budget- en pijplijnprioriteit.

In het volgende voorbeeld wordt een uitgebreid cluster voor automatisch schalen geconfigureerd met minimaal 5 werkrollen en maximaal 10 werkrollen. max_workers moet groter zijn dan of gelijk zijn aan min_workers.

Notitie

Verbeterde automatische schaalaanpassing is alleen beschikbaar voor updates clusters. Verouderde automatische schaalaanpassing wordt gebruikt voor maintenance clusters.
De autoscale configuratie heeft twee modi:
- LEGACY: Automatische schaalaanpassing van clusters gebruiken.
- ENHANCED: Verbeterde automatische schaalaanpassing gebruiken.

{
  "clusters": [
    {
      "autoscale": {
        "min_workers": 5,
        "max_workers": 10,
        "mode": "ENHANCED"
      }
    }
  ]
}

Als de pijplijn is geconfigureerd voor continue uitvoering, wordt deze automatisch opnieuw opgestart nadat de configuratie voor automatisch schalen is gewijzigd. Na het opnieuw opstarten verwacht u een korte periode van verhoogde latentie. Na deze korte periode van verhoogde latentie moet de clustergrootte worden bijgewerkt op basis van uw autoscale configuratie en moet de pijplijnlatentie terugkeren naar de eerdere latentiekenmerken.

Beperk de kosten voor pijplijnen die gebruikmaken van verbeterde automatische schaalaanpassing

Notitie

U kunt geen werkrollen configureren voor serverloze pijplijnen.

Als u de parameter Max workers instelt in het deelvenster Berekening van pijplijnen, wordt een bovengrens ingesteld voor automatisch schalen. Het verminderen van het aantal beschikbare werkrollen kan de latentie voor sommige workloads verhogen, maar voorkomt dat de rekenresourcekosten pieken tijdens rekenintensieve bewerkingen.

Databricks raadt u aan de instellingen voor max.werkrollen af te stemmen op de balans tussen de kostenlatentie voor uw specifieke behoeften.

Het deelvenster Compute in de gebruikersinterface van pijplijnen, waar u het maximum aantal werkrollen voor automatisch schalen kunt instellen

Verbeterde automatische schaalaanpassing bewaken met klassieke pijplijnen

U kunt het gebeurtenislogboek in de gebruikersinterface van Delta Live Tables gebruiken om verbeterde metrische gegevens voor automatische schaalaanpassing voor klassieke pijplijnen te bewaken. Verbeterde gebeurtenissen voor automatisch schalen hebben het autoscale gebeurtenistype. Hier volgen voorbeelden van gebeurtenissen:

Gebeurtenis	Bericht
Aanvraag voor het wijzigen van het formaat van het cluster is gestart	`Scaling [up or down] to <y> executors from current cluster size of <x>`
Aanvraag voor het wijzigen van het formaat van het cluster is voltooid	`Achieved cluster size <x> for cluster <cluster-id> with status SUCCEEDED`
Het formaat van de aanvraag voor clustergrootte is gedeeltelijk voltooid	`Achieved cluster size <x> for cluster <cluster-id> with status PARTIALLY_SUCCEEDED`
Aanvraag voor clustergrootte is mislukt	`Achieved cluster size <x> for cluster <cluster-id> with status FAILED`

U kunt ook verbeterde gebeurtenissen voor automatisch schalen bekijken door rechtstreeks een query uit te voeren op het gebeurtenislogboek:

Als u een query wilt uitvoeren op het gebeurtenislogboek voor metrische gegevens over achterstand, raadpleegt u De gegevensachterstand bewaken door een query uit te voeren op het gebeurtenislogboek.
Zie Verbeterde gebeurtenissen voor automatisch schalen bewaken vanuit het gebeurtenislogboek voor pijplijnen zonder dat serverloos is ingeschakeld om het formaat van aanvragen en antwoorden van clusters te controleren tijdens uitgebreide bewerkingen voor automatisch schalen.

Delen via