Uitvoering van adaptieve queries

Artikel
03/11/2025

Adaptieve queryuitvoering (AQE) is het opnieuw optimaliseren van query's die plaatsvinden tijdens het uitvoeren van query's.

De motivatie voor het opnieuw optimaliseren van runtimes is dat Azure Databricks de meest up-tonauwkeurige statistieken heeft aan het einde van een shuffle- en broadcast-uitwisseling (ook wel een queryfase in AQE genoemd). Als gevolg hiervan kan Azure Databricks kiezen voor een betere fysieke strategie, een optimale partitiegrootte en -aantal na de shuffle kiezen, of optimalisaties uitvoeren die voorheen hints vereisten, zoals bijvoorbeeld scheve join-afhandeling.

Dit kan zeer nuttig zijn wanneer het verzamelen van statistieken niet is ingeschakeld of wanneer statistieken verouderd zijn. Het is ook handig op plaatsen waar statisch afgeleide statistieken onnauwkeurig zijn, zoals in het midden van een gecompliceerde query of na het voorkomen van scheeftrekken van gegevens.

Mogelijkheden

AQE is standaard ingeschakeld. Het heeft vier belangrijke functies:

Wijzigt dynamisch de samenvoegbewerking in een broadcast-hash-join.
Partities worden dynamisch samengevoegd (kleine partities combineren tot een redelijk formaat) na een shuffle-uitwisseling. Zeer kleine taken hebben slechtere I/O-doorvoer en hebben meestal meer last van planningsoverhead en overhead voor het instellen van taken. Door kleine taken te combineren, bespaart men middelen en verbetert men de doorvoer van het cluster.
Verwerkt dynamisch scheefheid in sort merge-join en shuffle hash-join door scheefgetrokken taken te splitsen (en indien nodig te repliceren) in ongeveer even grote taken.
Automatisch worden lege relaties gedetecteerd en doorgegeven.

Toepassing

AQE is van toepassing op alle query's die:

Niet-streaming
Bevatten ten minste één uitwisseling (meestal wanneer er een join, aggregaat of venster is), één subquery of beide.

Niet alle AQE-toegepaste query's zijn noodzakelijkerwijs opnieuw geoptimaliseerd. De heroptimalisatie kan al dan niet een ander queryplan opleveren dan het plan dat statisch is gecompileerd. Als u wilt bepalen of het plan van een query is gewijzigd door AQE, raadpleegt u de volgende sectie, Query-plannen.

Queryplannen

In deze sectie wordt beschreven hoe u queryplannen op verschillende manieren kunt onderzoeken.

Spark-gebruikersinterface

`AdaptiveSparkPlan` knooppunt

AQE-toegepaste queries bevatten een of meerdere AdaptiveSparkPlan knooppunten, meestal als de hoofdnode van elke hoofdquery of subquery. Voordat de query wordt uitgevoerd of wanneer deze wordt uitgevoerd, wordt de isFinalPlan vlag van het bijbehorende AdaptiveSparkPlan knooppunt weergegeven als false; nadat de uitvoering van de query is voltooid, verandert de isFinalPlan vlag in true.

Evoluerend plan

Het queryplandiagram ontwikkelt zich naarmate de uitvoering vordert en weerspiegelt het meest recente plan dat wordt uitgevoerd. Knooppunten die al zijn uitgevoerd (waarin metrische gegevens beschikbaar zijn) zullen niet veranderen, maar knooppunten die nog niet zijn uitgevoerd, kunnen na verloop van tijd veranderen als gevolg van heroptimalisaties.

Hier volgt een voorbeeld van een queryplandiagram:

queryplan diagram

`DataFrame.explain()`

`AdaptiveSparkPlan` knooppunt

AQE-toegepaste queries bevatten een of meer AdaptiveSparkPlan-knooppunten, meestal als het hoofdknooppunt van elke hoofdquery of subquery. Voordat de query wordt uitgevoerd of wanneer deze wordt uitgevoerd, wordt de isFinalPlan vlag van het bijbehorende AdaptiveSparkPlan knooppunt weergegeven als false; Nadat de uitvoering van de query is voltooid, wordt de vlag isFinalPlan gewijzigd in true.

Huidig en eerste plan

Onder elk AdaptiveSparkPlan knooppunt zijn er zowel het eerste plan (het plan voordat AQE-optimalisaties worden toegepast) als het huidige of het uiteindelijke plan, afhankelijk van of de uitvoering is voltooid. Het huidige plan zal zich ontwikkelen naarmate de uitvoering vordert.

Runtimestatistieken

Elke shuffle- en broadcastfase bevat gegevensstatistieken.

Voordat de fase begint of wanneer de fase in uitvoering is, zijn de statistieken samensteltijdinschattingen, en is de vlag isRuntimefalse, bijvoorbeeld: Statistics(sizeInBytes=1024.0 KiB, rowCount=4, isRuntime=false);

Nadat de uitvoering van de fase is voltooid, worden de statistieken verzameld tijdens runtime en wordt de vlag isRuntimetrue, bijvoorbeeld: Statistics(sizeInBytes=658.1 KiB, rowCount=2.81E+4, isRuntime=true)

Hier volgt een DataFrame.explain voorbeeld:

Vóór de uitvoering
Tijdens de uitvoering
Na de uitvoering

`SQL EXPLAIN`

`AdaptiveSparkPlan` knooppunt

AQE-toegepaste queries bevatten een of meer AdaptiveSparkPlan-knooppunten, meestal als hoofdknooppunt van elke hoofdquery of subquery.

Geen huidig abonnement

Omdat SQL EXPLAIN de query niet uitvoert, is het huidige plan altijd hetzelfde als het oorspronkelijke plan en wordt niet weergegeven wat uiteindelijk door AQE wordt uitgevoerd.

Hier volgt een voorbeeld van een SQL-uitleg:

SQL uitleggen

Effectiviteit

Het queryplan wordt gewijzigd als een of meer AQE-optimalisaties van kracht worden. Het effect van deze AQE-optimalisaties wordt gedemonstreerd door het verschil tussen de huidige en definitieve plannen en het eerste plan en specifieke planknooppunten in de huidige en definitieve plannen.

De samenvoeg-sortering dynamisch wijzigen in een uitzend-hash-join: verschillende fysieke samenvoegknooppunten tussen het huidige of definitieve plan en het beginplan.
Partities dynamisch samenvoegen: knooppunt CustomShuffleReader met eigenschap Coalesced
Scheve join dynamisch verwerken: knooppunt SortMergeJoin met veld isSkew als waar.
Lege relaties dynamisch detecteren en doorgeven: een deel van (of het gehele) plan wordt vervangen door de LocalTableScan-knoop, waarbij het relationele veld leeg is.