自適性查詢執行

發行項
03/11/2025

自適性查詢執行（AQE）是在查詢執行期間進行的查詢再優化。

運行時間重新優化的動機是，Azure Databricks 在洗牌和廣播交換結束時擁有最 up-to日期準確的統計數據（稱為 AQE 中的查詢階段）。因此，Azure Databricks 可以選擇更好的實體策略，挑選最佳的重新洗牌後的分割大小和數量，或執行原本需要提示才能進行的優化，例如偏斜聯接處理。

當統計數據集合未開啟或統計數據過時時，這非常有用。在靜態衍生統計數據不正確的地方也很有用，例如在複雜的查詢中間，或在發生數據扭曲之後。

能力

預設會啟用 AQE。它有 4 個主要功能：

動態變更將合併聯結排序為廣播哈希聯結。
隨機交換后，動態合併分割區（將小型分割區合併成合理大小的分割區）。非常小型的任務具有較差的 I/O 輸送量，並且往往因排程開銷和任務設置開銷而受到更多影響。結合小型工作可節省資源並改善叢集輸送量。
動態處理排序合併聯接和洗牌哈希聯接中的偏斜，方法是將具有偏斜的任務分割成大致均等大小的任務（必要時亦可複製）。
動態偵測並傳播空的關聯項。

應用

AQE 適用於下列所有查詢：

非串流
包含至少一個交換（通常在有聯結、匯總或視窗的情況下），或者包含一個子查詢，或兩者皆有。

並非所有 AQE 套用的查詢都必須重新優化。重新優化可能會或可能不會生成與靜態編譯不同的查詢計劃。若要判斷 AQE 是否已變更查詢的計劃，請參閱下一節，查詢計劃。

查詢計劃

本節討論如何以不同方式檢查查詢計劃。

Spark UI

`AdaptiveSparkPlan` 節點

AQE 套用的查詢包含一或多個 AdaptiveSparkPlan 節點，通常是每個主要查詢或子查詢的根節點。在查詢執行或執行之前，對應的 AdaptiveSparkPlan 節點 isFinalPlan 旗標會顯示為 false;查詢執行完成之後，isFinalPlan 旗標會變更為 true.

不斷演進的計劃

查詢計劃圖表會隨著執行進度而演進，並反映正在執行的最新計劃。已經執行的節點（其中可用的計量）不會變化，但未執行的節點可能會隨著時間因重新優化而改變。

以下是查詢計劃圖表範例：

查詢計劃圖表

`DataFrame.explain()`

`AdaptiveSparkPlan` 節點

AQE 套用的查詢包含一或多個 AdaptiveSparkPlan 節點，通常是每個主要查詢或子查詢的根節點。在查詢執行或執行之前，對應的 AdaptiveSparkPlan 節點 isFinalPlan 旗標會顯示為 false;查詢執行完成之後，isFinalPlan 旗標會變更為 true。

目前和初始計劃

在每個 AdaptiveSparkPlan 節點下，將會有初始計劃（套用任何 AQE 優化之前的計劃）和目前或最終計劃，視執行是否已完成而定。目前的計劃會隨著執行進度而發展。

運行時間統計數據

每個洗牌和廣播階段都包含數據統計。

在階段執行之前或執行期間，統計數據是編譯時間估計值，而標記 isRuntime 是 false，例如：Statistics(sizeInBytes=1024.0 KiB, rowCount=4, isRuntime=false);

階段執行完成之後，統計數據會在運行時間收集，而旗標 isRuntime 會變成 true，例如：Statistics(sizeInBytes=658.1 KiB, rowCount=2.81E+4, isRuntime=true)

以下是 DataFrame.explain 範例：

執行之前

執行前
執行期間

執行期間
執行之後

執行後

`SQL EXPLAIN`

`AdaptiveSparkPlan` 節點

AQE 套用的查詢包含一或多個 AdaptiveSparkPlan 節點，通常是每個主要查詢或子查詢的根節點。

沒有目前的方案

由於 SQL EXPLAIN 不會執行查詢，目前的計劃一律與初始計劃相同，而且不會反映 AQE 最終會執行的專案。

以下是 SQL 說明範例：

SQL 說明

有效性

如果一或多個 AQE 優化生效，查詢計劃將會變更。這些 AQE 優化的效果會以目前和最終計劃與初始計劃與目前和最終方案中的特定計劃節點之間的差異來示範。

動態變更排序合併聯結成廣播哈希聯結：目前/最終計劃與初始計劃之間的不同實體聯結節點
具有屬性 Coalesced 的節點 CustomShuffleReader：動態合併分區
動態處理扭曲聯結：節點 SortMergeJoin，字段 isSkew 為 true。
動態偵測和傳播空關聯：計劃的部分或全部將由節點 LocalTableScan 取代，且其關聯欄位為空。