OPTIMIZE

發行項
03/26/2025

適用於： 勾選是 Databricks SQL Databricks Runtime

優化 Delta Lake 數據的版面配置。選擇性地優化資料子集或按欄排列資料。如果您未指定搭配，且數據表未使用動態叢集定義，則會執行裝箱優化策略。

語法

OPTIMIZE table_name [FULL] [WHERE predicate]
  [ZORDER BY (col_name1 [, ...] ) ]

注意

箱子裝填優化是冪等的，這表示如果在相同的數據集上執行兩次，第二次執行不會產生任何影響。其目標是在磁碟上產生大小平均平衡的資料檔，但不一定是每個檔案的元組數目。不過，這兩個量值最常相互關聯。
Z 排序 不是冪等的 ，而是旨在作為增量操作。 Z 排序所需的時間無法保證在多次執行中能夠減少。不過，如果未將任何新數據新增至只是 Z 排序的數據分割，該數據分割的另一個 Z 排序將不會有任何作用。其目標是針對 Tuple 數目產生平均平衡的數據檔，但不一定是磁碟上的數據大小。這兩個量值最常相互關聯，但在某些情況下，情況並非如此，導致優化工作時間發生扭曲。

注意

使用 Databricks Runtime 時，若要控制輸出檔案大小，請設定 Spark 組態spark.databricks.delta.optimize.maxFileSize。默認值為 1073741824，其會將大小設定為1 GB。指定值 104857600 會將檔案大小設定為 100 MB。

參數

table_name

識別現有的 Delta 數據表。名稱不得包含時態規格或選項規格。
FULL

適用於： Databricks Runtime 16.0 及更新版本

優化整個數據表，包括先前可能已叢集的數據。這個子句只能針對使用液體群集的數據表指定。
WHERE

優化符合指定數據分割述詞的數據列子集。僅支援涉及分割區索引鍵屬性的篩選。

您無法在使用液體集群的數據表中套用此子句。
ZORDER BY

在同一組檔案中整理欄位資訊。 Delta Lake 數據略過演算法會使用共同位置，大幅減少需要讀取的數據量。您可以將多個欄指定給 ZORDER BY，並以逗號分隔來列出。不過，當有更多額外的列時，局部性的有效性會降低。

您無法在使用液體集群的數據表中套用此子句。

範例

> OPTIMIZE events;

> OPTIMIZE events FULL;

> OPTIMIZE events WHERE date >= '2017-01-01';

> OPTIMIZE events
    WHERE date >= current_timestamp() - INTERVAL 1 day
    ZORDER BY (eventType);

如需 OPTIMIZE 命令的詳細資訊，請參閱優化資料檔設定。

共用方式為

OPTIMIZE

語法

參數

範例

意見反應

其他資源