動的ファイルの整理
動的ファイルの排除により、Delta Lake テーブルに対する多くのクエリのパフォーマンスが大幅に向上する可能性があります。 フィルター ステートメントまたは WHERE
句を含むクエリの動的ファイル排除トリガー。 Photon対応のコンピューティングを使用して、MERGE
、UPDATE
、および DELETE
ステートメントで動的ファイルプルーニングを行う必要があります。 Photon が使用されていない場合は、SELECT
ステートメントのみが動的ファイル排除を利用します。
動的ファイルの排除は、パーティション分割されていないテーブルや、パーティション分割されていない列での結合の場合に特に効率的です。 動的なファイルの排除のパフォーマンスへの影響は、データのクラスタリングに関連していることが多いため、メリットを最大にするには Z オーダーの使用を検討します。
動的なファイルの排除の背景と使用例については、「動的なファイルの排除を使用した Delta Lake での SQL クエリの高速化」を参照してください。
設定
動的なファイルの排除は、次の Apache Spark 構成オプションで制御されます。
-
spark.databricks.optimizer.dynamicFilePruning
(既定値はtrue
): フィルターをプッシュ ダウンするようオプティマイザーに指示するメイン フラグです。false
に設定すると、動的ファイルの排除は有効になりません。 -
spark.databricks.optimizer.deltaTableSizeThreshold
(既定値は10,000,000,000 bytes (10 GB)
): 動的ファイルの排除をトリガーするために必要な結合のプローブ側の Delta テーブルの最小サイズ (バイト単位) を表します。 プローブ側があまり大きくない場合は、フィルターを押し下げる価値はないでしょう。テーブル全体をスキャンするだけです。 Delta テーブルのサイズは、DESCRIBE DETAIL table_name
コマンドを実行し、sizeInBytes
列を確認することで確認できます。 -
spark.databricks.optimizer.deltaTableFilesThreshold
(既定値は10
): 動的ファイルの排除をトリガーするために必要な結合のプローブ側にある Delta テーブルのファイルの数を表します。 プローブ側テーブルにしきい値より少ないファイルが含まれている場合、動的ファイル排除はトリガーされません。 テーブルに少数のファイルしかない場合は、動的ファイルの排除を有効にする価値はおそらくありません。 Delta テーブルのサイズは、DESCRIBE DETAIL table_name
コマンドを実行し、numFiles
列を確認することで確認できます。