ブルームフィルターインデックス

[アーティクル]
01/23/2025

手記

Photon 対応コンピューティングと Databricks Runtime 12.2 以降を使用する場合、予測入力/出力は読み取りパフォーマンスではブルームフィルターを上回ります。予測 I/O とはを参照してください。.

Databricks Runtime 13.3 以降では、Databricks では Delta テーブルレイアウトにクラスタリングを使用することをお勧めします。「デルタテーブルに液体クラスタリングを使用する」を参照してください。

Databricks では、これらの機能をサポートしていないコンピューティングを使用する場合にのみ、ブルームフィルターを使用することをお勧めします。

ブルームフィルターインデックスは、選択した列 (特に任意のテキストを含むフィールド) でデータをスキップできるようにする、スペース効率の高いデータ構造です。

ブルームフィルターインデックスのしくみ

Azure Databricks Bloom フィルターインデックスは、各データファイルのデータスキップインデックスで構成されます。ブルームフィルターインデックスを使用すると、列の値がファイルに明確にされていないか、ファイル可能性が高いと判断できます。ファイルを読み取る前に、Azure Databricks はインデックスファイルをチェックし、ファイルがデータフィルターと一致する可能性があることをインデックスが示している場合にのみファイルが読み取られます。

ブルームフィルターでは、byte、short、int、long、float、double、date、timestamp、stringの入力データ型の列がサポートされます。 Null はブルームフィルターに追加されないため、null 関連のフィルターではデータファイルの読み取りが必要です。 Azure Databricks では、and、or、in、equals、equalsnullsafeのデータソースフィルターがサポートされています。ブルームフィルターは、入れ子になった列ではサポートされていません。

構成とリファレンス

ブルームフィルターを有効にするには、次の構文を使用します。

CREATE BLOOMFILTER INDEX
ON TABLE table_name
FOR COLUMNS(column_name OPTIONS (fpp=0.1, numItems=5000))

構文の詳細については、CREATE BLOOM FILTER INDEX と DROP BLOOM FILTER INDEXを参照してください。

Bloom フィルター操作を無効にするには、セッションレベル spark.databricks.io.skipping.bloomFilter.enabled 構成を falseに設定します。

ブルームフィルターインデックスの一覧を表示する

インデックスの一覧を表示するには、次のコマンドを実行します。

spark.table("<table-with-indexes>").schema.foreach(field => println(s"${field.name}: metadata=${field.metadata}"))

例えば：

インデックスの表示

次の方法で共有

ブルームフィルターインデックス

ブルームフィルターインデックスのしくみ

構成とリファレンス

ブルームフィルターインデックスの一覧を表示する

フィードバック

その他のリソース

次の方法で共有

ブルーム フィルターインデックス

ブルーム フィルター インデックスのしくみ

構成とリファレンス

ブルーム フィルター インデックスの一覧を表示する

フィードバック

その他のリソース

ブルームフィルターインデックス

ブルームフィルターインデックスのしくみ

ブルームフィルターインデックスの一覧を表示する