Indeksy filtrów Blooma

Artykuł
03/22/2025

Notatka

W przypadku korzystania z obliczeń z obsługą technologii Photon i środowiska Databricks Runtime w wersji 12.2 lub nowszej, operacje we/wy predykcyjne przewyższają wydajnością filtry Blooma w zakresie odczytu. Zobacz Co to jest predykcyjne wejście/wyjście?.

W środowisku Databricks Runtime 13.3 lub nowszym usługa Databricks zaleca używanie klastrowania dla układu tabeli delty. Zobacz Użyj klastrowania cieczy dla tabel Delta.

Usługa Databricks zaleca używanie filtrów Bloom tylko w przypadku korzystania z obliczeń, które nie obsługują tych funkcji.

Indeks filtru Blooma to wydajna pod względem przestrzeni struktura danych, która umożliwia pomijanie danych w wybranych kolumnach, szczególnie w przypadku pól zawierających dowolny tekst.

Jak działają indeksy filtru Blooma

Indeksy filtru Bloom w usłudze Azure Databricks obejmują indeks pomijania danych dla każdego pliku danych. Indeks filtru Bloom może służyć do określenia, że wartość kolumny jest ostatecznie nie w pliku lub że jest prawdopodobnie w pliku. Przed odczytaniem pliku usługa Azure Databricks sprawdza plik indeksu, a plik jest odczytywany tylko wtedy, gdy indeks wskazuje, że plik może być zgodny z filtrem danych.

Filtry Bloom obsługują kolumny z następującymi typami danych wejściowych: byte, short, int, long, float, double, date, timestampi string. Wartości null nie są dodawane do filtru Bloom, więc każdy filtr powiązany z wartością null wymaga odczytania pliku danych. Usługa Azure Databricks obsługuje następujące filtry źródeł danych: and, or, in, equalsi equalsnullsafe. Filtry Blooma nie są obsługiwane w zagnieżdżonych kolumnach.

Konfiguracja i odniesienie

Użyj następującej składni, aby włączyć filtr Blooma:

CREATE BLOOMFILTER INDEX
ON TABLE table_name
FOR COLUMNS(column_name OPTIONS (fpp=0.1, numItems=5000))

Aby uzyskać szczegółowe informacje o składni, zobacz CREATE BLOOM FILTER INDEX i DROP BLOOM FILTER INDEX.

Aby wyłączyć operacje filtrowania Blooma, ustaw konfigurację spark.databricks.io.skipping.bloomFilter.enabled poziomu sesji na false.

Wyświetlanie listy indeksów filtrów Bloom

Aby wyświetlić listę indeksów, uruchom polecenie:

spark.table("<table-with-indexes>").schema.foreach(field => println(s"${field.name}: metadata=${field.metadata}"))

Na przykład:

Pokaż indeksy

Udostępnij za pośrednictwem

Indeksy filtrów Blooma

Jak działają indeksy filtru Blooma

Konfiguracja i odniesienie

Wyświetlanie listy indeksów filtrów Bloom

Opinia

Dodatkowe zasoby