Bloomfilter-indexen

Artikel
01/21/2025

Notitie

Wanneer u Photon-ingeschakelde berekeningen en Databricks Runtime 12.2 of hoger gebruikt, presteert voorspellende I/O beter dan Bloom-filters voor leesprestaties. Zie Wat is voorspellende I/O?.

In Databricks Runtime 13.3 en hoger raadt Databricks aan om clustering te gebruiken voor de indeling van deltatabellen. Zie Liquid Clustering gebruiken voor Delta-tabellen.

Databricks raadt het gebruik van Bloom-filters alleen aan wanneer u rekenkracht gebruikt die deze functies niet ondersteunt.

Een Bloom-filterindex is een ruimte-efficiënte gegevensstructuur waarmee gegevens kunnen worden overgeslagen op gekozen kolommen, met name voor velden die willekeurige tekst bevatten.

Hoe Bloom-filterindexen werken

Azure Databricks Bloom-filterindexen bestaan uit een index voor het overslaan van gegevens voor elk gegevensbestand. De Bloom-filterindex kan worden gebruikt om te bepalen dat een kolomwaarde definitief niet in het bestand is , of dat deze waarschijnlijk in het bestand is . Voordat u een bestand leest, controleert Azure Databricks het indexbestand en wordt het bestand alleen-lezen als de index aangeeft dat het bestand mogelijk overeenkomt met een gegevensfilter.

Bloeifilters ondersteunen kolommen met de volgende invoergegevenstypen: byte, short, int, long, float, double, date, timestampen string. Null-waarden worden niet toegevoegd aan het Bloom-filter, dus voor elk null-gerelateerd filter moet het gegevensbestand worden gelezen. Azure Databricks ondersteunt de volgende gegevensbronfilters: and, or, in, equalsen equalsnullsafe. Bloom-filters worden niet ondersteund voor geneste kolommen.

Configuratie en verwijzing

Gebruik de volgende syntaxis om een Bloom-filter in te schakelen:

CREATE BLOOMFILTER INDEX
ON TABLE table_name
FOR COLUMNS(column_name OPTIONS (fpp=0.1, numItems=5000))

Zie CREATE BLOOM FILTER INDEX en DROP BLOOM FILTER INDEXvoor syntaxisdetails.

Als u Bloom-filterbewerkingen wilt uitschakelen, stelt u het sessieniveau spark.databricks.io.skipping.bloomFilter.enabled configuratie in op false.

De lijst met Bloom-filterindexen weergeven

Voer de volgende opdracht uit om de lijst met indexen weer te geven:

spark.table("<table-with-indexes>").schema.foreach(field => println(s"${field.name}: metadata=${field.metadata}"))

Bijvoorbeeld:

Indexen weergeven

Delen via

Bloomfilter-indexen

Hoe Bloom-filterindexen werken

Configuratie en verwijzing

De lijst met Bloom-filterindexen weergeven

Feedback

Aanvullende resources