Indici di filtro Bloom

Articolo
01/22/2025

Nota

Quando si usano risorse di calcolo abilitate per Photon e Databricks Runtime 12.2 o versioni successive, l'I/O predittivo supera i filtri di Bloom in termini di prestazioni di lettura. Consulta Che cos'è l'I/O predittivo?.

In Databricks Runtime 13.3 e versioni successive, Databricks consiglia di usare il clustering per il layout di tabella Delta. Consultare l'utilizzo del clustering liquido per le tabelle Delta.

Databricks consiglia di usare solo i filtri Bloom quando si usano risorse di calcolo che non supportano queste funzionalità.

Un indice di filtro Bloom è una struttura di dati efficiente in termini di spazio che consente di saltare i dati sulle colonne scelte, in particolare per i campi contenenti testo arbitrario.

Funzionamento degli indici di filtro Bloom

Gli indici di filtro di Azure Databricks Bloom sono costituiti da un indice di salto dei dati per ogni file di dati. L'indice del filtro Bloom può essere usato per determinare che un valore di colonna è definitivamente non in il file o che è probabilmente in file. Prima di leggere un file, Azure Databricks controlla il file di indice e il file viene letto solo se l'indice indica che il file potrebbe corrispondere a un filtro dati.

I filtri Bloom supportano le colonne con i tipi di dati di input seguenti: byte, short, int, long, float, double, date, timestampe string. I valori Null non vengono aggiunti al filtro Bloom, quindi qualsiasi filtro correlato a Null richiede la lettura del file di dati. Azure Databricks supporta i filtri di origine dati seguenti: and, or, in, equalse equalsnullsafe. I filtri Bloom non sono supportati nelle colonne nidificate.

Configurazione e riferimento

Usare la sintassi seguente per abilitare un filtro Bloom:

CREATE BLOOMFILTER INDEX
ON TABLE table_name
FOR COLUMNS(column_name OPTIONS (fpp=0.1, numItems=5000))

Per informazioni dettagliate sulla sintassi, vedere CREATE BLOOM FILTER INDEX e DROP BLOOM FILTER INDEX.

Per disabilitare le operazioni di filtro Bloom, impostare la configurazione del livello di sessione spark.databricks.io.skipping.bloomFilter.enabled su false.

Visualizzare l'elenco degli indici di filtro Bloom

Per visualizzare l'elenco degli indici, eseguire:

spark.table("<table-with-indexes>").schema.foreach(field => println(s"${field.name}: metadata=${field.metadata}"))

Per esempio:

Mostra indici

Condividi tramite

Indici di filtro Bloom

Funzionamento degli indici di filtro Bloom

Configurazione e riferimento

Visualizzare l'elenco degli indici di filtro Bloom

Commenti e suggerimenti

Risorse aggiuntive