Sdílet prostřednictvím


CREATE BLOOM FILTER INDEX

Platí pro:zaškrtnutí označeného ano Databricks SQL zaškrtnutí označeného ano Databricks Runtime

Vytvoří index filtru Bloom pro nová nebo přepsaná data; nevytvoří filtry Bloom pro existující data. Příkaz selže, pokud neexistuje název table nebo některý z columns. Pokud je pro columnpovoleno filtrování Bloom , stávající možnosti filtru Bloom jsou nahrazeny novými možnostmi.

Syntaxe

CREATE BLOOMFILTER INDEX
ON [TABLE] table_name
FOR COLUMNS( { columnName1 [ options ] } [, ...] )
[ options ]

options
  OPTIONS ( { key1 [ = ] val1 } [, ...] )

Parameters

I když není možné vytvořit index filtru Bloom pro data, která jsou již zapsána, OPTIMIZE příkaz aktualizuje Bloom filtry pro data, která jsou reorganizována. Proto můžete doplnit Bloomův filtr spuštěním OPTIMIZE na table:

  • Pokud jste předtím neoptimalizovali table.
  • S jinou velikostí souboru vyžaduje opětovné zápis datových souborů.
  • Pokud už existuje, ZORDER vyžaduje se (nebo jiný ZORDER) datový soubor, který vyžaduje opětovné zápis datových souborů.

Filtr Bloom můžete ladit definováním možností na úrovni column nebo na úrovni table:

  • fpp: Falešně pozitivní pravděpodobnost. Požadovaná falešně pozitivní míra na zapsaný filtr Bloom. To ovlivňuje počet bitů potřebných k vložení jedné položky do filtru Bloom a ovlivňuje velikost filtru Bloom. Hodnota musí být větší než 0 a menší než nebo rovna 1. Výchozí hodnota je 0,1, která vyžaduje 5 bitů na položku.
  • numItems: Počet jedinečných položek, které může soubor obsahovat. Toto nastavení je důležité pro kvalitu filtrování, protože ovlivňuje celkový počet bitů použitých ve filtru Bloom (počet položek – počet bitů na položku). Pokud je toto nastavení nesprávné, filtr Bloom je buď velmi řídce naplněný, zabírají místo na disku a zpomalují dotazy, které musí stáhnout tento soubor, nebo je příliš plný a je méně přesný (vyšší FPP). Hodnota musí být větší než 0. Výchozí hodnota je 1 milion položek.
  • maxExpectedFpp: Maximální očekávaná falešně pozitivní pravděpodobnost, při které je filtr Bloom zapsán na disk. Pokud je očekávaný FPP větší než tato prahová hodnota, je selektivita bloomového filtru příliš nízká; čas a zdroje, které trvá použití bloom filtru převáží jeho užitečnost. Hodnota musí být v rozmezí od 0 do 1. Výchozí hodnota je 1.0 (zakázaná).

Tyto možnosti hrají roli pouze při zápisu dat. Tyto vlastnosti můžete nakonfigurovat na různých hierarchických úrovních: operace zápisu, úroveň table a úroveň column. Úroveň column má přednost před úrovněmi table a operací a úroveň table má přednost před úrovní operace.

Viz indexy filtru Bloom.