CREATE BLOOM FILTER INDEX

Artigo
01/29/2025

Aplica-se a: marca de seleção positiva SQL do Databricks Runtime do Databricks

Cria um índice do filtro Bloom para dados novos ou reescritos; não cria filtros de Bloom para os dados existentes. O comando falhará se o nome da table ou uma das columns não existir. Se a filtragem Bloom estiver habilitada para um column, as opções de filtro Bloom existentes serão substituídas pelas novas opções.

Sintaxe

CREATE BLOOMFILTER INDEX
ON [TABLE] table_name
FOR COLUMNS( { columnName1 [ options ] } [, ...] )
[ options ]

options
  OPTIONS ( { key1 [ = ] val1 } [, ...] )

Parameters

table_name

Identifica um delta tableexistente. O nome não deve incluir uma especificação temporal ou especificação de opções.

Embora não seja possível criar um índice de filtro Bloom para dados já gravados, o comando OPTIMIZE atualiza filtros Bloom para dados reorganizados. Portanto, você pode provisionar um filtro Bloom executando OPTIMIZE em uma table:

Se você não otimizou anteriormente a table.
Com um tamanho de arquivo diferente, exigindo que os arquivos de dados sejam gravados novamente.
Com um ZORDER (ou um ZORDER diferente, se estiver presente), exigindo que os arquivos de dados sejam regravados.

Você pode ajustar o filtro Bloom definindo opções no nível column ou no nível table:

fpp: probabilidade de falso positivo. A taxa de falsos positivos desejada por filtro Bloom gravado. Isso influencia o número de bits necessários para colocar um único item no filtro Bloom e influencia o tamanho do filtro Bloom. O valor deve ser superior a 0 e igual ou inferior a 1. O valor padrão é 0,1, que requer 5 bits por item.
numItems: número de itens distintos que o arquivo pode conter. Essa configuração é importante para a qualidade da filtragem, pois influencia o número total de bits usados no filtro Bloom (número de itens - número de bits por item). Se essa configuração estiver incorreta, o filtro Bloom será preenchido de forma esparsa, desperdiçando espaço em disco e reduzindo as consultas que devem baixar esse arquivo, ou ele ficará muito cheio e menos preciso (mais FPP). O valor deve ser superior a 0. O padrão é 1 milhão de itens.
maxExpectedFpp: a probabilidade máxima de falsos positivos esperada na qual um filtro Bloom será gravado. Se o FPP esperado for superior a esse limite, a seletividade do filtro Bloom será muito baixa; o tempo e os recursos necessários para usar o filtro Bloom superará sua utilidade. O valor deve estar entre 0 e 1. O padrão é 1.0 (desabilitado).

Essas opções desempenham uma função somente ao gravar os dados. Você pode configurar essas propriedades em vários níveis hierárquicos: operação de gravação, nível de table e column. O nível column tem precedência sobre o nível table e sobre os níveis de operação, e o nível table tem precedência sobre os níveis de operação.

Confira Índices de filtro Bloom.

DROP BLOOMFILTER INDEX

Compartilhar via

CREATE BLOOM FILTER INDEX

Sintaxe

Parameters

Comentários

Recursos adicionais

Compartilhar via

CREATE BLOOM FILTER INDEX

Sintaxe

Parameters

Artigos relacionados

Comentários

Recursos adicionais