Compartilhar via


Mesclagem difusa

Mesclagem difusa é um recurso de preparação de dados inteligentes que você pode usar para aplicar algoritmos de correspondência difusa ao comparar colunas. Esses algoritmos tentam encontrar correspondências entre as tabelas que estão sendo mescladas.

Para habilitar a correspondência difusa na parte inferior da caixa de diálogo Mesclar, selecione o botão de opção Usar correspondência difusa para executar a mesclagem. Mais informações: Visão geral das operações de mesclagem

Nota

A correspondência difusa é suportada apenas em operações de mesclagem em colunas de texto. O Power Query usa o algoritmo de similaridade Jaccard para medir a similaridade entre pares de instâncias.

Cenário de exemplo

Um caso de uso comum para a correspondência difusa é com campos de texto de forma livre, como em uma pesquisa. Para este artigo, a tabela de exemplo foi obtida diretamente de uma pesquisa online enviada a um grupo com apenas uma pergunta: Qual é a sua fruta favorita?

Os resultados dessa pesquisa são mostrados na imagem a seguir.

Exemplo de pesquisa com entradas brutas.

Captura de tela do exemplo de uma tabela de saída de pesquisa que contém o grafo de distribuição de coluna mostrando nove respostas distintas com todas as respostas exclusivas, e as respostas para a pesquisa com todos os erros de digitação, plural ou singular e problemas de maiúsculas e minúsculas.

Os nove registros refletem os envios da pesquisa. O problema com os envios da pesquisa é que alguns têm erros de digitação, alguns estão no plural, outros no singular, alguns estão em maiúsculas e outros em minúsculas.

Para ajudar a padronizar esses valores, neste exemplo você tem uma tabela de referência Fruits.

Tabela de referência de Frutas.

Captura de tela da tabela de referência de Frutas, contendo um gráfico de distribuição por colunas que mostra quatro frutas distintas, cada uma delas única, e a lista de frutas: maçã, abacaxi, melancia e banana.

Nota

Para simplificar, essa tabela de referência Fruits inclui apenas o nome das frutas que serão necessárias para esse cenário. Sua tabela de referência pode ter quantas linhas você precisar.

A meta é criar uma tabela como a seguinte, em que você padroniza todos esses valores para que você possa fazer mais análises.

Exemplo de tabela de saída da pesquisa.

Captura de tela do exemplo de tabela de saída da pesquisa, com a coluna Pergunta contendo o gráfico de distribuição das colunas. O grafo mostra nove respostas distintas com todas as respostas exclusivas. As respostas para a pesquisa contêm todos os erros de digitação, plural ou singular e problemas de maiúsculas e minúsculas. A tabela de saída também contém a coluna Fruta. Esta coluna contém o grafo de distribuição de coluna mostrando quatro respostas distintas com uma resposta exclusiva. Ela também lista todas as frutas com a grafia correta e com o uso correto de singular e de maiúsculas e minúsculas.

Operação de mesclagem difusa

Para fazer a mesclagem difusa, comece fazendo uma mesclagem. Nesse caso, você usará uma junção externa esquerda, em que a tabela esquerda é a da pesquisa e a tabela direita é a tabela de referência Frutas. Na parte inferior da caixa de diálogo, maque a caixa de seleção Usar correspondência difusa para executar a mesclagem.

Captura de tela da caixa de diálogo Mesclagem mostrando como usar correspondência difusa para executar a opção de mesclagem.

Depois de selecionar OK, você poderá ver uma nova coluna em sua tabela devido a essa operação de mesclagem. Se você expandir, verá uma linha que não contém nenhum valor. Isso é exatamente o que a mensagem da caixa de diálogo na imagem anterior afirmou quando dizia "A seleção corresponde a 8 de 9 linhas da primeira tabela".

Resultados da correspondência difusa na coluna Fruta.

Captura de tela da coluna de frutas adicionada à tabela Pesquisa. Todas as linhas na coluna Pergunta são expandidas, exceto a linha 9, que não pôde ser expandida e a coluna Fruit contém nulo.

Opções de correspondência difusa

Você pode modificar as Opções de correspondência difusa para ajustar como a correspondência aproximada deve ser feita. Primeiro, selecione o comando Mesclar consultas e, na caixa de diálogo Mesclar, expanda Opções de correspondência difusa.

Captura de tela da caixa de diálogo Mesclar com as opções de correspondência difusa exibidas.

As opções disponíveis são:

  • limite de similaridade (opcional): um valor entre 0,00 e 1,00 que fornece a capacidade de corresponder a registros acima de uma determinada pontuação de similaridade. Um limite de 1,00 é o mesmo que especificar um critério de correspondência exato. Por exemplo, Uvas corresponderá a Uas (com a letra v faltando) somente se o limite estiver definido como menos de 0,90. Por padrão, esse valor é definido como 0,80.
  • Ignorar maiúsculas e minúsculas: permite a correspondência de registros independentemente do uso de maiúsculas e minúsculas no texto.
  • Corresponder ao unir partes de texto: permite combinar partes do texto para localizar correspondências. Por exemplo, Micro soft será igualado com Microsoft se essa opção estiver habilitada.
  • Mostrar pontuações de similaridade: mostra pontuações de similaridade entre a entrada e os valores correspondentes após a correspondência difusa.
  • Número de correspondências (opcional): especifica o número máximo de linhas correspondentes que podem ser retornadas para cada linha de entrada.
  • Tabela de Transformação (opcional): Permite a correspondência de registros com base em mapeamento de valores personalizados. Por exemplo, Uvas corresponde a Passas caso seja fornecida uma tabela de transformação em que a coluna De contém Uvas e a coluna Para contém Passas.

Tabela de transformação

Para o exemplo neste artigo, você pode usar uma tabela de transformação para mapear o valor que tem um par ausente. Esse valor é apls, que precisa ser mapeado para Apple. Sua tabela de transformação tem duas colunas:

  • De contém os valores a serem localizados.
  • Para contém os valores usados para substituir os valores localizados usando a coluna De.

Para este artigo, a tabela de transformação tem a seguinte aparência:

De Para
maca Maçã

Você pode voltar para a caixa de diálogo Mesclar e, em Opções de correspondência difusa em Número de correspondências, inserir 1. Habilite a opção Mostrar pontuações de similaridade e, na Tabela de transformação, selecione Transformar Tabela no menu suspenso.

Captura de tela da caixa de diálogo Mesclar com o número de correspondências definido como 1 e a tabela Transformação definida como Transformar tabela.

Depois de selecionar OK, você poderá ir para a etapa de mesclagem. Ao expandir a coluna com valores da tabela, além do campo Fruta, você também verá o campo Pontuação de similaridade. Selecione ambos e expanda-os sem adicionar um prefixo.

Captura de tela do diálogo de expansão da tabela para a coluna Frutas que contém os campos Fruta e pontuação de Similaridade selecionados.

Depois de expandir esses dois campos, eles serão adicionados à sua tabela. Observe os valores obtidos para as pontuações de similaridade de cada valor. Essas pontuações podem ajudá-lo com transformações adicionais, se necessário, para determinar se você deve reduzir ou aumentar seu limite de similaridade.

Captura de tela da saída da tabela após a realização do processo de mesclagem difusa, mostrando os novos campos de Fruta e de Pontuação de Similaridade para cada valor.

Para este exemplo, a pontuação Similaridade serve apenas como informação adicional e não é necessária no resultado dessa consulta, então você pode removê-la. Observe como o exemplo começou com nove valores distintos, mas após a mesclagem difusa, há apenas quatro valores distintos.

Tabela de saída da pesquisa com mesclagem difusa.

Captura de tela da tabela de saída da pesquisa da mesclagem difusa que contém o grafo de distribuição de coluna mostrando nove respostas distintas, com todas as respostas exclusivas e as respostas para a pesquisa com todos os erros de digitação, plural ou singular e problemas de maiúsculas e minúsculas. Também contém a coluna Fruta, com o grafo de distribuição de coluna mostrando quatro respostas diferentes, com uma resposta exclusiva, e listando todas as frutas sem erros de ortografia e com uso apropriado de singular e de maiúsculas e minúsculas.

Para obter mais informações sobre como as tabelas de transformação funcionam, acesse os preceitos da tabela de transformação .