Mesclagem difusa
Mesclagem difusa é um recurso de preparação de dados inteligentes que você pode usar para aplicar algoritmos de correspondência difusa ao comparar colunas. Esses algoritmos tentam encontrar correspondências entre as tabelas que estão sendo mescladas.
Para habilitar a correspondência difusa na parte inferior da caixa de diálogo Mesclar, selecione o botão de opção Usar correspondência difusa para executar a mesclagem. Mais informações: Visão geral das operações de mesclagem
Nota
A correspondência difusa é suportada apenas em operações de mesclagem em colunas de texto. O Power Query usa o algoritmo de similaridade Jaccard para medir a similaridade entre pares de instâncias.
Cenário de exemplo
Um caso de uso comum para a correspondência difusa é com campos de texto de forma livre, como em uma pesquisa. Para este artigo, a tabela de exemplo foi obtida diretamente de uma pesquisa online enviada a um grupo com apenas uma pergunta: Qual é a sua fruta favorita?
Os resultados dessa pesquisa são mostrados na imagem a seguir.
Captura de tela do exemplo de uma tabela de saída de pesquisa que contém o grafo de distribuição de coluna mostrando nove respostas distintas com todas as respostas exclusivas, e as respostas para a pesquisa com todos os erros de digitação, plural ou singular e problemas de maiúsculas e minúsculas.
Os nove registros refletem os envios da pesquisa. O problema com os envios da pesquisa é que alguns têm erros de digitação, alguns estão no plural, outros no singular, alguns estão em maiúsculas e outros em minúsculas.
Para ajudar a padronizar esses valores, neste exemplo você tem uma tabela de referência Fruits.
Captura de tela da tabela de referência de Frutas, contendo um gráfico de distribuição por colunas que mostra quatro frutas distintas, cada uma delas única, e a lista de frutas: maçã, abacaxi, melancia e banana.
Nota
Para simplificar, essa tabela de referência Fruits inclui apenas o nome das frutas que serão necessárias para esse cenário. Sua tabela de referência pode ter quantas linhas você precisar.
A meta é criar uma tabela como a seguinte, em que você padroniza todos esses valores para que você possa fazer mais análises.
Captura de tela do exemplo de tabela de saída da pesquisa, com a coluna Pergunta contendo o gráfico de distribuição das colunas. O grafo mostra nove respostas distintas com todas as respostas exclusivas. As respostas para a pesquisa contêm todos os erros de digitação, plural ou singular e problemas de maiúsculas e minúsculas. A tabela de saída também contém a coluna Fruta. Esta coluna contém o grafo de distribuição de coluna mostrando quatro respostas distintas com uma resposta exclusiva. Ela também lista todas as frutas com a grafia correta e com o uso correto de singular e de maiúsculas e minúsculas.
Operação de mesclagem difusa
Para fazer a mesclagem difusa, comece fazendo uma mesclagem. Nesse caso, você usará uma junção externa esquerda, em que a tabela esquerda é a da pesquisa e a tabela direita é a tabela de referência Frutas. Na parte inferior da caixa de diálogo, maque a caixa de seleção Usar correspondência difusa para executar a mesclagem.
Depois de selecionar OK, você poderá ver uma nova coluna em sua tabela devido a essa operação de mesclagem. Se você expandir, verá uma linha que não contém nenhum valor. Isso é exatamente o que a mensagem da caixa de diálogo na imagem anterior afirmou quando dizia "A seleção corresponde a 8 de 9 linhas da primeira tabela".
Captura de tela da coluna de frutas adicionada à tabela Pesquisa. Todas as linhas na coluna Pergunta são expandidas, exceto a linha 9, que não pôde ser expandida e a coluna Fruit contém nulo.
Opções de correspondência difusa
Você pode modificar as Opções de correspondência difusa para ajustar como a correspondência aproximada deve ser feita. Primeiro, selecione o comando Mesclar consultas e, na caixa de diálogo Mesclar, expanda Opções de correspondência difusa.
As opções disponíveis são:
- limite de similaridade (opcional): um valor entre 0,00 e 1,00 que fornece a capacidade de corresponder a registros acima de uma determinada pontuação de similaridade. Um limite de 1,00 é o mesmo que especificar um critério de correspondência exato. Por exemplo, Uvas corresponderá a Uas (com a letra v faltando) somente se o limite estiver definido como menos de 0,90. Por padrão, esse valor é definido como 0,80.
- Ignorar maiúsculas e minúsculas: permite a correspondência de registros independentemente do uso de maiúsculas e minúsculas no texto.
- Corresponder ao unir partes de texto: permite combinar partes do texto para localizar correspondências. Por exemplo, Micro soft será igualado com Microsoft se essa opção estiver habilitada.
- Mostrar pontuações de similaridade: mostra pontuações de similaridade entre a entrada e os valores correspondentes após a correspondência difusa.
- Número de correspondências (opcional): especifica o número máximo de linhas correspondentes que podem ser retornadas para cada linha de entrada.
- Tabela de Transformação (opcional): Permite a correspondência de registros com base em mapeamento de valores personalizados. Por exemplo, Uvas corresponde a Passas caso seja fornecida uma tabela de transformação em que a coluna De contém Uvas e a coluna Para contém Passas.
Tabela de transformação
Para o exemplo neste artigo, você pode usar uma tabela de transformação para mapear o valor que tem um par ausente. Esse valor é apls, que precisa ser mapeado para Apple. Sua tabela de transformação tem duas colunas:
- De contém os valores a serem localizados.
- Para contém os valores usados para substituir os valores localizados usando a coluna De.
Para este artigo, a tabela de transformação tem a seguinte aparência:
De | Para |
---|---|
maca | Maçã |
Você pode voltar para a caixa de diálogo Mesclar e, em Opções de correspondência difusa em Número de correspondências, inserir 1. Habilite a opção Mostrar pontuações de similaridade e, na Tabela de transformação, selecione Transformar Tabela no menu suspenso.
Depois de selecionar OK, você poderá ir para a etapa de mesclagem. Ao expandir a coluna com valores da tabela, além do campo Fruta, você também verá o campo Pontuação de similaridade. Selecione ambos e expanda-os sem adicionar um prefixo.
Depois de expandir esses dois campos, eles serão adicionados à sua tabela. Observe os valores obtidos para as pontuações de similaridade de cada valor. Essas pontuações podem ajudá-lo com transformações adicionais, se necessário, para determinar se você deve reduzir ou aumentar seu limite de similaridade.
Para este exemplo, a pontuação Similaridade serve apenas como informação adicional e não é necessária no resultado dessa consulta, então você pode removê-la. Observe como o exemplo começou com nove valores distintos, mas após a mesclagem difusa, há apenas quatro valores distintos.
Captura de tela da tabela de saída da pesquisa da mesclagem difusa que contém o grafo de distribuição de coluna mostrando nove respostas distintas, com todas as respostas exclusivas e as respostas para a pesquisa com todos os erros de digitação, plural ou singular e problemas de maiúsculas e minúsculas. Também contém a coluna Fruta, com o grafo de distribuição de coluna mostrando quatro respostas diferentes, com uma resposta exclusiva, e listando todas as frutas sem erros de ortografia e com uso apropriado de singular e de maiúsculas e minúsculas.
Para obter mais informações sobre como as tabelas de transformação funcionam, acesse os preceitos da tabela de transformação .