Partilhar via


Editor de Transformação Agrupamento Difuso (guia Colunas)

Use a guia Colunas da caixa de diálogo Editor de Transformação Agrupamento Difuso para especificar as colunas usadas para agrupar linhas com valores duplicados.

Para saber mais sobre transformação Agrupamento Difuso, consulte Transformação Agrupamento Difuso.

Opções

  • Colunas de Entrada Disponíveis
    Selecione nesta lista as colunas de entrada usadas para agrupar linhas com valores duplicados.

  • Nome
    Visualize os nomes das colunas de entrada disponíveis.

  • Passagem
    Selecione se a coluna de entrada deve ser incluída na saída da transformação. Todas as colunas usadas para agrupar são copiadas automaticamente para a saída. Você pode incluir colunas adicionais, marcando esta coluna.

  • Coluna de Entrada
    Selecione um das colunas de entrada previamente selecionadas na lista Colunas de Entrada Disponíveis.

  • Alias de Saída
    Digite um nome descritivo para a coluna de saída correspondente. Por padrão, o nome da coluna de saída é idêntico ao nome da coluna de entrada.

  • Alias de Saída de Grupo
    Digite um nome descritivo para a coluna que conterá o valor canônico para as duplicatas agrupadas. O nome padrão dessa coluna de saída é o nome da coluna de entrada acrescido de _clean.

  • Associar Tipo
    Selecione correspondência difusa ou exata. As linhas serão consideradas duplicatas se forem suficientemente semelhantes em todas as colunas que têm tipo de correspondência difusa. Se você também especificar correspondência exata em certas colunas, apenas as linhas que contiverem valores idênticos nessas colunas serão consideradas possíveis duplicatas. Portanto, se souber que certa coluna não contém nenhum erro ou inconsistência, você poderá especificar correspondência exata nessa coluna para aumentar a exatidão da correspondência difusa nas outras colunas.

  • Similaridade Mínima
    Defina o limite de similaridade no nível de junção, usando o controle deslizante. Quanto mais próximo de 1 for o valor, maior deverá ser a semelhança entre o valor de pesquisa e o valor da origem para a qualificação de correspondências. Aumentar o limite pode melhorar a velocidade de correspondência, já que menos registros serão considerados candidatos.

  • Alias de Saída de Similaridade
    Especifique o nome da nova coluna de saída que conterá as pontuações de similaridade da junção selecionada. Se você deixar esse valor vazio, a coluna de saída não será criada.

  • Numerais
    Especifique a significância dos numerais à esquerda e à direita na comparação dos dados da coluna. Por exemplo, se os numerais à esquerda forem significativos, "123 Main Street" não será grupado com "456 Main Street".

    Valor

    Descrição

    Nenhum

    Numerais à esquerda e à direita não são significativos.

    À Esquerda

    Apenas numerais à esquerda são significativos.

    À Direita

    Apenas numerais à direita são significativos.

    À Esquerda e À Direita

    Numerais tanto à esquerda, quanto à direita são significativos.

  • Sinalizadores de Comparação
    Para obter mais informações sobre as opções de comparação de cadeias de caracteres, consulte Comparando dados de cadeia de caracteres.