Compartilhar via


Remover duplicatas em cada tabela para unificação de dados

A etapa Regras de eliminação de duplicação encontra e remove registros duplicados de um cliente em uma tabela de fonte, de maneira que cada cliente seja representado por uma única linha em cada tabela. A duplicata de cada tabela é eliminada separadamente usando regras para identificar os registros de um determinado cliente.

As regras são processadas na ordem. Depois que todas as regras tiverem sido executadas em todos os registros de uma tabela, os grupos de correspondências que compartilham uma linha em comum serão combinados em um único grupo de correspondências.

Definir regras de eliminação de duplicação

Uma boa regra identifica um cliente exclusivo. Leve em consideração os dados. Talvez basta identificar clientes com base em um campo, como email. No entanto, se quiser diferenciar clientes que compartilhem um email, você poderá optar por ter uma regra com duas condições, correspondendo a Email + Nome. Para obter mais informações, consulte Melhores práticas de eliminação de duplicação.

  1. Na página Regras de eliminação de duplicação, selecione uma tabela e Adicionar regra para definir as regras de eliminação de duplicação.

    Dica

    Se você tiver enriquecido tabelas no nível da fonte de dados para ajudar a melhorar os resultados da unificação, selecione Usar tabelas enriquecidas na parte superior da página. Para obter mais informações, consulte Enriquecimento de fontes de dados.

    Captura de tela da página Regras de eliminação de duplicação com tabela realçada e Adicionar regra exibido

    1. No painel Adicionar regra, insira as seguintes informações:

      • Selecionar campo: escolha na lista de campos disponíveis da tabela na qual você deseja verificar se há duplicidades. Escolha campos que provavelmente são exclusivos para cada cliente. Por exemplo, um endereço de email ou a combinação de nome, cidade e número de telefone.

      • Normalizar: selecione opções de normalização da coluna. A normalização só afeta a etapa de correspondência, e não os dados.

        • Numerais: converte símbolos Unicode que representam números em números simples.
        • Símbolos: remove todos os símbolos e caracteres especiais, como !"#$%&'()*+,-./:;<=>?@[]^_`{|}~. Por exemplo, Head&Shoulder se torna HeadShoulder.
        • Texto em minúscula: converte todos os caracteres em minúsculas. "ALL CAPS and Title Case" se torna "all caps and title case".
        • Tipo (telefone, nome, endereço, organização): padroniza nomes, títulos, números de telefone e endereços.
        • Unicode em ASCII: converte caracteres Unicode em letra ASCII equivalente. Por exemplo, o ề acentuado é convertido no caractere e.
        • Espaço em branco: remove todos os espaços. Olá, Mundo torna-se Olá,Mundo.
        • Mapeamento de alias: permite carregar uma lista personalizada de pares de cadeias de caracteres para indicar cadeias de caracteres que sempre devem ser consideradas uma correspondência exata.
        • Bypass personalizado: permite carregar uma lista personalizada de cadeias de caracteres para indicar cadeias de caracteres que nunca devem ser correspondidas.
      • Precisão: defina o nível de precisão. A precisão é usada para correspondência exata e difusa e determina o quão próximas duas cadeias de caracteres precisam estar para serem consideradas uma correspondência.

        • Básico: escolha entre Baixo (30%), Médio (60%), Alto (80%) e Exato (100%). Selecione Exato para corresponder apenas os registros com 100% de correspondência.
        • Personalizado: defina uma porcentagem de correspondência para os registros. O sistema só compara registros que excedam esse limite.
      • Nome: nome da regra.

      Captura de tela do painel Adicionar regra para remover duplicidades.

    2. Opcionalmente, selecione Adicionar>Adicionar condição para adicionar mais condições à regra. As condições são conectadas a um operador lógico AND e, portanto, somente serão executadas se todas as condições forem atendidas.

    3. Opcionalmente, selecione Adicionar>Adicionar exceção para adicionar exceções à regra. As exceções são usadas para lidar com casos raros de falsos positivos e falsos negativos.

    4. Selecione Concluído para criar a regra.

  2. Opcionalmente, adicione mais regras.

  3. Selecione uma tabela e, em seguida, Editar preferências de mesclagem.

  4. No painel Preferências de mesclagem:

    1. Escolha uma das três opções para determinar qual registro manter se uma duplicidade for encontrada:

      • Mais preenchido: identifica o registro com as colunas mais preenchidas como o registro vencedor. É a opção de mesclagem padrão.
      • Mais recente: identifica o registro vencedor com base na maior recência. Requer uma data ou um campo numérico para definir o nível de atualização.
      • Menos recente: identifica o registro vencedor com base na menor recência. Requer uma data ou um campo numérico para definir o nível de atualização.

      Se houver um empate, o registro vencedor será aquele com o MAX(PK) ou o maior valor de chave primária.

    2. Como opção, para definir preferências de mesclagem em colunas individuais de uma tabela, selecione Avançado na parte inferior do painel. Por exemplo, você pode manter o email mais recente E o endereço mais completo de diferentes registros. Expanda a tabela para ver todas as colunas e defina qual opção usar para colunas individuais. Se você escolher uma opção baseada em recência, também precisará especificar um campo de data/hora que defina a recência.

      Painel Preferências de mesclagem avançada mostrando email recente e endereço completo

    3. Selecione Concluído para aplicar suas preferências de mesclagem.

  5. Depois de definir as regras de eliminação de duplicação e as preferências de mesclagem, selecione Avançar.