Remover duplicatas em cada tabela para unificação de dados

Artigo
12/31/2024

A etapa Regras de eliminação de duplicação encontra e remove registros duplicados de um cliente em uma tabela de fonte, de maneira que cada cliente seja representado por uma única linha em cada tabela. A duplicata de cada tabela é eliminada separadamente usando regras para identificar os registros de um determinado cliente.

As regras são processadas na ordem. Depois que todas as regras tiverem sido executadas em todos os registros de uma tabela, os grupos de correspondências que compartilham uma linha em comum serão combinados em um único grupo de correspondências.

Definir regras de eliminação de duplicação

Uma boa regra identifica um cliente exclusivo. Leve em consideração os dados. Talvez basta identificar clientes com base em um campo, como email. No entanto, se quiser diferenciar clientes que compartilhem um email, você poderá optar por ter uma regra com duas condições, correspondendo a Email + Nome. Para obter mais informações, consulte Melhores práticas de eliminação de duplicação.

Na página Regras de eliminação de duplicação, selecione uma tabela e Adicionar regra para definir as regras de eliminação de duplicação.

Dica

Se você tiver enriquecido tabelas no nível da fonte de dados para ajudar a melhorar os resultados da unificação, selecione Usar tabelas enriquecidas na parte superior da página. Para obter mais informações, consulte Enriquecimento de fontes de dados.

No painel Adicionar regra, insira as seguintes informações:

Selecionar campo: escolha na lista de campos disponíveis da tabela na qual você deseja verificar se há duplicidades. Escolha campos que provavelmente são exclusivos para cada cliente. Por exemplo, um endereço de email ou a combinação de nome, cidade e número de telefone.

Normalizar: selecione as opções de normalização para a coluna. A normalização só afeta a etapa de correspondência, e não os dados.

Normalização	Exemplos
Numerais	Converte muitos símbolos Unicode que representam números em números simples. Exemplos: ❽ e Ⅷ são ambos normalizados para o número 8. Observação: os símbolos devem ser codificados no formato Unicode Point.
Símbolos	Remove símbolos e caracteres especiais. Exemplos: !?"#$%&'( )+,.-/:;<=>@^~{}`[ ]
Texto em letras minúsculas	Converte caracteres maiúsculos em minúsculos. Exemplo: "ESTE É uM EXemplO" é convertido em "este é um exemplo"
Tipo – Telefone	Converte telefones em formatos variados em dígitos e leva em conta variações na maneira como extensões e códigos de país são apresentados. Símbolos e espaços em branco são ignorados. Os dígitos "0" à esquerda em códigos de país são ignorados, correspondendo a +1 e +01. As extensões indicadas por um prefixo com letras são ignoradas (X 123). O código de país normalizado é significativo, logo, um telefone com um código de país não corresponderá a um telefone sem um código de país. Exemplo: +01 425.555.1212 corresponde a 1 (425) 555-1212 +01 425.555.1212 não vai corresponder a (425) 555-1212
Tipo – Nome	Converte mais de 500 variações de nomes e títulos em comum. Exemplos: "debby" -> "deborah" "prof" e "professor" -> "Prof."
Tipo – Endereço	Converte partes comuns de endereços Exemplos: "street" -> "st" e "northwest" -> "nw"
Tipo – Organização	Remove aproximadamente 50 "palavras de ruído" do nome de empresa, como "co," "corp," "corporation" e "ltd."
Unicode para ASCII	Converte caracteres Unicode no equivalente de lertra ASCII Exemplo: os caracteres 'à,' 'á,' 'â,' 'À,' 'Á,' 'Â,' 'Ã,' 'Ä,' 'Ⓐ' e 'Ａ' são todos convertidos em 'a'.
Espaço em branco	Remove todos os espaços em branco
Mapeamento de alias	Permite carregar uma lista personalizada de pares de cadeias de caracteres que podem ser usados para indicar cadeias de caracteres que devem sempre ser consideradas uma correspondência exata. Use o mapeamento de alias quando tiver exemplos de dados específicos que você acha que deveriam ter ou não correspondência usando um dos outros padrões de normalização. Exemplo: Scott e Scooter, ou MSFT e Microsoft.
Bypass personalizado	Permite carregar uma lista personalizada de cadeias de caracteres que podem ser usadas para indicar cadeias de caracteres que jamais devem ter uma correspondência. O desvio personalizado é útil quando você tem dados com valores comuns que devem ser ignorados, como um número de telefone fictício ou um email fictício. Exemplo: jamais haver correspondência do telefone 555-1212 ou de test@contoso.com

Precisão: defina o nível de precisão. A precisão é usada para correspondência exata e difusa e determina o quão próximas duas cadeias de caracteres precisam estar para serem consideradas uma correspondência.
- Básico: escolha entre Baixo (30%), Médio (60%), Alto (80%) e Exato (100%). Selecione Exato para corresponder apenas os registros com 100% de correspondência.
- Personalizado: defina uma porcentagem de correspondência para os registros. O sistema só compara registros que excedam esse limite.
Nome: nome da regra.

Opcionalmente, selecione Adicionar>Adicionar condição para adicionar mais condições à regra. As condições são conectadas a um operador lógico AND e, portanto, somente serão executadas se todas as condições forem atendidas.
Opcionalmente, selecione Adicionar>Adicionar exceção para adicionar exceções à regra. As exceções são usadas para lidar com casos raros de falsos positivos e falsos negativos.
Selecione Concluído para criar a regra.
Opcionalmente, adicione mais regras.

Selecione preferências de mesclagem

Quando as regras são executadas e registros duplicados são identificados para um cliente, uma "linha vencedora" é selecionada com base na política de mesclagem. A linha vencedora representa o cliente na próxima etapa de unificação que corresponde registros entre tabelas. Os dados nas linhas não vencedoras ("alternativas") são usados na etapa de unificação de regras correspondentes para comparar registros de outras tabelas com a linha vencedora. Essa abordagem melhora os resultados de correspondência, permitindo que informações como números de telefone anteriores ajudem a identificar registros correspondentes. A linha vencedora pode ser configurada para ser a mais preenchida, a mais recente ou a menos recente dos registros duplicados encontrados.

Selecione uma tabela e, em seguida, Editar preferências de mesclagem. O painel Preferências de mesclagem é exibida.
Escolha uma das três opções para determinar qual registro manter se uma duplicidade for encontrada:
- Mais preenchido: identifica o registro com as colunas mais preenchidas como o registro vencedor. É a opção de mesclagem padrão.
- Mais recente: identifica o registro vencedor com base na maior recência. Requer uma data ou um campo numérico para definir o nível de atualização.
- Menos recente: identifica o registro vencedor com base na menor recência. Requer uma data ou um campo numérico para definir o nível de atualização.
Se houver um empate, o registro vencedor será aquele com o MAX(PK) ou o maior valor de chave primária.
Como opção, para definir preferências de mesclagem em colunas individuais de uma tabela, selecione Avançado na parte inferior do painel. Por exemplo, você pode manter o email mais recente E o endereço mais completo de diferentes registros. Expanda a tabela para ver todas as colunas e defina qual opção usar para colunas individuais. Se você escolher uma opção baseada em recência, também precisará especificar um campo de data/hora que defina a recência.
Selecione Concluído para aplicar suas preferências de mesclagem.

Depois de definir as regras de eliminação de duplicação e as preferências de mesclagem, selecione Avançar.

Próxima etapa para uma única tabela: exibir dados unificados

Próxima etapa para várias tabelas: definir regras de correspondência

Compartilhar via

Remover duplicatas em cada tabela para unificação de dados

Definir regras de eliminação de duplicação

Selecione preferências de mesclagem

Recursos adicionais