Compartilhar via


Práticas recomendadas de unificação de dados

Ao configurar regras para unificar os dados a um perfil do cliente, considere estas melhores práticas:

  • Equilibre o tempo para unificação X conclusão da comparação. Tentar capturar todos os clientes potenciais possíveis acarreta muitas regras, e a unificação demora muito.

  • Adicione regras progressivamente e acompanhe os resultados. Remova as regras que não melhorem o resultado da partida.

  • Elimine a duplicação de cada tabela, de maneira que cada cliente seja representado em uma única linha.

  • Use a normalização para padronizar variações em como os dados foram inseridos, como Street X St X St. X st.

  • Use estrategicamente a correspondência difusa para corrigir erros de digitação e erros como bob@contoso.com e bob@contoso.cm. As correspondências difusas demoram mais tempo para serem executadas do que correspondências exatas. Sempre teste para saber se o tempo extra gasto na correspondência difusa vale a taxa de correspondência adicional.

  • Reduza o escopo das correspondências com a correspondência exata. Verifique se cada regra com condições difusas tem pelo menos uma condição de correspondência exata.

  • Não correlacione colunas que contenham dados muito repetidos. Verifique se as colunas com correspondência difusa não têm valores repetidos com frequência, como o valor padrão de um formulário de "Nome".

Desempenho da unificação

Cada regra demora para ser executada. Padrões como comparar cada tabela com todas as outras tabelas ou tentar capturar todas as correspondências de registros possíveis podem levar a longos tempos de processamento de unificação. Isso também retorna poucas ou mais correspondências em um plano que compara cada tabela a uma tabela base.

A melhor abordagem é começar com um conjunto básico de regras que você sabe que são necessárias, como comparar cada tabela com a tabela primária. A tabela primária deve ser aquela com os dados mais completos e precisos. Essa tabela deve ser ordenada na parte superior da etapa de unificação das regras de correspondência.

Adicione progressivamente diversas regras e veja quanto tempo as alterações levam para serem executadas e se os resultados melhoram. Vá até Configurações>Status>Sistema e selecione Correspondência para ver quanto tempo a eliminação de duplicação e a correspondência levaram para cada execução de unificação.

Captura de tela da página Status mostrando os tempos de execução da correspondência.

Exiba as estatísticas de regra nas páginas Regras de eliminação de duplicação e Regras de correspondência para saber se o número de Registros exclusivos é alterado. Se uma nova regra corresponder a alguns registros e a contagem de registros exclusivos não for alterada, uma regra anterior identificará essas correspondências.

Captura de tela da página Regras de correspondência realçando registros exclusivos.

Eliminação de duplicação

Use regras de eliminação de duplicação para remover registros de cliente duplicados em uma tabela para que uma única linha em cada tabela represente cada cliente. Uma boa regra identifica um cliente exclusivo.

Neste exemplo simples, os registros 1, 2 e 3 compartilham um email ou número de telefone e representam a mesma pessoa.

ID Name o Telefone e-mail
1 Pessoa 1 (425) 555-1111 AAA@A.com
2 Pessoa 1 (425) 555-1111 BBB@B.com
3 Pessoa 1 (425) 555-2222 BBB@B.com
4 Pessoa 2 (206) 555-9999 Person2@contoso.com

Não queremos comparar apenas o nome, pois isso corresponderia a pessoas diferentes com o mesmo nome.

  • Crie a Regra 1 usando Nome e Telefone, que corresponde aos registros 1 e 2.

  • Crie a Regra 2 usando Nome e Email, que corresponde aos registros 2 e 3.

A combinação da Regra 1 e da Regra 2 cria um único grupo de correspondência porque elas compartilham o registro 2.

Você decide o número de regras e condições que identificam os clientes com exclusividade. As regras exatas dependem dos dados que você tem disponíveis para correspondência, da qualidade dos dados e da extensão que você deseja que o processo de eliminação de duplicação tenha.

Registros vencedores e alternativos

Depois que as regras são executadas e os registros duplicados são identificados, o processo de eliminação de duplicação seleciona uma "Linha vencedora". As linhas não vencedoras são chamadas de "Linhas alternativas". As linhas alternativas são usadas na etapa de unificação das regras de correspondência de acordo com registros de outras tabelas para a linha vencedora. As linhas são comparadas com os dados nas linhas alternativas, além da linha vencedora.

Depois de adicionar uma regra a uma tabela, você poderá configurar qual linha selecionar como a linha vencedora por meio das preferências de mesclagem. As preferências de mesclagem são definidas por tabela. Não importa qual política de mesclagem esteja selecionada, se houver um empate para uma linha vencedora, a primeira linha na ordem de dados será usada como critério de desempate.

Normalização

Use a normalização a fim de padronizar dados para uma correspondência melhor. A normalização apresenta um bom desempenho em grandes conjuntos de dados.

Os dados normalizados só são usados para fins de comparação a fim de comparar registros do cliente de maneira mais eficaz. Ela não altera os dados na saída do perfil unificado de cliente final.

Normalização Exemplos
Numerais Converte muitos símbolos Unicode que representam números em números simples.
Exemplos: ❽ e Ⅷ são ambos normalizados para o número 8.
Observação: os símbolos devem ser codificados no formato Unicode Point.
Símbolos Remove símbolos e caracteres especiais.
Exemplos: !?"#$%&'( )+,.-/:;<=>@^~{}`[ ]
Texto em letras minúsculas Converte caracteres maiúsculos em minúsculos. 
Exemplo: "ESTE É uM EXemplO" é convertido em "este é um exemplo"
Tipo – Telefone Converte telefones em formatos variados em dígitos e leva em conta variações na maneira como extensões e códigos de país são apresentados. 
Exemplo: +01 425.555.1212 = 1 (425) 555-1212
Tipo – Nome Converte mais de 500 variações de nomes e títulos em comum. 
Exemplos: "debby" -> "deborah" "prof" e "professor" -> "Prof."
Tipo – Endereço Converte partes comuns de endereços
Exemplos: "street" -> "st" e "northwest" -> "nw"
Tipo – Organização Remove aproximadamente 50 "palavras de ruído" do nome de empresa, como "co," "corp," "corporation" e "ltd."
Unicode para ASCII Converte caracteres Unicode no equivalente de lertra ASCII
Exemplo: os caracteres 'à,' 'á,' 'â,' 'À,' 'Á,' 'Â,' 'Ã,' 'Ä,' 'Ⓐ' e 'A' são todos convertidos em 'a'.
Espaço em branco Remove todos os espaços em branco
Mapeamento de alias Permite carregar uma lista personalizada de pares de cadeias de caracteres que podem ser usados para indicar cadeias de caracteres que devem sempre ser consideradas uma correspondência exata. 
Use o mapeamento de alias quando tiver exemplos de dados específicos que você acha que deveriam ter ou não correspondência usando um dos outros padrões de normalização. 
Exemplo: Scott e Scooter, ou MSFT e Microsoft.
Bypass personalizado Permite carregar uma lista personalizada de cadeias de caracteres que podem ser usadas para indicar cadeias de caracteres que jamais devem ter uma correspondência.
O desvio personalizado é útil quando você tem dados com valores comuns que devem ser ignorados, como um número de telefone fictício ou um email fictício. 
Exemplo: jamais haver correspondência do telefone 555-1212 ou de test@contoso.com

Correspondência exata

Use a precisão para determinar a proximidade que duas cadeias de caracteres devem ter para serem consideradas uma correspondência. A configuração de precisão padrão requer uma correspondência exata. Qualquer outro valor habilita a correspondência difusa para essa condição.

A precisão pode ser definida como baixa (30% de correspondência), média (60% de correspondência) e alta (80% de correspondência). Ou você pode personalizar e definir a precisão em incrementos de 1%.

Condições de correspondência exata

As condições de correspondência exata são executadas primeiramente para obter um conjunto menor de valores para correspondências difusas. Para serem eficazes, as condições de correspondência exata devem ter um grau razoável de exclusividade. Por exemplo, se todos os clientes residirem no mesmo país/região, ter uma correspondência exata no país/região não ajudaria a restringir o escopo.

Colunas como campos de nome completo, email, telefone ou endereço têm boa exclusividade e são ótimas colunas a serem usadas como uma correspondência exata.

Verifique se a coluna usada para uma condição de correspondência exata não tem valores repetidos com frequência, como um valor padrão de "Nome" capturado por um formulário. O Customer Insights pode criar o perfil de colunas de dados para fornecer informações sobre os principais valores repetidos. Você pode habilitar a criação de perfil de dados em conexões do Azure Data Lake (usando o formato Common Data Model ou Delta) e do Synapse. O perfil de dados é executado quando a fonte de dados é atualizada em seguida. Para obter mais informações, vá até Criação de perfil de dados.

Correspondência difusa

Use a correspondência difusa para correlacionar cadeias de caracteres próximas, mas não exatas por causa de erros de digitação ou outras pequenas variações. Use a correspondência difusa estrategicamente, pois ela é mais lenta do que as correspondências exatas. Verifique se pelo menos uma condição de correspondência exata em qualquer regra apresenta condições difusas.

A correspondência difusa não se destina a capturar variações de nomes como Suzzie e Suzanne. Essas variações são mais bem capturadas com o padrão de normalização Type: Name ou a Correspondência de alias personalizada, onde os clientes podem inserir a lista de variações de nome que desejam considerar como correspondências.

Você pode adicionar condições a uma regra, como comparar Nome e Telefone. As condições dentro de uma determinada regra são condições "E". Cada condição deve coincidir para que as linhas correspondam. Regras separadas são condições "OU". Se a Regra 1 não corresponder às linhas, elas serão comparadas à Regra 2.

Observação

Somente colunas do tipo de dados da cadeia de caracteres podem usar correspondência difusa. Para colunas com outros tipos de dados, como inteiro, duplo ou datetime, o campo de precisão é somente leitura e definido como a correspondência exata.

Cálculos de correspondência difusa

As correspondências difusas são determinadas pela computação da pontuação da distância de edição entre duas cadeias de caracteres. Se a pontuação atingir ou exceder o limite de precisão, as cadeias de caracteres serão consideradas uma correspondência.

A distância de edição é o número de edições necessárias para transformar uma cadeia de caracteres em outra adicionando, excluindo ou alterando um caractere.

Por exemplo, as cadeias de caracteres "Jacqueline" e "Jaclyne" têm uma distância de edição de cinco quando removemos os caracteres q, u, e, i, e, com a inserção do caractere y.

Para calcular a pontuação da distância de edição, use esta fórmula: (Comprimento da cadeia de caracteres base – Distância de edição)/Comprimento da cadeia de caracteres base.

Cadeia de caracteres base Cadeia de caracteres de comparação Pontuação
Jacqueline Jaclyne (10-4)/10=0,6
fred@contoso.com fred@contso.cm (14-2)/14 = 0,857
franklin frank (8-3)/8 = 0,625