Compartilhar via


Práticas recomendadas de unificação de dados

Ao configurar regras para unificar os dados a um perfil do cliente, considere estas melhores práticas:

  • Equilibre o tempo para unificação X conclusão da comparação. Tentar capturar todos os clientes potenciais possíveis acarreta muitas regras, e a unificação demora muito.

  • Adicione regras progressivamente e acompanhe os resultados. Remova as regras que não melhorem o resultado da partida.

  • Elimine a duplicação de cada tabela, de maneira que cada cliente seja representado em uma única linha.

  • Use a normalização para padronizar variações em como os dados foram inseridos, como Street X St X St. X st.

  • Use estrategicamente a correspondência difusa para corrigir erros de digitação e erros como bob@contoso.com e bob@contoso.cm. As correspondências difusas demoram mais tempo para serem executadas do que correspondências exatas. Sempre teste para saber se o tempo extra gasto na correspondência difusa vale a taxa de correspondência adicional.

  • Reduza o escopo das correspondências com a correspondência exata. Verifique se cada regra com condições difusas tem pelo menos uma condição de correspondência exata.

  • Não correlacione colunas que contenham dados muito repetidos. Verifique se as colunas com correspondência difusa não têm valores repetidos com frequência, como o valor padrão de um formulário de "Nome".

Desempenho da unificação

Cada regra demora para ser executada. Padrões como comparar cada tabela com todas as outras tabelas ou tentar capturar todas as correspondências de registros possíveis podem levar a longos tempos de processamento de unificação. Isso também retorna poucas ou mais correspondências em um plano que compara cada tabela a uma tabela base.

A melhor abordagem é começar com um conjunto básico de regras que você sabe que são necessárias, como comparar cada tabela com a tabela primária. A tabela primária deve ser aquela com os dados mais completos e precisos. Essa tabela deve ser ordenada na parte superior da etapa de unificação das regras de correspondência.

Adicione progressivamente diversas regras e veja quanto tempo as alterações levam para serem executadas e se os resultados melhoram. Vá até Configurações>Status>Sistema e selecione Correspondência para ver quanto tempo a eliminação de duplicação e a correspondência levaram para cada execução de unificação.

Captura de tela da página Status mostrando os tempos de execução da correspondência.

Exiba as estatísticas de regra nas páginas Regras de eliminação de duplicação e Regras de correspondência para saber se o número de Registros exclusivos é alterado. Se uma nova regra corresponder a alguns registros e a contagem de registros exclusivos não for alterada, uma regra anterior identificará essas correspondências.

Captura de tela da página Regras de correspondência realçando registros exclusivos.

Eliminação de duplicação

Use regras de eliminação de duplicação para remover registros de cliente duplicados em uma tabela para que uma única linha em cada tabela represente cada cliente. Uma boa regra identifica um cliente exclusivo.

Neste exemplo simples, os registros 1, 2 e 3 compartilham um email ou número de telefone e representam a mesma pessoa.

ID Name o Telefone e-mail
1 Pessoa 1 (425) 555-1111 AAA@A.com
2 Pessoa 1 (425) 555-1111 BBB@B.com
3 Pessoa 1 (425) 555-2222 BBB@B.com
4 Pessoa 2 (206) 555-9999 Person2@contoso.com

Não queremos comparar apenas o nome, pois isso corresponderia a pessoas diferentes com o mesmo nome.

  • Crie a Regra 1 usando Nome e Telefone, que corresponde aos registros 1 e 2.

  • Crie a Regra 2 usando Nome e Email, que corresponde aos registros 2 e 3.

A combinação da Regra 1 e da Regra 2 cria um único grupo de correspondência porque elas compartilham o registro 2.

Você decide o número de regras e condições que identificam os clientes com exclusividade. As regras exatas dependem dos dados que você tem disponíveis para correspondência, da qualidade dos dados e da extensão que você deseja que o processo de eliminação de duplicação tenha.

Normalização

Use a normalização a fim de padronizar dados para uma correspondência melhor. A normalização apresenta um bom desempenho em grandes conjuntos de dados.

Os dados normalizados só são usados para fins de comparação a fim de comparar registros do cliente de maneira mais eficaz. Ela não altera os dados na saída do perfil unificado de cliente final.

Correspondência exata

Use a precisão para determinar a proximidade que duas cadeias de caracteres devem ter para serem consideradas uma correspondência. A configuração de precisão padrão requer uma correspondência exata. Qualquer outro valor habilita a correspondência difusa para essa condição.

A precisão pode ser definida como baixa (30% de correspondência), média (60% de correspondência) e alta (80% de correspondência). Ou você pode personalizar e definir a precisão em incrementos de 1%.

Condições de correspondência exata

As condições de correspondência exata são executadas primeiramente para obter um conjunto menor de valores para correspondências difusas. Para serem eficazes, as condições de correspondência exata devem ter um grau razoável de exclusividade. Por exemplo, se todos os clientes residirem no mesmo país/região, ter uma correspondência exata no país/região não ajudaria a restringir o escopo.

Colunas como campos de nome completo, email, telefone ou endereço têm boa exclusividade e são ótimas colunas a serem usadas como uma correspondência exata.

Verifique se a coluna usada para uma condição de correspondência exata não tem valores repetidos com frequência, como um valor padrão de "Nome" capturado por um formulário. O Customer Insights pode criar o perfil de colunas de dados para fornecer informações sobre os principais valores repetidos. Você pode habilitar a criação de perfil de dados em conexões do Azure Data Lake (usando o formato Common Data Model ou Delta) e do Synapse. O perfil de dados é executado quando a fonte de dados é atualizada em seguida. Para obter mais informações, vá até Criação de perfil de dados.

Correspondência difusa

Use a correspondência difusa para correlacionar cadeias de caracteres próximas, mas não exatas por causa de erros de digitação ou outras pequenas variações. Use a correspondência difusa estrategicamente, pois ela é mais lenta do que as correspondências exatas. Verifique se pelo menos uma condição de correspondência exata em qualquer regra apresenta condições difusas.

A correspondência difusa não se destina a capturar variações de nomes como Suzzie e Suzanne. Essas variações são mais bem capturadas com o padrão de normalização Type: Name ou a Correspondência de alias personalizada, onde os clientes podem inserir a lista de variações de nome que desejam considerar como correspondências.

Você pode adicionar condições a uma regra, como comparar Nome e Telefone. As condições dentro de uma determinada regra são condições "E". Cada condição deve coincidir para que as linhas correspondam. Regras separadas são condições "OU". Se a Regra 1 não corresponder às linhas, elas serão comparadas à Regra 2.

Observação

Somente colunas do tipo de dados da cadeia de caracteres podem usar correspondência difusa. Para colunas com outros tipos de dados, como inteiro, duplo ou datetime, o campo de precisão é somente leitura e definido como a correspondência exata.

Cálculos de correspondência difusa

As correspondências difusas são determinadas pela computação da pontuação da distância de edição entre duas cadeias de caracteres. Se a pontuação atingir ou exceder o limite de precisão, as cadeias de caracteres serão consideradas uma correspondência.

A distância de edição é o número de edições necessárias para transformar uma cadeia de caracteres em outra adicionando, excluindo ou alterando um caractere.

Por exemplo, as cadeias de caracteres "robert2020@hotmail.com" e "robrt2020@hotmail.cm" têm uma distância de edição de dois quando removemos os caracteres e e o. Para calcular a pontuação da distância de edição, use esta fórmula: (Comprimento da cadeia de caracteres base – Distância de edição)/Comprimento da cadeia de caracteres base.

Cadeia de caracteres base Cadeia de caracteres de comparação Pontuação
robert2020@hotmail.com robrt2020@hotmail.cm (20 - 2)/20 = 0,9