Partilhar via


Melhores práticas de unificação de dados

Ao configurar regras para unificar os seus dados num perfil de cliente, considere estas melhores práticas:

  • Equilibre o tempo para unificar vs. completar a correspondência. Tentar capturar todas as correspondências possíveis leva a muitas regras e à unificação demorar muito tempo.

  • Adicione regras progressivamente e monitorize os resultados. Remova as regras que não melhoram o resultado da correspondência.

  • Elimine os duplicadas de cada tabela para que cada cliente seja representado numa única linha.

  • Use a normalização para padronizar variações na forma como os dados foram introduzidos, como Rua vs. R. vs. r.

  • Use a correspondência difusa estrategicamente para corrigir erros de digitação e erros como bob@contoso.com e bob@contoso.cm. As correspondências difusas demoram mais tempo a serem executadas do que as correspondências exatas. Teste sempre para ver se o tempo extra gasto na correspondência difusa compensa a taxa de correspondência extra.

  • Reduza o âmbito das correspondências com a correspondência exata. Certifique-se de que cada regra com condições difusas tem, pelo menos, uma condição de correspondência exata.

  • Não corresponda colunas que contenham dados muito repetidos. Certifique-se de que as colunas com correspondência difusa não têm valores repetidos com frequência, como o valor predefinido de um formulário de "Nome próprio".

Desempenho da unificação

Cada regra leva tempo para ser executada. Padrões como comparar cada tabela com todas as outras tabelas ou tentar capturar todas as correspondências de registos possíveis podem levar a longos tempos de processamento de unificação. Também obtém poucas ou mais nenhumas correspondências num plano que compara cada tabela com uma tabela base.

A melhor abordagem é começar com um conjunto básico de regras que sabe que são necessárias, como comparar cada tabela com a tabela principal. A sua tabela primária deve ser a tabela com os dados mais completos e precisos. Esta tabela deve ser ordenada no topo no passo Unificação das regras de correspondência.

Adicione progressivamente várias regras e veja quanto tempo as alterações demoram a ser executadas e se os resultados melhoram. Aceda a Definições>Sistema>Estado e selecione Corresponder para ver quanto tempo a eliminação de duplicados e a correspondência levaram para cada execução de unificação.

Captura de ecrã da página Estado a mostrar os tempos de execução da Correspondência.

Veja as estatísticas da regra nas páginas Regras de eliminação de duplicados e Regras de correspondência para ver se o número de Registos exclusivos muda. Se uma nova regra corresponder a alguns registos e a contagem de registos exclusivos não for alterada, uma regra anterior identificará essas correspondências.

Captura de ecrã da página Regras de correspondência a realçar registos Exclusivos.

Dados do cliente

No passo Dados do cliente:

  • Exclua as colunas que não são necessárias para regras de correspondência ou que não deseja incluir no perfil do cliente final.

  • Reveja as descrições das colunas selecionadas pelo mapeamento inteligente.

  • Nem todas as colunas têm de ser mapeadas. O mapeamento de colunas comuns, como campos de e-mail e endereço, permite que o Customer Insights facilite os processos a jusante, mas as colunas com um ID ou objetivo exclusivo para o seu negócio podem ser deixadas sem mapeamento.

Eliminação de duplicados

Use regras de eliminação de duplicados para remover registos de clientes duplicados numa tabela, de modo a que uma única linha em cada tabela represente cada cliente. Uma boa regra identifica um cliente exclusivo.

Neste exemplo simples, os registos 1, 2 e 3 partilham um e-mail ou um número de telefone e representam a mesma pessoa.

ID Nome Telemóvel E-mail
1 Pessoa 1 (425) 555-1111 AAA@A.com
2 Pessoa 1 (425) 555-1111 BBB@B.com
3 Pessoa 1 (425) 555-2222 BBB@B.com
4 Pessoa 2 (206) 555-9999 Person2@contoso.com

Não pretendemos corresponder apenas o nome, uma vez que isso corresponderia pessoas diferentes com o mesmo nome.

  • Crie a Regra 1 com o Nome e o Telefone, o que corresponde os registos 1 e 2.

  • Crie a Regra 2 com o Nome e o E-mail, o que corresponde os registos 2 e 3.

A combinação da Regra 1 e Regra 2 cria um único grupo de correspondência porque partilham o registo 2.

Você decide o número de regras e de condições que identificam exclusivamente os seus clientes. As regras exatas dependem dos dados disponíveis para correspondência, da qualidade dos seus dados e do quão exaustivo pretende que o processo de eliminação de duplicados seja.

Normalização

Use a normalização para padronizar os dados para obter uma melhor correspondência. A normalização tem um bom desempenho em grandes conjuntos de dados.

Os dados normalizados são usados apenas para fins de comparação para corresponder os registos do cliente de forma mais eficaz. Não altera os dados na saída final do perfil de cliente unificado.

Correspondência exata

Use a precisão para determinar o quão próximas duas cadeias devem ser para serem consideradas uma correspondência. A definição de precisão predefinida requer uma correspondência exata. Qualquer outro valor permite a correspondência difusa para essa condição.

A precisão pode ser definida como baixa (30% de correspondência), média (60% de correspondência) e alta (80% de correspondência). Ou pode personalizar e definir a precisão em incrementos de 1%.

Condições de correspondência exata

As condições de correspondência exata são executadas primeiro para obter um conjunto menor de valores para correspondências difusas. Para serem eficazes, as condições de correspondência exata devem ter um grau razoável de exclusividade. Por exemplo, se todos os seus clientes residirem no mesmo país/região, ter uma correspondência exata no país/região não ajudaria a reduzir o âmbito.

Colunas, como campos de nome completo, e-mail, telefone ou endereço, têm boa exclusividade e são colunas ótimas para usar como correspondência exata.

Verifique se a coluna usada para uma condição de correspondência exata não tem valores repetidos com frequência, como um valor predefinido de "Nome próprio" capturado por um formulário. O Customer Insights pode criar perfis de colunas de dados para fornecer informações sobre os principais valores repetidos. Pode permitir a análise para otimização de dados em ligações do Azure Data Lake (usando o Common Data Model ou o formato Delta) e Synapse. O perfil de dados é executado da próxima vez que a origem de dados for atualizada. Para mais informações, aceda a Análise para otimização de dados.

Correspondência difusa

Use a correspondência difusa para corresponder cadeias que estão próximas, mas não são exatas devido a erros de digitação ou outras pequenas variações. Use a correspondência difusa estrategicamente, pois é mais lenta do que as correspondências exatas. Certifique-se de que há, pelo menos, uma condição de correspondência em qualquer regra com condições difusas.

A correspondência difusa não se destina a capturar variações de nomes como Suzzie e Suzanne. Estas variações são melhor capturadas com o padrão de Normalização Tipo: Nome ou a Correspondência de alias personalizada, onde os clientes podem inserir a lista de variações de nome que pretendem considerar como correspondências.

Pode adicionar condições a uma regra, tal como corresponder Nome Próprio e Telefone. As condições numa determinada regra são condições "AND". Todas as condições têm de corresponder para que as linhas correspondam. Regras separadas são condições "OR". Se a Regra 1 não corresponder as linhas, as linhas serão comparadas à Regra 2.

Nota

Só as colunas de tipo de dados de cadeia podem usar correspondência difusa. Para colunas com outros tipos de dados, como número inteiro, duplo ou data/hora, o campo de precisão é só de leitura e está definido para a correspondência exata.

Cálculos de correspondência difusa

As correspondências difusas são determinadas ao calcular a classificação da distância de edição entre duas cadeias. Se a classificação satisfizer ou exceder o limiar de precisão, as cadeias serão consideradas uma correspondência.

A distância de edição é o número de edições necessárias para transformar uma cadeia noutra, adicionando, eliminando ou alterando um caráter.

Por exemplo, as cadeias "robert2020@hotmail.com" e "robrt2020@hotmail.cm" têm uma distância de edição de dois quando removemos os carateres e e o. Para calcular a classificação da distância de edição, utilize esta fórmula: (Comprimento da cadeia de base – Distância de Edição) / Comprimento da cadeia de base.

Cadeia base Cadeia de comparação Pontuação
robert2020@hotmail.com robrt2020@hotmail.cm (20 - 2)/20 = 0,9