Procedure consigliate per l'unificazione dei dati
Quando imposti le regole per unificare i dati in un profilo cliente, tieni presente queste procedure consigliate:
Tempo di saldo da unificare vs. corrispondenza completa. Il tentativo di acquisire ogni possibile corrispondenza porta a molte regole e l'unificazione richiede molto tempo.
Aggiungi regole in modo progressivo e tieni traccia dei risultati. Rimuovi le regole che non migliorano il risultato della corrispondenza.
Deduplica ogni tabella in modo che ogni cliente sia rappresentato in una singola riga.
Usare la normalizzazione per la standardizzazione delle variazioni per il modo in cui i dati sono stati immessi, ad esempio Street vs. St vs. St. vs. st.
Usa la corrispondenza fuzzy strategicamente per correggere errori di battitura e non ad esempio bob@contoso.com e bob@contoso.cm. Le corrispondenze fuzzy impiegano più tempo di esecuzione rispetto alle corrispondenze esatte. Verifica sempre se il tempo aggiuntivo speso per la corrispondenza fuzzy vale la percentuale di corrispondenza aggiuntiva.
Restringi l'ambito delle corrispondenze con la corrispondenza esatta. Assicurati che ogni regola con condizioni fuzzy abbia almeno una condizione di corrispondenza esatta.
Non associare colonne che contengono molti dati ripetuti. Assicurati che le colonne con corrispondenza fuzzy non abbiano valori ripetuti frequentemente, ad esempio il valore predefinito di un modulo "Firstname".
Prestazioni di unificazione
L'esecuzione di ogni regola richiede tempo. Modelli come il confronto di ogni tabella con ogni altra tabella o il tentativo di acquisire ogni possibile corrispondenza di record possono portare a lunghi tempi di elaborazione dell'unificazione. Restituisce anche poche o nessuna corrispondenza in un piano che confronta ogni tabella con una tabella di base.
L'approccio migliore consiste nell'iniziare con un set di regole di base necessario, ad esempio il confronto di ogni tabella con la tabella principale. La tabella primaria deve essere la tabella con i dati più completi e attendibili. Questa tabella deve essere ordinata nella parte superiore del passaggio di unificazione delle regole di corrispondenza.
Aggiungi progressivamente diverse regole e verifica quanto tempo si impiega per eseguire le modifiche e se i risultati migliorano. Vai a Impostazioni>Sistema>Stato e seleziona Corrispondenza per visualizzare quanto tempo ha impiegato la deduplicazione e la corrispondenza per ciascuna esecuzione di unificazione.
Visualizzare le statistiche delle regole nelle pagine Regole di deduplicazione e Regole di corrispondenza per vedere se il numero di record univoci cambia. Se una nuova regola corrisponde ad alcuni record e il conteggio dei record univoci non cambia, una regola precedente identifica tali corrispondenze.
Deduplicazione
Utilizza le regole di deduplicazione per rimuovere i record cliente duplicati all'interno di una tabella in modo che una singola riga in ogni tabella rappresenti ogni cliente. Una buona regola identifica un cliente unico.
In questo semplice esempio, i record 1, 2 e 3 condividono un indirizzo e-mail o un numero di telefono e rappresentano la stessa persona.
ID | Name | il numero | Indirizzo e-mail |
---|---|---|---|
1 | Persona 1 | (425) 555-1111 | AAA@A.com |
2 | Persona 1 | (425) 555-1111 | BBB@B.com |
3 | Persona 1 | (425) 555-2222 | BBB@B.com |
4 | Persona 2 | (206) 555-9999 | Person2@contoso.com |
Non dobbiamo abbinare solo il nome perché così facendo si abbinerebbero persone diverse con lo stesso nome.
Crea la regola 1 usando Nome e Telefono, che corrispondono ai record 1 e 2.
Crea la regola 2 utilizzando Nome ed E-mail, che corrispondono ai record 2 e 3.
La combinazione della Regola 1 e della Regola 2 crea un singolo gruppo di corrispondenza perché condividono il record 2.
L'utente decide il numero di regole e condizioni che identificano in modo univoco i tuoi clienti. Le regole esatte dipendono dai dati che hai a disposizione per la corrispondenza, dalla qualità dei tuoi dati e da quanto vuoi che sia esaustivo il processo di deduplicazione.
Normalizzazione
Usa la normalizzazione per la standardizzazione dei dati e l'ottimizzazione della corrispondenza. La normalizzazione funziona bene su set di dati di grandi dimensioni.
I dati normalizzati vengono utilizzati solo a scopo di confronto per abbinare i record del cliente in modo più efficace. Non modifica i dati nell'output finale del profilo cliente unificato.
Corrispondenza esatta
Usa la precisione per determinare quanto devono essere vicine due stringhe per essere considerate una corrispondenza. L'impostazione di precisione predefinita richiede una corrispondenza esatta. Qualsiasi altro valore abilita la corrispondenza fuzzy per tale condizione.
La precisione può essere impostata su bassa (corrispondenza del 30%), media (corrispondenza del 60%) e alta (corrispondenza dell'80%). Oppure puoi personalizzare e impostare la precisione con incrementi dell'1%.
Condizioni di corrispondenza esatta
Le condizioni di corrispondenza esatta vengono eseguite per prime per ottenere un set di valori più piccolo per le corrispondenze fuzzy. Per essere efficaci, le condizioni di corrispondenza esatta dovrebbero avere un ragionevole grado di unicità. Ad esempio, se tutti i tuoi clienti risiedono nello stesso paese/area geografica, avere una corrispondenza esatta nel paese/area geografica non aiuterebbe a restringere l'ambito.
Colonne come nome completo, e-mail, telefono o indirizzo hanno una buona unicità e sono ottime colonne da utilizzare come corrispondenza esatta.
Assicurati che la colonna che usi per una condizione di corrispondenza esatta non contenga valori che si ripetono frequentemente, ad esempio un valore predefinito "Firstname" acquisito da un modulo. Customer Insights può profilare le colonne di dati per fornire informazioni dettagliate sui principali valori ripetuti. È possibile abilitare la profilatura dei dati su connessioni Azure Data Lake (utilizzando Common Data Model o formato Delta) e Synapse. Il profilo dati viene eseguito al successivo aggiornamento dell'origine dati. Per altre informazioni, vai a Profilatura dei dati.
Corrispondenza fuzzy
Usa la corrispondenza fuzzy per trovare la corrispondenza di stringhe che sono vicine ma non sono esatte a causa di errori di battitura o altre piccole variazioni. Usa la corrispondenza fuzzy in modo strategico in quanto è più lenta delle corrispondenze esatte. Assicurati che ci sia almeno una condizione di corrispondenza esatta in qualsiasi regola con condizioni fuzzy.
La corrispondenza fuzzy non ha lo scopo di rilevare variazioni di nome ad esempio Suzzie e Suzanne. Queste variazioni vengono acquisite meglio con i criteri di Normalizzazione Tipo: Nome o la corrispondenza alias personalizzata in cui i clienti possono immettere il proprio elenco di variazioni di nome che desiderano configurare come corrispondenze.
Puoi aggiungere condizioni a una regola, ad esempio la corrispondenza di Nome e Telefono. Le condizioni all'interno di una determinata regola sono condizioni "AND". Ogni condizione deve corrispondere affinché le righe corrispondano. Regole separate sono condizioni "OR". Se la regola 1 non corrisponde alle righe, le righe vengono confrontate con la regola 2.
Nota
Solo le colonne con tipo di dati stringa possono utilizzare la corrispondenza fuzzy. Per le colonne con altri tipi di dati, ad esempio integer, double o datetime, il campo precisione è di sola lettura e impostato sulla corrispondenza esatta.
Calcoli di corrispondenza fuzzy
Le corrispondenze fuzzy sono determinate dal calcolo del punteggio della distanza di modifica tra due stringhe. Se il punteggio raggiunge o supera la soglia di precisione, le stringhe vengono considerate una corrispondenza.
La distanza di modifica è il numero di modifiche necessarie per trasformare una stringa in un'altra, aggiungendo, eliminando o modificando un carattere.
Ad esempio, le stringhe "robert2020@hotmail.com" e "robrt2020@hotmail.cm" hanno una distanza di edizione pari a due se rimuoviamo i caratteri e e o. Per calcolare il punteggio di distanza di modifica, usa questa formula: (lunghezza stringa base - distanza di modifica)/lunghezza stringa base.
Stringa base | Stringa di confronto | Punteggio |
---|---|---|
robert2020@hotmail.com | robrt2020@hotmail.cm | (20 - 2)/20 = 0,9 |