Procedure consigliate per l'unificazione dei dati
Quando imposti le regole per unificare i dati in un profilo cliente, tieni presente queste best practice:
Tempo di saldo da unificare vs. corrispondenza completa. Il tentativo di catturare ogni possibile corrispondenza porta a molte regole e l'unificazione richiede molto tempo.
Aggiungi regole in modo progressivo e tieni traccia dei risultati. Rimuovi le regole che non migliorano il risultato della corrispondenza.
Deduplica ogni tabella in modo che ogni cliente sia rappresentato in una singola riga.
Utilizzare la normalizzazione per standardizzare le variazioni nel modo in cui i dati sono stati immessi, ad esempio Street vs. St vs. St. vs. st.
Usa la corrispondenza fuzzy strategicamente per correggere errori di battitura e non ad esempio bob@contoso.com e bob@contoso.cm. Le corrispondenze fuzzy impiegano più tempo di esecuzione rispetto alle corrispondenze esatte. Verifica sempre se il tempo extra speso per la corrispondenza fuzzy vale la percentuale di corrispondenza aggiuntiva.
Restringi l'ambito delle corrispondenze con la corrispondenza esatta. Assicurati che ogni regola con condizioni fuzzy abbia almeno una condizione di corrispondenza esatta.
Non associare colonne che contengono molti dati ripetuti. Assicurati che le colonne con corrispondenza fuzzy non abbiano valori ripetuti frequentemente, ad esempio il valore predefinito di un modulo "Firstname".
Prestazioni di unificazione
L'esecuzione di ogni regola richiede tempo. Modelli come il confronto di ogni tabella con ogni altra tabella o il tentativo di acquisire ogni possibile corrispondenza di record possono portare a lunghi tempi di elaborazione dell'unificazione. Restituisce anche poche o nessuna corrispondenza in un piano che confronta ogni tabella con una tabella di base.
L'approccio migliore consiste nell'iniziare con un set di regole di base che sai essere necessario, ad esempio il confronto di ogni tabella con la tabella principale. La tabella primaria deve essere la tabella con i dati più completi e attendibili. Questa tabella deve essere ordinata nella parte superiore del passaggio di unificazione delle regole di corrispondenza.
Aggiungi progressivamente diverse regole e verifica quanto tempo impiega per eseguire le modifiche e se i risultati migliorano. Vai a Impostazioni,>Stato>del sistema e seleziona Corrispondenza per vedere quanto tempo ci sono voluti per la deduplicazione e la corrispondenza per ogni esecuzione di unificazione.
Visualizzare le statistiche delle regole nelle pagine Regole di deduplicazione e Regole di corrispondenza per vedere se il numero di record univoci cambia. Se una nuova regola corrisponde ad alcuni record e il conteggio dei record univoci non cambia, una regola precedente identifica tali corrispondenze.
Deduplicazione
Utilizza le regole di deduplicazione per rimuovere i record cliente duplicati all'interno di una tabella in modo che una singola riga in ogni tabella rappresenti ogni cliente. Una buona regola identifica un cliente unico.
In questo semplice esempio, i record 1, 2 e 3 condividono un indirizzo e-mail o un numero di telefono e rappresentano la stessa persona.
ID | Name | il numero | Indirizzo e-mail |
---|---|---|---|
1 | Persona 1 | (425) 555-1111 | AAA@A.com |
2 | Persona 1 | (425) 555-1111 | BBB@B.com |
3 | Persona 1 | (425) 555-2222 | BBB@B.com |
4 | Persona 2 | (206) 555-9999 | Person2@contoso.com |
Non dobbiamo abbinare solo il nome perché così facendo si abbinerebbero persone diverse con lo stesso nome.
Crea la regola 1 usando Nome e Telefono, che corrispondono ai record 1 e 2.
Crea la regola 2 utilizzando Nome ed E-mail, che corrispondono ai record 2 e 3.
La combinazione della Regola 1 e della Regola 2 crea un singolo gruppo di corrispondenza perché condividono il record 2.
Sei tu a decidere il numero di regole e condizioni che identificano in modo univoco i tuoi clienti. Le regole esatte dipendono dai dati che hai a disposizione per la corrispondenza, dalla qualità dei tuoi dati e da quanto vuoi che sia esaustivo il processo di deduplicazione.
Record vincenti e alternativi
Una volta eseguite le regole e identificati i record duplicati, il processo di deduplicazione seleziona una "Riga vincitore". Le righe non vincenti sono denominate "Righe alternate". Le righe alternate vengono utilizzate nel passaggio di unificazione delle regole di corrispondenza per abbinare i record di altre tabelle alla riga vincente. Le righe vengono abbinate ai dati nelle righe alternative oltre alla riga vincente.
Dopo aver aggiunto una regola a una tabella, puoi configurare quale riga selezionare come riga vincitrice tramite Unisci preferenze. Le preferenze di unione vengono impostate per tabella. Indipendentemente dal criterio di unione selezionato, in caso di parità per una riga vincente, la prima riga nell'ordine dei dati viene utilizzata come spareggio.
Normalizzazione
Usa la normalizzazione per standardizzare i dati e migliorare la corrispondenza. La normalizzazione funziona bene su set di dati di grandi dimensioni.
I dati normalizzati vengono utilizzati solo a scopo di confronto per abbinare i record del cliente in modo più efficace. Non modifica i dati nell'output finale del profilo cliente unificato.
Normalizzazione | Esempi |
---|---|
Numeri | Converte molti simboli Unicode che rappresentano numeri in numeri semplici. Esempi: ❽ e Ⅷ sono entrambi normalizzati nel numero 8. Nota: i simboli devono essere codificati in formato punto Unicode. |
Simboli | Rimuove simboli e caratteri speciali. Esempi: !?"#$%&'( )+,.-/:;<=>@^~{}`[ ] |
Testo in minuscolo | Converte i caratteri maiuscoli in minuscoli. Esempio: "QUESTO È uN ESempIO" viene convertito in "questo è un esempio" |
Tipo - Telefono | Converte i telefoni in vari formati in cifre e tiene conto delle variazioni nel modo in cui vengono presentati i codici paese e le estensioni. Esempio: +01 425.555.1212 = 1 (425) 555-1212 |
Tipo - Nome | Converte oltre 500 varianti e titoli di nomi comuni. Esempi: "debby" -> "deborah" "prof" e "professore" -> "Prof." |
Tipo - Indirizzo | Converte le parti comuni degli indirizzi Esempi: "strada" -> "st" e "nordovest" -> "no" |
Tipo - Organizzazione | Rimuove circa 50 "parole non significative" di nomi di società come "co", "corp", "corporation" e "ltd". |
Unicode in ASCII | Unicode in ASCII: converte i caratteri Unicode nella lettera equivalente ASCII Esempio: i caratteri "à,' 'á,' 'â,' 'À,' 'Á,' 'Â,' 'Ã,' 'Ä,' 'Ⓐ," e "A" vengono tutti convertiti in "a." |
Spazio vuoto | Rimuove tutti gli spazi vuoti |
Mapping alias | Consente di caricare un elenco personalizzato di coppie di stringhe che può quindi essere utilizzato per indicare stringhe che devono sempre essere considerate una corrispondenza esatta. Utilizza il mapping degli alias quando disponi di esempi di dati specifici che ritieni debbano corrispondere e che non corrispondono, utilizzando uno degli altri modelli di normalizzazione. Esempio: Scott e Scooter, oppure MSFT e Microsoft. |
Ignora personalizzato | Consente di caricare un elenco personalizzato di stringhe che può quindi essere utilizzato per indicare che non devono mai essere abbinate. Il bypass personalizzato è utile quando si dispone di dati con valori comuni che devono essere ignorati, ad esempio un numero di telefono fittizio o un indirizzo e-mail fittizio. Esempio: non abbinare mai il telefono 555-1212 o test@contoso.com |
Corrispondenza esatta
Usa la precisione per determinare quanto devono essere vicine due stringhe per essere considerate una corrispondenza. L'impostazione di precisione predefinita richiede una corrispondenza esatta. Qualsiasi altro valore abilita la corrispondenza fuzzy per tale condizione.
La precisione può essere impostata su bassa (corrispondenza del 30%), media (corrispondenza del 60%) e alta (corrispondenza dell'80%). Oppure puoi personalizzare e impostare la precisione con incrementi dell'1%.
Condizioni di corrispondenza esatta
Le condizioni di corrispondenza esatta vengono eseguite per prime per ottenere un set di valori più piccolo per le corrispondenze fuzzy. Per essere efficaci, le condizioni di corrispondenza esatta dovrebbero avere un ragionevole grado di unicità. Ad esempio, se tutti i tuoi clienti risiedono nello stesso paese/area geografica, avere una corrispondenza esatta nel paese/area geografica non aiuterebbe a restringere l'ambito.
Colonne come nome completo, e-mail, telefono o indirizzo hanno una buona unicità e sono ottime colonne da utilizzare come corrispondenza esatta.
Assicurati che la colonna che usi per una condizione di corrispondenza esatta non contenga valori che si ripetono frequentemente, ad esempio un valore predefinito "Firstname" acquisito da un modulo. Customer Insights può profilare le colonne di dati per fornire informazioni dettagliate sui principali valori ripetuti. È possibile abilitare la profilatura dei dati su connessioni Azure Data Lake (utilizzando Common Data Model o formato Delta) e Synapse. Il profilo dati viene eseguito al successivo aggiornamento dell'origine dati. Per altre informazioni, vai a Profilatura dei dati.
Corrispondenza fuzzy
Usa la corrispondenza fuzzy per trovare la corrispondenza di stringhe che sono vicine ma non sono esatte a causa di errori di battitura o altre piccole variazioni. Usa la corrispondenza fuzzy in modo strategico in quanto è più lenta delle corrispondenze esatte. Assicurati che ci sia almeno una condizione di corrispondenza esatta in qualsiasi regola con condizioni fuzzy.
La corrispondenza fuzzy non ha lo scopo di catturare variazioni di nome come Suzzie e Suzanne. Queste variazioni vengono acquisite meglio con i criteri di Normalizzazione Tipo: Nome o la corrispondenza alias personalizzata in cui i clienti possono immettere il proprio elenco di variazioni di nome che desiderano configurare come corrispondenze.
Puoi aggiungere condizioni a una regola, ad esempio la corrispondenza di Nome e Telefono. Le condizioni all'interno di una determinata regola sono condizioni "AND". Ogni condizione deve corrispondere affinché le righe corrispondano. Regole separate sono condizioni "OR". Se la regola 1 non corrisponde alle righe, le righe vengono confrontate con la regola 2.
Nota
Solo le colonne con tipo di dati stringa possono utilizzare la corrispondenza fuzzy. Per le colonne con altri tipi di dati, ad esempio integer, double o datetime, il campo precisione è di sola lettura e impostato sulla corrispondenza esatta.
Calcoli di corrispondenza fuzzy
Le corrispondenze fuzzy sono determinate dal calcolo del punteggio della distanza di modifica tra due stringhe. Se il punteggio raggiunge o supera la soglia di precisione, le stringhe vengono considerate una corrispondenza.
La distanza di modifica è il numero di modifiche necessarie per trasformare una stringa in un'altra, aggiungendo, eliminando o modificando un carattere.
Ad esempio, le stringhe "Jacqueline" e "Jaclyne" hanno una distanza di modifica pari a cinque se rimuoviamo i caratteri q, u, e, i ed e e inseriamo il carattere y.
Per calcolare il punteggio di distanza di modifica, usa questa formula: (lunghezza stringa base - distanza di modifica)/lunghezza stringa base.
Stringa base | Stringa di confronto | Punteggio |
---|---|---|
Jacqueline | Jaclyne | (10-4)/10=,6 |
fred@contoso.com | fred@contso.cm | (14-2)/14 = 0,857 |
franklin | frank | (8-3) / 8 = 0,625 |