Tietojen yhtenäistämisen parhaat käytännöt
Kun määrität sääntöjä tietojen yhtenäistämiseksi asiakasprofiiliksi, ota huomioon seuraavat parhaat käytännöt:
Tasapainota yhdistämisaika ja täydellinen vastaavuus. Jokaisen mahdollisen vastaavuuden kaappaaminen johtaa moniin sääntöihin ja yhdistäminen kestää kauan.
Lisää sääntöjä asteittain ja seuraa tuloksia. Poista säännöt, jotka eivät paranna vastaavuuden tulosta.
Poista kunkin taulukon kaksoiskappaleet siten, että jokainen asiakas on edustettuna yhdellä rivillä.
Normalisoinnin avulla voit standardoida tietojen syöttötavan muunnelmia , kuten Street/St/St./st.
Käytä sumeaa vastaavuuksien hakua strategisesti korjataksesi kirjoitusvirheitä ja virheitä, kuten bob@contoso.com/bob@contoso.cm. Sumea vastaavuuksien haku kestää kauemmin kuin tarkat vastaavuudet. Testaa aina, onko sumeaan vastaavuuteen käytetty ylimääräinen aika ylimääräisen vastaavuusprosentin arvoinen.
Rajaa vastaavuuksien laajuutta tarkan vastaavuuden avulla. Varmista, että jokaisella säännöllä, jossa on sumean vastaavuuksien haun ehtoja, on vähintään yksi tarkka vastaavuusehto.
Älä etsi vastaavuuksia sarakkeille, jotka sisältävät paljon toistuvia tietoja. Varmista, että sumeiden vastineiden sarakkeissa ei toisteta usein arvoja, kuten lomakkeen Etunimi-oletusarvoa.
Yhtenäistämisen suorituskyky
Jokaisen säännön suorittaminen vie aikaa. Kuviot, kuten jokaisen taulukon vertaaminen kaikkiin muihin taulukoihin tai yritys kaapata kaikki mahdolliset tietueosumat, voivat johtaa pitkiin yhtenäistämisen käsittelyaikoihin. Se palauttaa myös vain vähän, jos on muita vastaavuuksia sellaisen suunnitelman lisäksi, jossa kutakin taulukkoa verrataan perustaulukkoon.
Paras tapa on aloittaa perussäännöillä, joita tiedät tarvittavan, kuten vertaamalla kutakin taulukkoa ensisijaiseen taulukkoon. Ensisijaisen taulukon on oltava taulukko, jossa on täydellisimmät ja tarkimmat tiedot. Tämä taulukko tulee järjestää vastaavuussääntöjen yhtenäistämisvaiheen yläosaan.
Lisää asteittain useita sääntöjä ja katso, kuinka kauan muutosten suorittaminen kestää ja paranevatko tulokset. Siirry kohtaan Asetukset>Järjestelmä>Tila ja valitse Etsi vastaavuudet, niin näet, kuinka kauan kaksoiskappaleiden poistaminen ja vastaavuuksien haku kesti kullakin yhdistämisajolla.
Tarkastele säännön tilastotietoja Kaksoiskappaleiden poistosäännöt ja Vastaavuussäännöt-sivuilla nähdäksesi, muuttuuko yksilöllisten tietueiden määrä. Jos uusi sääntö vastaa joitakin tietueita eikä yksilöllisten tietueiden määrä muutu, kyseiset vastaavuudet tunnistetaan edellisessä säännössä.
Asiakastiedot
Asiakastiedotvaiheessa:
Jätä pois sarakkeet, joita ei tarvita sääntöjen vastaavuuteen tai joita et halua sisällyttää lopulliseen asiakasprofiiliin.
Tarkista älykkään yhdistämismäärityksen avulla valitut sarakkeiden kuvaukset.
Kaikkia sarakkeita ei tarvitse yhdistää. Yleisten sarakkeiden, kuten sähköposti- ja osoitekenttien, yhdistämisen avulla Customer Insights voi helpottaa loppupään prosesseja, mutta sarakkeet, joilla on yksilöllinen tunnus tai tarkoitus yrityksellesi, voidaan jättää yhdistämättä.
Kaksoiskappaleiden poistaminen
Poista taulukon asiakastietueiden kaksoiskappaleet kaksoiskappaleiden poistosääntöjen avulla siten, että kunkin taulukon yksi rivi edustaa kutakin asiakasta. Hyvä sääntö tunnistaa yksilöllisen asiakkaan.
Tässä yksinkertaisessa esimerkissä tietueilla 1, 2 ja 3 on yhteinen sähköpostiosoite tai puhelinnumero ja ne edustavat samaa henkilöä.
Tunnus | Name | Puhelinnumero | |
---|---|---|---|
1 | Henkilö 1 | (425) 555 1111 | AAA@A.com |
2 | Henkilö 1 | (425) 555 1111 | BBB@B.com |
3 | Henkilö 1 | (425) 555 2222 | BBB@B.com |
4 | Henkilö 2 | (206) 555 9999 | Person2@contoso.com |
Vastaavuutta ei halua tehdä vain nimellä, joka vastaisi eri henkilöitä, joilla on sama nimi.
Luo sääntö 1 käyttämällä Nimi- ja Puhelin-arvoja, jotka vastaavat tietueita 1 ja 2.
Luo sääntö 2 käyttämällä Nimi- ja Sähköposti-arvoja, jotka vastaavat tietueita 2 ja 3.
Säännön 1 ja säännön 2 yhdistelmä luo yhden vastaavuusryhmän, sillä ne jakavat tietueen 2.
Sinä päätät, kuinka monta sääntöä ja ehtoa käytät asiakkaidesi yksilöimiseen. Tarkat säännöt riippuvat käytettävissä olevista tiedoista, tietojen laadusta ja siitä, kuinka kattava haluat kaksoiskappaleiden poistoprosessin olevan.
Normalisointi
Käytä normalisointia tietojen standardoimiseksi vastaavuuden parantamiseksi. Normalisointi toimii hyvin suurissa tietojoukoissa.
Normalisoituja tietoja käytetään vain vertailutarkoituksissa, jotta asiakastietojen vastaavuus voidaan määrittää aiempaa paremmin. Se ei muuta tietoja lopullisessa yhdistetyssä asiakasprofiilituloksessa.
Tarkka vastaavuus
Määritä tarkkuuden avulla, kuinka lähellä kahden merkkijonoa on oltava, jotta niitä voidaan pitää vastaavuutena. Tarkkuuden oletusasetus edellyttää täsmällistä vastaavuutta. Mikä tahansa muu arvo mahdollistaa kyseisen ehdon sumean vastaavuuden.
Tarkkuus voidaan asettaa alhaiseksi (vastaavuus 30 %), keskitasoiseksi (vastaavuus 60 %) ja korkeaksi (vastaavuus 80 %). Tai voit mukauttaa ja asettaa tarkkuuden 1 prosentin välein.
Täsmällisen vastaavuuden ehdot
Tarkat vastaavuusehdot suoritetaan ensin, jotta saadaan pienempi arvojoukko sumeille vastaavuuksille. Tärmällisten vastaavuusehtojen on oltava suhteellisen yksilöllisiä, jotta ne ovat tehokkaita. Jos esimerkiksi kaikki asiakkaasi asuvat samassa maassa tai samalla alueella, tarkan vastaavuuden saaminen maa/alue-arvossa ei auta rajaamaan laajuutta.
Esimerkiksi Nimi-, Sähköpostiosoite-, Puhelinnumero- ja Osoite-kenttien sarakkeet ovat yksilöllisiä, ja sen vuoksi soveltuvat hyvin täsmällisen vastineen hakuun.
Varmista, että sarakkeessa, jota käytät tarkan vastaavuuden ehdossa, ei ole arvoja, jotka toistuvat usein, kuten lomakkeen tallentama Etunimi-oletusarvo. Customer Insights voi profiloida tietosarakkeita tarjotakseen merkityksellisiä tietoja eniten toistuvista arvoista. Voit ottaa tietojen profiloinnin käyttöön Azure Data Lake -yhteyksissä (Common Data Model- tai Delta-muodossa) ja Synapsessa. Tietoprofiili suoritetaan, kun tietolähde päivitetään seuraavan kerran. Lisätietoja: Tietojen profilointi.
Sumea vastaavuus
Käytä sumeaa vastaavuuksien hakua löytääksesi merkkijonot, jotka ovat lähellä mutta eivät ole tarkkoja kirjoitusvirheiden tai muiden pienten muunnelmien vuoksi. Käytä sumeaa vastaavuuksien hakua strategisesti, koska se on hitaampi kuin tarkat osumat. Varmista, että jokaisella säännöllä, jossa on sumean vastaavuuksien haun ehtoja, on vähintään yksi tarkka vastaavuusehto.
Sumean vastaavuuksien haun tarkoituksena ei ole tallentaa nimimuunnelmia, kuten Suzzie ja Suzanne. Nämä muunnelmat saadaan käsiteltyä paremmin normalisoinnin Tyyppi: Nimi -kuvion tai mukautetun aliaksen vastaavuuden avulla, johon asiakkaat voivat syöttää luettelon nimimuunnelmista, joita he haluavat pitää toisiaan vastaavina.
Sääntöön voi lisätä ehtoja, kuten vastaavuus etunimen tai puhelinnumeron perusteella. Tietyn säännön ehdot ovat "JA"-ehtoja. Kaikkien ehtojen on täsmättävä, jotta rivit täsmäävät. Erilliset säännöt ovat "OR" -ehtoja. Jos sääntö 1 ei vastaa rivejä, rivejä verrataan sääntöön 2.
Muistiinpano
Vain merkkijonon tietotyyppiset sarakkeet voivat käyttää sumeaa vastaavuutta. Sarakkeissa, joissa on muita tietotyyppejä, kuten kokonaisluku, liukuluku tai päivämäärä ja aika, tarkkuuskenttä on vain luku -muotoinen ja määritetty tarkkaan vastaavuuteen.
Sumean vastaavuuden laskelmat
Sumeat osumat määritetään laskemalla kahden merkkijonon välisen muokkausetäisyyden pistemäärä. Jos pisteet saavuttavat tai ylittävät tarkkuuskynnyksen, merkkijonoja pidetään vastaavina.
Muokkausetäisyys on niiden muokkausten määrä, jotka tarvitaan merkkijonon muuttamiseksi toiseksi lisäämällä tai poistamalla merkin tai muuttamalla merkkiä.
Esimerkiksi merkkijonojen "robert2020@hotmail.com" ja "robrt2020@hotmail.cm" muokkausetäisyys on kaksi, kun e- ja o-merkit poistetaan. Voit laskea muokkausetäisyyden pistemäärän seuraavalla kaavalla: (Perusmerkkijonon pituus – Muokkausetäisyys) / Perusmerkkijonon pituus.
Perusmerkkijono | Vertailumerkkijono | Pisteet |
---|---|---|
robert2020@hotmail.com | robrt2020@hotmail.cm | (20 - 2)/20 = 0,9 |