Del via


Fuzzy-fletting

Fuzzy-fletting er en smart dataforberedelsesfunksjon du kan bruke til å bruke uklare samsvarende algoritmer når du sammenligner kolonner. Disse algoritmene prøver å finne treff på tvers av tabellene som slås sammen.

Du kan aktivere fuzzy matching nederst i dialogboksen Slå sammen ved å velge Bruk uklar samsvar for å utføre alternativknappen flett. Mer informasjon: Oversikt over flettingsoperasjoner

Notat

Fuzzy matching støttes bare på fletteoperasjoner over tekstkolonner. Power Query bruker algoritmen for jaccard-likhet til å måle likheten mellom forekomstpar.

Eksempelscenario

Et vanlig brukstilfelle for fuzzy matching er med frihåndstekstfelt, for eksempel i en undersøkelse. I denne artikkelen ble eksempeltabellen hentet direkte fra en nettbasert undersøkelse som ble sendt til en gruppe med bare ett spørsmål: Hva er favorittfrukten din?

Resultatene av denne undersøkelsen vises på bildet nedenfor.

Eksempelundersøkelse med rå oppføringer.

Skjermbilde av utdatatabellen for eksempelundersøkelser som inneholder kolonnedistribusjonsgrafen, som viser ni distinkte svar med alle svarene unike, og svarene på undersøkelsen med alle skrivefeil, flertalls- eller entallsproblemer og saksproblemer.

De ni postene gjenspeiler innsendingene i undersøkelsen. Problemet med undersøkelsesinnsendingene er at noen har skrivefeil, noen er flertall, noen er entall, noen er store bokstaver, og noen er små bokstaver.

Hvis du vil standardisere disse verdiene, har du i dette eksemplet en referansetabell for frukter.

Referansetabell for frukt.

Skjermbilde av fruktreferansetabellen som inneholder kolonnedistribusjonsgraf som viser fire distinkte frukter med alle frukter unike, og listen over frukter: eple, ananas, vannmelon og banan.

Notat

For enkelhet, denne Fruits referansetabellen inneholder bare navnet på fruktene som vil være nødvendig for dette scenariet. Referansetabellen kan ha så mange rader du trenger.

Målet er å opprette en tabell som følgende, der du har standardisert alle disse verdiene slik at du kan gjøre mer analyse.

Utdatatabell for eksempelundersøkelse.

Skjermbilde av utdatatabellen for eksempelundersøkelsen med Spørsmål-kolonnen som inneholder kolonnedistribusjonsgrafen. Grafen viser ni distinkte svar med alle svar unike. Svarene på undersøkelsen inneholder alle skrivefeil, flertall eller entall, og saksproblemer. Utdatatabellen inneholder også Frukt-kolonnen. Denne kolonnen inneholder kolonnedistribusjonsgrafen som viser fire distinkte svar med ett unikt svar. Det viser også alle fruktene riktig stavet, entall, og riktig tilfelle.

Fuzzy-sammenslåingsoperasjon

Hvis du vil utføre den uklare flettingen, starter du med å slå sammen. I dette tilfellet bruker du en venstre ytre sammenføyning, der den venstre tabellen er den fra undersøkelsen, og den høyre tabellen er Fruits referansetabell. Merk av for Bruk uklar samsvar for å utføre flettingen nederst i dialogboksen.

Skjermbilde av dialogboksen Flett som viser hvordan du bruker uklar samsvar for å utføre flettealternativet.

Når du har valgt OK, kan du se en ny kolonne i tabellen på grunn av denne fletteoperasjonen. Hvis du utvider den, er det én rad som ikke har noen verdier i den. Det er akkurat det dialogboksmeldingen i det forrige bildet uttalte da det sto «Utvalget samsvarer med 8 av 9 rader fra den første tabellen».

Fuzzy samsvarer med resultatene i Frukt-kolonnen.

Skjermbilde av fruktkolonnen som er lagt til i undersøkelsestabellen. Alle rader i Spørsmål-kolonnen er utvidet, bortsett fra rad 9, som ikke kunne utvides, og Frukt-kolonnen inneholder null.

Alternativer for fuzzy-samsvar

Du kan endre alternativene for Fuzzy-samsvar for å justere hvordan omtrentlig treff skal gjøres. Først velger du kommandoen Slå sammen spørringer, og deretter utvider du alternativer for fuzzy-samsvari dialogboksen Slå sammen .

Skjermbilde av dialogboksen Flett med de uklare samsvarsalternativene vist.

De tilgjengelige alternativene er:

  • likhetsterskelen (valgfritt): En verdi mellom 0,00 og 1,00 som gir mulighet til å samsvare poster over en gitt likhetspoengsum. En terskel på 1,00 er den samme som å angi et nøyaktig samsvarsvilkår. For eksempel druer samsvarer med Graes (mangler bokstaven p) bare hvis terskelen er satt til mindre enn 0,90. Som standard er denne verdien satt til 0,80.
  • Ignorer store og små bokstaver: Tillater samsvarende poster uansett hva som er tilfellet med teksten.
  • Sammenligne ved å kombinere tekstdeler: Gjør det mulig å kombinere tekstdeler for å finne treff. For eksempel samsvarer Micro soft med Microsoft hvis dette alternativet er aktivert.
  • Vis likhetsresultater: Viser likhetsresultater mellom inndataene og de samsvarende verdiene etter fuzzy matching.
  • Antall treff (valgfritt): Angir maksimalt antall samsvarende rader som kan returneres for hver inndatarad.
  • transformasjonstabell (valgfritt): Tillater samsvarende poster basert på egendefinerte verditilordninger. Grapes samsvarer for eksempel med Rosiner hvis en transformasjonstabell angis der kolonnen From inneholder Grapes og kolonnen Til inneholder Rosiner.

Transformasjonstabell

I denne artikkelen kan du for eksempel bruke en transformasjonstabell til å tilordne verdien som har et manglende par. Denne verdien er apls, som må tilordnes til Apple. Transformasjonstabellen har to kolonner:

  • Fra inneholder verdiene du vil finne.
  • Til inneholder verdiene som brukes til å erstatte verdiene som ble funnet ved hjelp av kolonnen Fra.

I denne artikkelen ser transformasjonstabellen ut som følger:

Fra Til
apls Eple

Du kan gå tilbake til dialogboksen Slå sammen, og skriv inn 1under Antall treffi Alternativer for fuzzy-samsvar under Antall treff. Aktiver alternativet Vis likhetsresultater, og velg deretter Transformer tabell fra rullegardinmenyen under transformasjonstabell.

Skjermbilde av dialogboksen Slå sammen med antall treff satt til 1 og transformasjonstabell satt til Transformer tabell.

Når du har valgt OK, kan du gå til flettetrinnet. Når du utvider kolonnen med tabellverdier, i tillegg til feltet Frukt, ser du også resultatfeltet for likhet. Merk begge, og utvid dem uten å legge til et prefiks.

Skjermbilde av dialogboksen for tabellutviding for fruktkolonnen som inneholder feltene for frukt- og likhetspoengsum.

Når du har utvidet disse to feltene, legges de til i tabellen. Legg merke til verdiene du får for likhetsresultatene for hver verdi. Disse resultatene kan hjelpe deg med ytterligere transformasjoner om nødvendig for å finne ut om du bør senke eller øke likhetsterskelen.

Skjermbilde av tabellutdataene etter at den uklare flettingsprosessen oppstod, som viser både de nye feltene for frukt- og likhetspoengsummen for hver verdi.

I dette eksemplet fungerer likhetspoengsummen bare som tilleggsinformasjon og er ikke nødvendig i utdataene for denne spørringen, slik at du kan fjerne den. Legg merke til hvordan eksemplet startet med ni distinkte verdier, men etter sammenslåingen er det bare fire distinkte verdier.

Utdatatabell for fuzzy-sammenslåingsundersøkelse.

Skjermbilde av utdatatabellen for fuzzy merge survey med Spørsmål-kolonnen som inneholder kolonnedistribusjonsgrafen, som viser ni distinkte svar med alle svarene unike, og svarene på undersøkelsen med alle skrivefeil, flertalls- eller entallsproblemer og saksproblemer. Inneholder også fruktkolonnen med kolonnedistribusjonsgrafen som viser fire distinkte svar med ett unikt svar og viser alle fruktene riktig stavet, entall og riktig tilfelle.

Hvis du vil ha mer informasjon om hvordan transformasjonstabeller fungerer, kan du gå til transformasjonstabellforskrifter.