Fuzzy-sammanslagning
Fuzzy-sammanslagning är en funktion för förberedelse av smarta data som du kan använda för att använda fuzzy-matchningsalgoritmer när du jämför kolumner. Dessa algoritmer försöker hitta matchningar mellan de tabeller som sammanfogas.
Du kan aktivera fuzzy-matchning längst ned i dialogrutan Sammanfoga genom att välja knappen Använd fuzzy-matchning för att utföra kopplingsalternativet . Mer information: Översikt över sammanslagningsåtgärder
Kommentar
Fuzzy-matchning stöds endast vid sammanslagningsåtgärder över textkolumner. Power Query använder Jaccard-likhetsalgoritmen för att mäta likheten mellan instanspar.
Exempelscenario
Ett vanligt användningsfall för fuzzy-matchning är med frihandstextfält, till exempel i en undersökning. För den här artikeln togs exempeltabellen direkt från en onlineundersökning som skickades till en grupp med bara en fråga: Vilken är din favoritfrukt?
Resultatet av undersökningen visas i följande bild.
Skärmbild av utdatatabellen för exempelundersökningen som innehåller kolumndistributionsdiagrammet som visar nio distinkta svar med alla svar unika, och svaren på undersökningen med alla problem med stavfel, plural eller singular och skiftläge.
De nio posterna återspeglar undersökningens inlämningar. Problemet med undersökningsbidragen är att vissa har stavfel, vissa är plural, vissa är singular, vissa är versaler och vissa är gemener.
För att standardisera dessa värden har du i det här exemplet en referenstabell för Frukter .
Skärmbild av referenstabellen Frukt som innehåller kolumnfördelningsdiagram som visar fyra distinkta frukter med alla frukter unika och listan över frukter: äpple, ananas, vattenmelon och banan.
Kommentar
För enkelhetens skull innehåller referenstabellen Frukt endast namnet på de frukter som behövs för det här scenariot. Referenstabellen kan ha så många rader som du behöver.
Målet är att skapa en tabell som följande, där du har standardiserat alla dessa värden så att du kan göra mer analys.
Skärmbild av utdatatabellen för exempelundersökningen med kolumnen Fråga som innehåller kolumndistributionsdiagrammet. Diagrammet visar nio distinkta svar med alla svar unika. Svaren på undersökningen innehåller alla problem med stavfel, plural eller singular och skiftläge. Utdatatabellen innehåller också kolumnen Fruit. Den här kolumnen innehåller kolumndistributionsdiagrammet som visar fyra distinkta svar med ett unikt svar. Det listar också alla frukter korrekt stavade, singular och rätt fall.
Fuzzy-sammanslagningsåtgärd
Om du vill göra en fuzzy-sammanslagning börjar du med att göra en sammanslagning. I det här fallet använder du en vänster yttre koppling, där den vänstra tabellen är den från undersökningen och den högra tabellen är referenstabellen Frukt . Längst ned i dialogrutan väljer du kryssrutan Använd fuzzy-matchning för att utföra kopplingen .
När du har valt OK kan du se en ny kolumn i tabellen på grund av den här sammanslagningsåtgärden. Om du expanderar den finns det en rad som inte har några värden i den. Det är precis vad dialogrutemeddelandet i föregående bild angav när det stod "Markeringen matchar 8 av 9 rader från den första tabellen".
Skärmbild av fruktkolumnen som lagts till i tabellen Undersökning. Alla rader i kolumnen Fråga expanderas, förutom rad 9, som inte kunde expanderas och kolumnen Fruit innehåller null.
Alternativ för fuzzy-matchning
Du kan ändra fuzzy-matchningsalternativen för att justera hur den ungefärliga matchningen ska göras. Välj först kommandot Slå samman frågor och expandera sedan Fuzzy-matchningsalternativ i dialogrutan Sammanfoga.
De tillgängliga alternativen är:
- Likhetströskel (valfritt): Ett värde mellan 0,00 och 1,00 som ger möjlighet att matcha poster över en viss likhetspoäng. Ett tröskelvärde på 1,00 är detsamma som att ange ett exakt matchningsvillkor. Till exempel matchar Vindruvor med Graes (saknar bokstaven p) endast om tröskelvärdet är inställt på mindre än 0,90. Som standard är det här värdet inställt på 0,80.
- Ignorera skiftläge: Tillåter matchande poster oavsett vad texten gäller.
- Matcha genom att kombinera textdelar: Gör det möjligt att kombinera textdelar för att hitta matchningar. Micro soft matchas till exempel med Microsoft om det här alternativet är aktiverat.
- Visa likhetspoäng: Visar likhetspoäng mellan indata och de matchade värdena efter fuzzy-matchning.
- Antal matchningar (valfritt): Anger det maximala antalet matchande rader som kan returneras för varje indatarad.
- Transformeringstabell (valfritt): Tillåter matchande poster baserat på anpassade värdemappningar. Vindruvor matchas till exempel med Russin om det finns en transformeringstabell där kolumnen Från innehåller vindruvor och kolumnen Till innehåller russin.
Transformeringstabell
I exemplet i den här artikeln kan du använda en transformeringstabell för att mappa värdet som har ett par som saknas. Det värdet är apls, som måste mappas till Apple. Omvandlingstabellen har två kolumner:
- Från innehåller de värden som ska hittas.
- För att innehålla de värden som används för att ersätta de värden som hittas med hjälp av kolumnen Från .
I den här artikeln ser transformeringstabellen ut så här:
Från | Till |
---|---|
apls | Apple |
Du kan gå tillbaka till dialogrutan Sammanfoga och i Fuzzy-matchningsalternativ under Antal matchningar anger du 1. Aktivera alternativet Visa likhetspoäng och välj sedan Transformera tabell i den nedrullningsbara menyn under Transformeringstabell.
När du har valt OK kan du gå till kopplingssteget. När du expanderar kolumnen med tabellvärden, förutom fältet Frukt , visas även fältet Likhetspoäng. Välj båda och expandera dem utan att lägga till ett prefix.
När du har expanderat de här två fälten läggs de till i tabellen. Observera de värden du får för likhetspoängen för varje värde. Dessa poäng kan hjälpa dig med ytterligare omvandlingar om det behövs för att avgöra om du ska sänka eller höja tröskelvärdet för likhet.
I det här exemplet fungerar likhetspoängen endast som ytterligare information och behövs inte i utdata från den här frågan, så du kan ta bort den. Observera hur exemplet började med nio distinkta värden, men efter den fuzzy-sammanfogningen finns det bara fyra distinkta värden.
Skärmbild av utdatatabellen för fuzzy-sammanslagningsundersökningen med kolumnen Fråga som innehåller kolumnfördelningsdiagrammet som visar nio distinkta svar med alla unika svar och svaren på undersökningen med alla stavfel, plural eller singular och ärendeproblem. Innehåller också kolumnen Fruit med kolumnfördelningsdiagrammet som visar fyra distinkta svar med ett unikt svar och visar en lista över alla frukter korrekt stavade, singular och rätt fall.
Mer information om hur transformeringstabeller fungerar finns i Transformeringstabellprecept.