Udostępnij za pośrednictwem


Jak działa dopasowywanie rozmyte w dodatku Power Query

Funkcje dodatku Power Query, takie jak scalanie rozmyte, wartości klastra i grupowanie rozmyte, używają tych samych mechanizmów do działania co dopasowywanie rozmyte.

W tym artykule omówiono wiele scenariuszy, w których pokazano, jak korzystać z opcji rozmytego dopasowania, dzięki czemu "rozmyte" jest jasne.

Dostosowywanie progu podobieństwa

Najlepszym scenariuszem stosowania algorytmu dopasowania rozmytego jest sytuacja, gdy wszystkie ciągi tekstowe w kolumnie zawierają tylko ciągi, które należy porównać i nie ma dodatkowych składników. Na przykład porównanie Apples wyników o 4ppl3s wyższej podobieństwie niż porównanie Apples z My favorite fruit, by far, is Apples. I simply love them!wartością .

Ponieważ wyraz Apples w drugim ciągu jest tylko niewielką częścią całego ciągu tekstowego, porównanie daje niższy wynik podobieństwa.

Na przykład poniższy zestaw danych składa się z odpowiedzi z ankiety, która miała tylko jedno pytanie — "Co to jest twój ulubiony owoc?"

Owoc
Jagody
Niebieskie jagody są po prostu najlepsze
Truskawki
Truskawki = <3
Jabłka
"sples"
4ppl3s
Banany
owoce fav to banany
Banas
Moje ulubione owoce, zdecydowanie, to Jabłka. Po prostu je kocham!

Ankieta dostarczyła jedno pole tekstowe, aby wprowadzić wartość i nie miała walidacji.

Teraz masz za zadanie klasterowanie wartości. Aby wykonać to zadanie, załaduj poprzednią tabelę owoców do dodatku Power Query, wybierz kolumnę, a następnie wybierz opcję Wartości klastra na karcie Dodaj kolumnę na wstążce.

Zrzut ekranu przedstawiający opcję wartości klastra na karcie Dodaj kolumnę na wstążce dostępnej po wybraniu kolumny Fruit z tabeli.

Zostanie wyświetlone okno dialogowe Wartości klastra, w którym można określić nazwę nowej kolumny. Nadaj nowej kolumnie nazwę Klaster i wybierz przycisk OK.

Zrzut ekranu przedstawiający okno dialogowe wartości klastra po wybraniu kolumny Fruit. Nowe pole nazwy kolumny jest ustawione na Klaster.

Domyślnie dodatek Power Query używa progu podobieństwa wynoszącego 0,8 (lub 80%). Wartość minimalna 0,00 powoduje, że wszystkie wartości z dowolnym poziomem podobieństwa pasują do siebie, a maksymalna wartość 1,00 zezwala tylko na dokładne dopasowania. Rozmyte "dokładne dopasowanie" może ignorować różnice, takie jak wielkość liter, kolejność słów i interpunkcja. Wynik poprzedniej operacji daje następującą tabelę z nową kolumną Klaster .

Zrzut ekranu przedstawiający domyślne dane wyjściowe z nową kolumną Klaster po wykonaniu operacji Wartości klastra w kolumnie Fruit z wartościami domyślnymi.

Gdy klastrowanie jest wykonywane, nie daje oczekiwanych wyników dla wszystkich wierszy. Wiersz numer dwa (2) nadal ma wartość Blue berries are simply the best, ale powinien być klasterowany do Blueberries, a coś podobnego dzieje się z ciągami tekstowymi Strawberries = <3, fav fruit is bananasi My favorite fruit, by far, is Apples. I simply love them!.

Aby określić przyczyny tego klastrowania, kliknij dwukrotnie pozycję Wartości klastrowane w panelu Zastosowane kroki , aby przywrócić wartości klastra. W tym oknie dialogowym rozwiń pozycję Opcje klastra rozmytego. Włącz opcję Pokaż wyniki podobieństwa, a następnie wybierz przycisk OK.

Zrzut ekranu przedstawiający okno wartości klastra z wyświetlonymi opcjami rozmytego klastra i wybraną opcją pokaż wyniki podobieństwa.

Włączenie opcji Pokaż wyniki podobieństwa powoduje utworzenie nowej kolumny w tabeli. W tej kolumnie przedstawiono dokładny wynik podobieństwa między zdefiniowanym klastrem a oryginalną wartością.

Zrzut ekranu przedstawiający tabelę z nową kolumną wyników podobieństwa o nazwie Fruit_Cluster_Similarity.

Po bliższej inspekcji dodatek Power Query nie może odnaleźć żadnych innych wartości w progu podobieństwa dla ciągów tekstowych Blue berries are simply the best, fav fruit is bananasStrawberries = <3, i My favorite fruit, by far, is Apples. I simply love them!.

Wróć do okna dialogowego Wartości klastra jeszcze raz, klikając dwukrotnie wartości Klastrowane w panelu Zastosowane kroki . Zmień próg podobieństwa z 0.8 na 0.6, a następnie wybierz przycisk OK.

Zrzut ekranu przedstawiający okno dialogowe wartości klastra z wyświetlonymi opcjami rozmytego klastra i progiem podobieństwa ustawionym na 0,6.

Ta zmiana przybliża cię do wyniku, którego szukasz, z wyjątkiem ciągu My favorite fruit, by far, is Apples. I simply love them!tekstowego . Po zmianie wartości progu podobieństwa z 0,8 na 0,6 dodatek Power Query był teraz w stanie użyć wartości z wynikiem podobieństwa rozpoczynającym się od 0,6 aż do 1.

Zrzut ekranu przedstawiający tabelę po zdefiniowaniu progu podobieństwa o wartości 0,6 z nowymi wartościami przypisanymi w kolumnie Klaster.

Uwaga

Dodatek Power Query zawsze używa wartości znajdującej się najbliżej progu, aby zdefiniować klastry. Próg definiuje niższy limit wyniku podobieństwa, który jest akceptowalny do przypisania wartości do klastra.

Możesz spróbować ponownie, zmieniając wynik podobieństwa z 0,6 na niższą liczbę, dopóki nie uzyskasz wyników, których szukasz. W tym przypadku zmień wynik podobieństwa na 0,5. Ta zmiana daje dokładny wynik, którego oczekujesz za pomocą ciągu My favorite fruit, by far, is Apples. I simply love them! tekstowego przypisanego do klastra Apples.

Zrzut ekranu przedstawiający tabelę ze wszystkimi poprawnymi wartościami w kolumnie Klaster.

Uwaga

Obecnie tylko funkcja Wartości klastra w usłudze Power Query Online udostępnia nową kolumnę z oceną podobieństwa.

Specjalne zagadnienia dotyczące tabeli przekształceń

Tabela przekształceń ułatwia mapowanie wartości z kolumny na nowe wartości przed wykonaniem algorytmu dopasowywania rozmytego.

Kilka przykładów użycia tabeli przekształcania:

Ważne

Gdy tabela przekształceń jest używana, maksymalny wynik podobieństwa dla wartości z tabeli przekształceń wynosi 0,95. Ta celowa kara 0,05 ma na celu odróżnienie, że oryginalna wartość z takiej kolumny nie jest równa wartościom, do których została porównana od czasu wystąpienia przekształcenia.

W przypadku scenariuszy, w których najpierw chcesz zamapować wartości, a następnie wykonać dopasowanie rozmyte bez kary 0,05, zalecamy zastąpienie wartości z kolumny, a następnie wykonanie dopasowywania rozmytego.