Sdílet prostřednictvím


Přibližné sloučení

přibližné sloučení je funkce inteligentní přípravy dat, kterou můžete použít k použití přibližných shodných algoritmů při porovnávání sloupců. Tyto algoritmy se snaží najít shody v tabulkách, které se slučují.

V dolní části dialogového okna Sloučit můžete povolit přibližné shody tak, že vyberete možnost tlačítka Použít přibližné shody pro provedení sloučení. Další informace: Přehled operací sloučení

Poznámka

Porovnávání přibližných shod je podporováno pouze při operacích sloučení s textovými sloupci. Power Query používá algoritmus podobnosti Jaccard k měření podobnosti mezi páry instancí.

Ukázkový scénář

Běžným případem použití pro přibližné porovnávání je volné textové pole, například v průzkumu. V tomto článku byla ukázková tabulka převzata přímo z online průzkumu odeslaného skupině s jedinou otázkou: Co je vaše oblíbené ovoce?

Výsledky tohoto průzkumu jsou znázorněny na následujícím obrázku.

Ukázkový průzkum s nezpracovanými položkami.

Snímek obrazovky s ukázkovou výstupní tabulkou průzkumu obsahující graf distribuce sloupců zobrazující devět jedinečných odpovědí se všemi jedinečnými odpověďmi a odpovědi na průzkum se všemi překlepy, množným číslem nebo jednotným číslem a případovými problémy

Devět záznamů odráží odeslané průzkumy. Problém s odesíláním průzkumu je v tom, že některé mají překlepy, některé jsou v množném čísle, některé v jednotném, některé jsou psány velkými písmeny a některé malými.

Pokud chcete tyto hodnoty standardizovat, máte v tomto příkladu referenční tabulku Ovoce.

Referenční tabulka ovoce.

Snímek obrazovky referenční tabulky ovoce obsahující graf rozložení sloupců, který zobrazuje čtyři různé ovoce, kde je každé ovoce jedinečné, a seznam ovoce: jablko, ananas, vodní meloun a banán.

Poznámka

Pro zjednodušení tato Ovoce referenční tabulka obsahuje pouze název ovoce, které bude pro tento scénář potřeba. Referenční tabulka může mít tolik řádků, kolik potřebujete.

Cílem je vytvořit tabulku jako v následujícím příkladu, kde jste všechny tyto hodnoty standardizovali, abyste mohli provádět další analýzu.

Ukázková výstupní tabulka průzkumu.

Snímek obrazovky s ukázkovou výstupní tabulkou průzkumu se sloupcem Otázka obsahujícím graf distribuce sloupců Graf zobrazuje devět jedinečných odpovědí se všemi jedinečnými odpověďmi. Odpovědi na průzkum obsahují všechny překlepy, množné nebo jednotné číslo a problémy se skloňováním. Výstupní tabulka obsahuje také sloupec Fruit. Tento sloupec obsahuje graf distribuce sloupců zobrazující čtyři odlišné odpovědi s jednou jedinečnou odpovědí. Obsahuje také všechna ovocí správně napsaná, v jednotném čísle a ve správném tvaru.

Operace neurčitého sloučení

Pokud chcete provést přibližné sloučení, začněte sloučením. V tomto případě použijete levý vnější spoj, kde levá tabulka je ta z průzkumu a pravá tabulka je referenční tabulka Ovoce. V dolní části dialogového okna zaškrtněte políčko Použít přibližné shody k provedení sloučení.

snímek dialogového okna Sloučení ukazující, jak použít přibližné shody k provedení sloučení

Po výběru OKmůžete v tabulce zobrazit nový sloupec z důvodu této operace sloučení. Pokud ho rozbalíte, bude v něm jeden řádek, který neobsahuje žádné hodnoty. Toto je přesně to, co uváděla zpráva dialogového okna na předchozím obrázku: "Výběr odpovídá 8 z 9 řádků z první tabulky."

Výsledek přibližné shody ve sloupci Fruit.

Snímek obrazovky se sloupcem s ovocem přidaným do tabulky Průzkum. Všechny řádky ve sloupci Otázka jsou rozbalené, s výjimkou řádku 9, který nešlo rozbalit, a sloupec Ovoce obsahuje hodnotu null.

Možnosti rozostřeného párování

Můžete upravit možnosti přibližné shody a doladit, jak by měl být prováděn přibližný výběr. Nejprve vyberte příkaz Sloučit dotazy a potom v dialogovém okně Sloučit rozbalte možnosti přibližných shod.

Snímek obrazovky dialogového okna Sloučení se zobrazenými možnostmi neostrého porovnání

Dostupné možnosti jsou:

  • prahové hodnoty podobnosti (volitelné): Hodnota mezi 0,00 a 1,00, která poskytuje možnost spárovat záznamy nad daným skóre podobnosti. Prahová hodnota 1,00 je stejná jako určení přesných kritérií shody. Například hrozny odpovídají graes (chybí písmeno p) pouze v případě, že je prahová hodnota nastavena na méně než 0,90. Ve výchozím nastavení je tato hodnota nastavená na 0,80.
  • Ignorovat velikost písmen: Umožňuje srovnávat záznamy bez rozdílu mezi velkými a malými písmeny textu.
  • Shoda pomocí kombinování částí textu: Umožňuje najít shody kombinováním částí textu. Například micro soft se shoduje s Microsoft, pokud je tato možnost povolená.
  • Zobrazit skóre podobnosti: Zobrazuje skóre podobnosti mezi vstupem a odpovídajícími hodnotami po přibližné shodě.
  • Počet shod (volitelné): Určuje maximální počet odpovídajících řádků, které lze vrátit pro každý vstupní řádek.
  • transformační tabulka (volitelné): Umožňuje porovnávání záznamů na základě vlastních mapování hodnot. Například Hrozny se shodují s Rozinkami, pokud je k dispozici transformační tabulka, kde sloupec Od obsahuje Hrozny a sloupec Do obsahuje Rozinky.

Transformační tabulka

V příkladu v tomto článku můžete pomocí transformační tabulky namapovat hodnotu, která obsahuje chybějící dvojici. Hodnota je apls, která musí být namapována na Apple. Tabulka transformací má dva sloupce:

  • Z obsahuje hodnoty, které chcete najít.
  • To obsahuje hodnoty, které slouží k nahrazení hodnot nalezených pomocí sloupce From.

V tomto článku vypadá transformační tabulka takto:

Od Do
apls Jablko

Můžete se vrátit do dialogového okna Sloučit a v Možnostech neostrého porovnávání pod položkou Počet porovnánízadejte 1. Zapněte možnost Zobrazit skóre podobnosti a potom v části Transformační tabulkavyberte Transformovat tabulku z rozbalovací nabídky.

snímek obrazovky dialogového okna sloučení s počtem shod nastaveným na 1 a transformační tabulkou nastavenou na Transform table

Po výběru OKmůžete přejít ke kroku sloučení. Když rozbalíte sloupec s hodnotami tabulky, uvidíte vedle pole Fruit také pole skóre podobnosti. Vyberte obojí a rozšiřte je bez přidání předpony.

Snímek obrazovky dialogového okna pro rozbalení sloupce Ovoce, který obsahuje vybraná pole Skóre ovoce a Skóre podobnosti

Po rozšíření těchto dvou polí se automaticky přidají do tabulky. Poznamenejte si hodnoty, které získáte pro skóre podobnosti jednotlivých hodnot. Tato skóre vám můžou pomoct s dalšími transformacemi v případě potřeby, abyste zjistili, jestli byste měli snížit nebo zvýšit prahovou hodnotu podobnosti.

snímek obrazovky s výstupem tabulky po procesu přibližného sloučení se zobrazením nových polí skóre ovoce a podobnosti pro každou hodnotu.

V tomto příkladu skóre podobnosti slouží pouze jako další informace a není potřeba ve výstupu tohoto dotazu, takže ho můžete odebrat. Všimněte si, že příklad začal s devíti jedinečnými hodnotami, ale po přibližné sloučení existují pouze čtyři odlišné hodnoty.

výstupní tabulka průzkumu fuzzy merge.

Snímek obrazovky s výstupní tabulkou průzkumu s přibližným sloučením, kde sloupec Otázka obsahuje graf distribuce zobrazující devět různých odpovědí, všechny jedinečné, a odpovědi na průzkum se všemi překlepy, problémy s množným a jednotným číslem i s velkými a malými písmeny. Obsahuje také sloupec Fruit s grafem rozdělení, který ukazuje čtyři různé odpovědi a jednu jedinečnou odpověď, a uvádí všechna ovoce správně napsaná, v jednotném čísle a v odpovídajícím formátu velkých písmen.

Další informace o tom, jak transformační tabulky fungují, najdete v tématu precepty transformační tabulky.