Přibližné sloučení
přibližné sloučení je funkce inteligentní přípravy dat, kterou můžete použít k použití přibližných shodných algoritmů při porovnávání sloupců. Tyto algoritmy se snaží najít shody v tabulkách, které se slučují.
V dolní části dialogového okna Sloučit můžete povolit přibližné shody tak, že vyberete možnost tlačítka Použít přibližné shody pro provedení sloučení. Další informace: Přehled operací sloučení
Poznámka
Porovnávání přibližných shod je podporováno pouze při operacích sloučení s textovými sloupci. Power Query používá algoritmus podobnosti Jaccard k měření podobnosti mezi páry instancí.
Ukázkový scénář
Běžným případem použití pro přibližné porovnávání je volné textové pole, například v průzkumu. V tomto článku byla ukázková tabulka převzata přímo z online průzkumu odeslaného skupině s jedinou otázkou: Co je vaše oblíbené ovoce?
Výsledky tohoto průzkumu jsou znázorněny na následujícím obrázku.
Snímek obrazovky s ukázkovou výstupní tabulkou průzkumu obsahující graf distribuce sloupců zobrazující devět jedinečných odpovědí se všemi jedinečnými odpověďmi a odpovědi na průzkum se všemi překlepy, množným číslem nebo jednotným číslem a případovými problémy
Devět záznamů odráží odeslané průzkumy. Problém s odesíláním průzkumu je v tom, že některé mají překlepy, některé jsou v množném čísle, některé v jednotném, některé jsou psány velkými písmeny a některé malými.
Pokud chcete tyto hodnoty standardizovat, máte v tomto příkladu referenční tabulku Ovoce.
Referenční tabulka ovoce.
Snímek obrazovky referenční tabulky ovoce obsahující graf rozložení sloupců, který zobrazuje čtyři různé ovoce, kde je každé ovoce jedinečné, a seznam ovoce: jablko, ananas, vodní meloun a banán.
Poznámka
Pro zjednodušení tato Ovoce referenční tabulka obsahuje pouze název ovoce, které bude pro tento scénář potřeba. Referenční tabulka může mít tolik řádků, kolik potřebujete.
Cílem je vytvořit tabulku jako v následujícím příkladu, kde jste všechny tyto hodnoty standardizovali, abyste mohli provádět další analýzu.
Snímek obrazovky s ukázkovou výstupní tabulkou průzkumu se sloupcem Otázka obsahujícím graf distribuce sloupců Graf zobrazuje devět jedinečných odpovědí se všemi jedinečnými odpověďmi. Odpovědi na průzkum obsahují všechny překlepy, množné nebo jednotné číslo a problémy se skloňováním. Výstupní tabulka obsahuje také sloupec Fruit. Tento sloupec obsahuje graf distribuce sloupců zobrazující čtyři odlišné odpovědi s jednou jedinečnou odpovědí. Obsahuje také všechna ovocí správně napsaná, v jednotném čísle a ve správném tvaru.
Operace neurčitého sloučení
Pokud chcete provést přibližné sloučení, začněte sloučením. V tomto případě použijete levý vnější spoj, kde levá tabulka je ta z průzkumu a pravá tabulka je referenční tabulka Ovoce. V dolní části dialogového okna zaškrtněte políčko Použít přibližné shody k provedení sloučení.
Po výběru OKmůžete v tabulce zobrazit nový sloupec z důvodu této operace sloučení. Pokud ho rozbalíte, bude v něm jeden řádek, který neobsahuje žádné hodnoty. Toto je přesně to, co uváděla zpráva dialogového okna na předchozím obrázku: "Výběr odpovídá 8 z 9 řádků z první tabulky."
Snímek obrazovky se sloupcem s ovocem přidaným do tabulky Průzkum. Všechny řádky ve sloupci Otázka jsou rozbalené, s výjimkou řádku 9, který nešlo rozbalit, a sloupec Ovoce obsahuje hodnotu null.
Možnosti rozostřeného párování
Můžete upravit možnosti přibližné shody a doladit, jak by měl být prováděn přibližný výběr. Nejprve vyberte příkaz Sloučit dotazy a potom v dialogovém okně Sloučit rozbalte možnosti přibližných shod.
Dostupné možnosti jsou:
- prahové hodnoty podobnosti (volitelné): Hodnota mezi 0,00 a 1,00, která poskytuje možnost spárovat záznamy nad daným skóre podobnosti. Prahová hodnota 1,00 je stejná jako určení přesných kritérií shody. Například hrozny odpovídají graes (chybí písmeno p) pouze v případě, že je prahová hodnota nastavena na méně než 0,90. Ve výchozím nastavení je tato hodnota nastavená na 0,80.
- Ignorovat velikost písmen: Umožňuje srovnávat záznamy bez rozdílu mezi velkými a malými písmeny textu.
- Shoda pomocí kombinování částí textu: Umožňuje najít shody kombinováním částí textu. Například micro soft se shoduje s Microsoft, pokud je tato možnost povolená.
- Zobrazit skóre podobnosti: Zobrazuje skóre podobnosti mezi vstupem a odpovídajícími hodnotami po přibližné shodě.
- Počet shod (volitelné): Určuje maximální počet odpovídajících řádků, které lze vrátit pro každý vstupní řádek.
- transformační tabulka (volitelné): Umožňuje porovnávání záznamů na základě vlastních mapování hodnot. Například Hrozny se shodují s Rozinkami, pokud je k dispozici transformační tabulka, kde sloupec Od obsahuje Hrozny a sloupec Do obsahuje Rozinky.
Transformační tabulka
V příkladu v tomto článku můžete pomocí transformační tabulky namapovat hodnotu, která obsahuje chybějící dvojici. Hodnota je apls, která musí být namapována na Apple. Tabulka transformací má dva sloupce:
- Z obsahuje hodnoty, které chcete najít.
- To obsahuje hodnoty, které slouží k nahrazení hodnot nalezených pomocí sloupce From.
V tomto článku vypadá transformační tabulka takto:
Od | Do |
---|---|
apls | Jablko |
Můžete se vrátit do dialogového okna Sloučit a v Možnostech neostrého porovnávání pod položkou Počet porovnánízadejte 1. Zapněte možnost Zobrazit skóre podobnosti a potom v části Transformační tabulkavyberte Transformovat tabulku z rozbalovací nabídky.
Po výběru OKmůžete přejít ke kroku sloučení. Když rozbalíte sloupec s hodnotami tabulky, uvidíte vedle pole Fruit také pole skóre podobnosti. Vyberte obojí a rozšiřte je bez přidání předpony.
Po rozšíření těchto dvou polí se automaticky přidají do tabulky. Poznamenejte si hodnoty, které získáte pro skóre podobnosti jednotlivých hodnot. Tato skóre vám můžou pomoct s dalšími transformacemi v případě potřeby, abyste zjistili, jestli byste měli snížit nebo zvýšit prahovou hodnotu podobnosti.
V tomto příkladu skóre podobnosti slouží pouze jako další informace a není potřeba ve výstupu tohoto dotazu, takže ho můžete odebrat. Všimněte si, že příklad začal s devíti jedinečnými hodnotami, ale po přibližné sloučení existují pouze čtyři odlišné hodnoty.
Snímek obrazovky s výstupní tabulkou průzkumu s přibližným sloučením, kde sloupec Otázka obsahuje graf distribuce zobrazující devět různých odpovědí, všechny jedinečné, a odpovědi na průzkum se všemi překlepy, problémy s množným a jednotným číslem i s velkými a malými písmeny. Obsahuje také sloupec Fruit s grafem rozdělení, který ukazuje čtyři různé odpovědi a jednu jedinečnou odpověď, a uvádí všechna ovoce správně napsaná, v jednotném čísle a v odpovídajícím formátu velkých písmen.
Další informace o tom, jak transformační tabulky fungují, najdete v tématu precepty transformační tabulky.