Jak rozpoznat odlehlé hodnoty pomocí vizuálů Power BI

Dokončeno

Odlehlá hodnota představuje anomálii ve vašich datech – něco, co jste na základě historických průměrů nebo výsledků nečekali nebo co vás překvapilo. Identifikace odlehlých hodnot je užitečná, protože umožňuje izolovat datové body, které se výrazně liší od ostatních datových bodů, a pak podniknout kroky ke zjištění důvodů těchto rozdílů. Výsledky takové analýzy můžou výrazně ovlivnit obchodní rozhodnutí.

Představte si scénář, ve kterém analyzujete data pro expediční sklad. Všimnete si, že u určité produktové kategorie se zvýšil počet objednávek nad průměr. Nejdříve chcete zjistit, o jakou produktovou kategorii se jedná. Pak se chcete zeptat na několik otázek ohledně této odlehlé hodnoty:

  • Překročil počet odeslaných objednávek v daný den průměr?

  • Došlo k této anomálii v konkrétním skladu?

  • Způsobila zvýšení počtu objednávek konkrétní produktové kategorie určitá událost?

  • Došlo k této události v dalších dnech za poslední měsíc, čtvrtletí, rok nebo v předchozím roce?

Power BI umožňuje identifikovat ve vašich datech odlehlé hodnoty, ale musíte nejprve určit, co představuje odlehlou hodnotu. S rozpoznáním odlehlých hodnot vám můžou pomoct aktivační body, jako jsou například výpočty.

Proces identifikace odlehlých hodnot zahrnuje rozdělení dat do dvou skupin, přičemž do jedné budou patřit data s odlehlou hodnotou a druhá skupina bude bez nich. Pro rozpoznání odlehlých hodnot můžete použít počítané sloupce, ale výsledky budou statické, dokud data neaktualizujete. Lepší způsob, jak identifikovat odlehlé hodnoty, je použít vizualizaci nebo vzorec jazyka DAX, protože tyto metody zajistí, že vaše výsledky budou dynamické.

Když ve svých datech rozpoznáte odlehlé hodnoty, můžete k jejich zvýraznění použít průřezy nebo filtry. Kromě toho můžete do vizuálů přidat legendu, aby bylo možné odlehlé hodnoty identifikovat mezi jinými daty. Pak můžete přejít k datům s odlehlými hodnotami a provést podrobnější analýzu.

Identifikace odlehlých hodnot pomocí vizuálu

Nejlepším vizuálem pro identifikaci odlehlých hodnot je bodový graf, který zobrazuje vztah mezi dvěma číselnými hodnotami. Bodové grafy zobrazují vzorce ve velkých sadách dat, a proto jsou ideální pro zobrazení odlehlých hodnot.

Když přidáte do sestavy Power BI bodový graf, hodnoty z polí, která vás zajímají, vynesete na osu X a osu Y. V našem případě jsou hodnoty pole Orders Shipped (Expedované objednávky) na ose X a hodnoty pole Qty Orders (Množství objednávek) jsou na ose Y.

Vizuál se aktualizuje tak, aby zobrazoval data podle vybraných polí, a vy budete moct v těchto datech jasně identifikovat odlehlé hodnoty – tedy izolované položky, které jsou vzdálené od většiny ostatních dat.

Teď, když znáte odlehlé hodnoty v datech, můžete prozkoumat příčiny jejich výskytu a podniknout nápravné kroky.

Identifikace odlehlých hodnot pomocí vzorců jazyka DAX

Pomocí jazyka DAX můžete vytvořit míru, která rozpozná odlehlé hodnoty ve vašich datech. Příkladem je následující vzorec:

Outliers =
CALCULATE (
    [Order Qty],
    FILTER (
        VALUES ( Product[Product Name] ),
        COUNTROWS ( FILTER ( Sales, [Order Qty] >= [Min Qty] ) ) > 0
    )
)

Order Qty je míra v tabulce Sales (Prodej) a Min Qty (Minimální množství) odkazuje na nejnižší množství objednávky v tabulce Sales (Prodej).

Jakmile vytvoříte novou míru odlehlých hodnot, můžete seskupit produkty do kategorií pomocí funkce seskupení, jako jste to udělali dříve při vytváření histogramu. Pak musíte přidat vizuál bodového grafu, jako jste to udělali v předchozí části, protože je to nejlepší možnost vizualizace pro zobrazení odlehlých hodnot. Jakmile přidáte bodový graf, naplníte ho poli souvisejícími s vaším vzorcem jazyka DAX a mírou odlehlých hodnot.

V bodovém grafu budete moct identifikovat odlehlé hodnoty obsažené ve vašich datech. Pak můžete prozkoumat důvody jejich výskytu a provést nápravné kroky.