Přehled analýzy hlavní příčiny
Analýza hlavní příčiny (RCA) vám umožňuje najít skrytá spojení v datech. Pomáhá vám například pochopit, proč dokončení některých případů trvá déle než jiných nebo proč se některé případy zaseknou na přepracováních, zatímco jiné běží hladce. RCA vám ukáže klíčové rozdíly mezi takovými případy.
Požadovaná data
RCA může použít všechny vaše atributy, metriky a vlastní metriky na úrovni případu k nalezení spojení mezi nimi a metriku dle vašeho výběru.
Nejlepším příkladem je zahrnout všechna data, která můžete, jako atribut na úrovni případu, a nechat RCA vybrat, který atribut skutečně ovlivňuje metriku a který ne.
Jak RCA funguje
Algoritmus RCA vypočítá stromovou strukturu, kde každý uzel rozdělí datovou sadu na dvě menší části. To je založeno na jedné proměnné, kde najde nejlepší korelaci mezi rozdělením proměnných a cílovou metrikou. Z toho můžete vidět skrytá spojení v datech. Zde vám řekne, která kombinace atributů ovlivní případ a jakým způsobem.
Jak RCA najde nejlepší rozdělení
Nejprve vygenerujeme stovky až tisíce kombinací možných rozdělení. Potom zkoušíme každé rozdělení, abychom zjistili, jak dobře bude ve skutečnosti rozdělovat datovou sadu na dvě části. Vypočítáme rozptyl hlavní metriky v každé části rozdělení a vypočítáme skóre pro každé rozdělení pomocí následujícího výpočtu:
skórerozdělení_x = rozptylvlevo * počet případůvlevo + rozptylvpravo * počet případůvpravo
Poté seřadíme všechna rozdělení podle tohoto skóre a nejlepší rozdělení se vezmou od začátku s nejnižším skóre. Pro kategorickou hlavní metriku (řetězec) počítáme nečistotu Gini místo rozptylu.
Příklad RCA
V tomto příkladu chceme vidět hlavní příčinu trvání případu. V datech máme atributy na úrovni případu země dodavatele, město dodavatele, materiál, celková částka a nákladové středisko. Průměrná doba trvání případu je 46 hodin.
Když se podíváme na každou hodnotu každého atributu zvlášť, můžeme vidět, že největší vliv na trvání případu je, když město dodavatele je Graz, což v průměru prodlužuje dobu trvání případu o dalších 15 hodin. Z této úvodní analýzy vidíme, že ostatní hodnoty atributů ovlivňují cílovou metriku daleko méně. Když však počítáme stromový model, vidíme, že výše uvedený výpočet je zavádějící (jako na následujícím snímku obrazovky).
Stromová struktura vypadá takto:
První rozdělení jsou data podél proměnné materiál. Data s hliníkem jsou na jedné straně a všechny ostatní materiály jsou na druhé straně.
Větev hliník je dále rozdělena podle země dodavatele na Německo a Rakousko.
Větev Rakousko pokračuje rozdělením podle města dodavatele s Graz na jedné straně a Vídeň na druhé.
V uzlu Graz byl průměrný případ o 36 hodin pomalejší než celková průměrná doba trvání 46 hodin.
Ve stejném stromě můžeme vidět, že pokud máme jiný materiál než hliník, rozděluje se také o proměnnou město dodavatele, kde na jedné straně je Graz a na druhé straně je Vídeň, Mnichov nebo Frankfurt. Tady jsou ale hodnoty opačné. Graz má mnohem lepší statistiky než Vídeň nebo jakékoli německé město, přičemž průměrný případ v Grazi je o 15 hodin rychlejší než celkový průměr pro všechny případy.
Z toho můžeme vidět, že počáteční statistiky jsou zavádějící, protože Graz si vede špatně, když je materiálem hliník, má však nadprůměrný výkon, když je materiál jiný než hliník, a je úplně opačný než v jiných městech.
Statistika Ovlivnění trvání případu bere v úvahu pouze jednu hodnotu a někdy může být zavádějící. RCA bere v úvahu jejich kombinace, aby vám poskytla více informací o vašem procesu.