Analiza głównej przyczyny
Analiza przyczyn głównych (RCA) umożliwia znalezienie ukrytych połączeń w danych. Na przykład pomaga zrozumieć, dlaczego niektóre sprawy trwają dłużej niż inne lub dlaczego niektóre sprawy są zablokowane w czasie, gdy inne przebiegają bez zakłóceń. RCA pokaże kluczowe różnice między tymi sprawami.
Wymagane dane
RCA może używać wszystkich atrybutów na poziomie sprawy, metryk i niestandardowych metryk w celu znalezienia połączeń między nimi oraz metryki służącej do wybierania.
Najlepszym przykładem jest wybranie wszystkich danych, które mogą zostać użycia jako atrybut na poziomie sprawy i wybranie atrybutu, który w rzeczywistości ma wpływ na metrykę, a która nie.
Jak działa RCA
Algorytm RCA oblicza strukturę drzewa, w której każdy węzeł będzie dzielił węzeł zestaw danych na dwie mniejsze części. Jest on oparty na jednej zmiennej, w której znajduje najlepsze skojarenie między podziałem zmiennej a metryką docelową. Dzięki temu można zobaczyć ukryte połączenia w danych. W tym miejscu będzie wiadomo, w jaki sposób kombinacja atrybutów będzie mieć wpływ na sprawę.
Jak RCA znajduje najlepszy podział
Najpierw generujemy setki na tysiące kombinacji możliwych podziałów. Następnie próbujemy sprawdzić, jaka część będzie rozdzielić zestaw danych na dwie części. Obliczamy zmienność metryki głównej w każdej części podziału i obliczamy wynik dla każdego podziału przy użyciu następujących obliczeń:
scoresplit_x= zmienność po lewej stronie* liczba spraw w lewo+ zmienność w prawo* liczba spraw w prawo
Następnie wszystkie podziały są sortowane według tego wyniku, a najlepsze podziały należy rozdzielić od początku, z najniższą wartością. Dla metryki głównej (ciągu) zamiast zmienności obliczamy konwersję.
Przykład RCA
W tym przykładzie chcemy zobaczyć główną przyczynę czasu trwania sprawy. W danych mamy atrybuty kraju dostawcy na poziomie sprawy, dostawcę miasta, materiał, łączna kwota icentrum kosztów . Średni czas trwania sprawy wynosi 46 godzin.
Przyglądając się każdej wartości każdego atrybutu z osobna, widzimy, że największy wpływ na czas trwania sprawy ma to, że miasto dostawcy to Graz, co średnio wydłuża czas trwania sprawy sprawę o dodatkowe 15 godzin. Z tej wstępnej analizy wynika, że inne wartości atrybutów mają znacznie mniejszy wpływ na metrykę docelową. Jednak podczas obliczania modelu drzewa można zobaczyć, że powyższe obliczenia są następujące (jak na poniższych zrzutach ekranu).
Struktura drzewa wygląda następująco:
Pierwszy podział to dane wzdłuż zmiennej materiałowej . Dane z aluminium znajdują się po jednej stronie, a wszystkie inne materiały po drugiej stronie.
Odgałęzienie aluminium jest dalej dzielone na kraje dostawcze czyli Niemcy i Austrię.
Oddział Austria jest kontynuowany z podziałem na miasta dostawców, z Graz po jednej stronie i Wiedniem na inne.
W węźle Graz średni czas trwania był o 36 godzin dłuższy niż ogólny czas trwania 46 godzin.
W tym samym drzewie widać, że jeśli mamy inny materiał niż aluminium, to również rozdziela się ono na miejscowość dostawcy, gdzie z jednej strony jest Graz, a z drugiej Wiedeń, Monachium lub Frankfurt. Tutaj jednak wartości są przechyłe. Graz ma o wiele lepsze dane statystyczne niż Wiedeń lub inne miasto niemieckiego, przy użyciu średnich spraw w Graz jest o 15 godzin szybciej niż łączna wartość średnia dla wszystkich spraw.
Można na tej stronie sprawdzić, że wstępne dane statystyczne są konsekwencją, ponieważ Graz działa błąd podczas wykonywania materiałów. Jest on jednak wykonywania powyżej średniej w przypadku, gdy materiał jest inny niż ten, który jest całkowicie przesyłany na inne urządzenia.
Statystyka Wpływ czasu trwania przypadku bierze pod uwagę tylko jedną wartość, przez co może być czasami myląca. Zestaw RCA uwzględnia kombinacje tych elementów, co umożliwia wgląd w proces.