근본 원인 분석 개요
근본 원인 분석(RCA)을 사용하면 데이터에서 숨겨진 연결을 찾을 수 있습니다. 예를 들어 어떤 케이스는 다른 케이스보다 완료하는 데 시간이 더 오래 걸리는 이유 또는 일부 케이스가 원활하게 실행되는 동안 재작업에 갇히는 이유를 이해하는 데 도움이 됩니다. RCA는 이러한 케이스 간의 주요 차이점을 보여줍니다.
필수 데이터
RCA는 모든 케이스 수준 특성, 메트릭 및 사용자 지정 메트릭을 사용하여 이들 사이의 연결 및 선택한 메트릭을 찾을 수 있습니다.
가장 좋은 샘플은 케이스 수준 특성으로 가능한 모든 데이터를 포함하고 RCA가 메트릭에 실제로 영향을 미치는 특성과 그렇지 않은 특성을 선택하도록 하는 것입니다.
RCA 작동 원리
RCA 알고리즘은 각 노드가 데이터 세트를 두 개의 작은 부분으로 분할하는 트리 구조를 계산합니다. 이는 변수 분할과 대상 메트릭 간의 최상의 상관 관계를 찾는 하나의 변수를 기반으로 합니다. 여기에서 데이터의 숨겨진 연결을 볼 수 있습니다. 여기에서 어떤 특성 조합이 케이스에 어떤 방식으로 영향을 미치는지 알려줍니다.
RCA가 최상의 분할을 찾는 방법
먼저 수백에서 수천 가지의 가능한 분할 조합을 생성합니다. 그런 다음 각 분할을 시도하여 실제로 데이터 세트를 두 부분으로 얼마나 잘 분할하는지 확인합니다. 분할의 각 부분에서 기본 메트릭의 분산을 계산하고 다음 계산을 통해 각 분할의 점수를 계산합니다.
점수split_x = 분산왼쪽 * 케이스 수왼쪽 + 분산오른쪽 * 경우의 수오른쪽
그런 다음 이 점수를 기준으로 모든 분할을 정렬하고 처음부터 가장 낮은 점수로 최상의 분할을 가져옵니다. 범주형 기본 메트릭(문자열)의 경우 분산 대신 Gini 불순도를 계산합니다.
RCA 예시
이 예에서는 케이스 기간 뒤의 근본 원인을 확인하려고 합니다. 데이터에는 케이스 수준 특성에는 공급자 국가, 공급자 도시, 재료,총 금액 및 비용 센터가 있습니다. 평균 케이스 기간은 46시간입니다.
각 특성의 각 값을 개별적으로 살펴보면 케이스 기간에 가장 큰 영향을 미치는 요인은 공급자 도시가 Graz일 때이며 평균적으로 케이스 기간이 추가로 15시간 증가한다는 것을 알 수 있습니다. 이 초기 분석에서 특성의 다른 값이 목표 메트릭에 훨씬 적은 영향을 미친다는 것을 알 수 있습니다. 그러나 트리 모델을 계산할 때 위의 계산이 잘못된 것임을 알 수 있습니다(다음 스크린샷 참조).
트리 구조는 다음과 같습니다.
첫 번째 분할은 재료 변수에 따른 데이터입니다. 알루미늄 데이터는 한쪽에 있고 다른 모든 기타 재료는 다른 쪽에 있습니다.
알루미늄 분기는 공급자 국가에 의해 독일 및 오스트리아로 추가 분할됩니다.
오스트리아 분기는 한쪽에는 그라츠, 다른 한쪽에는 비엔나가 있는 공급자 도시에 의해 분할되어 계속됩니다.
노드 그라츠에서 평균 케이스는 전체 평균 기간인 46시간보다 36시간 더 느렸습니다.
동일한 트리에서 알루미늄 이외의 다른 재료가 있는 경우 변수 공급자 도시에 의해 분할되는 것을 볼 수 있습니다. 여기서 한쪽은 그라츠이고 다른 쪽은 비엔나, 뮌헨 또는 프랑크푸르트입니다. 그러나 여기에서는 값이 반대입니다. 그라츠는 비엔나나 독일의 어떤 도시보다 훨씬 나은 통계를 가지고 있으며 그라츠의 평균 케이스는 모든 케이스의 전체 평균보다 15시간 더 빠릅니다.
이것으로부터 우리는 재료가 알루미늄인 경우 그라츠가 성능이 좋지 않기 때문에 초기 통계가 오해의 소지가 있음을 알 수 있습니다. 그러나 재료가 알루미늄이 아닌 경우 평균 이상이며 다른 도시에서는 완전히 반대입니다.
사례 기간 영향 통계는 하나의 값만 고려하며 때로는 오해의 소지가 있을 수 있습니다. RCA는 이들의 조합을 고려하여 프로세스에 대한 더 많은 인사이트를 제공합니다.