根本原因分析の概要
根本原因分析 (RCA) を使用すると、データ内の隠れた接続を見つけることができます。 たとえば、一部のケースが他のケースよりも完了するまでに時間がかかる理由や、他のケースがスムーズに実行されているのに一部のケースがやり直しでスタックしている理由を理解するのに役立ちます。 RCA は、そのようなケースの主な違いを示します。
必須データ
RCA は、すべてのケース レベルの属性、メトリック、およびカスタム メトリックを使用して、それらの間の関連性と、選択したメトリックを見つけることができます。
最良のサンプルは、ケース レベルの属性として可能なすべてのデータを含め、どの属性が実際にメトリックに影響を与え、どの属性が影響を与えないかを RCA に選択させることです。
RCA のしくみ
RCA アルゴリズムは、各ノードがデータセットを 2 つの小さな部分に分割するツリー構造を計算します。 これは、変数の分割とターゲット メトリックの間の最良の相関関係を見つける 1 つの変数に基づいています。 このことから、データ内の隠れた接続を確認できます。 ここで、どの属性の組み合わせがケースにどのような影響を与えるかがわかります。
RCA が最適な分割を見つける方法
まず、可能な分割の組み合わせを数百から数千生成します。 次に、各分割を試して、データセットを実際に 2 つの部分に分割する方法を調べます。 分割の各部分の主要指標の分散を計算し、次の計算で各分割のスコアを計算します。
スコアsplit_x = 分散左 *ケース数左 +分散右 *ケース数右
次に、このスコアですべての分割を並べ替え、スコアが最も低い最初から最良の分割を取得します。 カテゴリのメイン メトリック (文字列) については、分散の代わりにジニ不純度を計算します。
RCA 例
この例では、ケース期間の背後にある根本原因を確認したいと考えています。 データには、ケース レベルの属性 サプライヤーの国、サプライヤーの都市、材料、合計金額、および コスト センターがあります。 ケース平均期間は 46 時間です。
各属性の各値を個別に見ると、ケース期間に最も影響を与えるのは、 サプライヤーの都市 が グラーツの場合であることがわかります。これにより、ケースの期間が平均でさらに 15 時間長くなります。 この最初の分析から、属性の他の値がターゲット メトリックに与える影響ははるかに小さいことがわかります。 ただし、ツリー モデルを計算すると、上記の計算が誤解を招くことがわかります (次のスクリーンショットを参照)。
ツリー構造は次のようになります:
最初の分割は、 material 変数に沿ったデータです。 アルミニウム のデータは片面に、 その他の 材料はすべて反対面にあります。
アルミニウム分岐は、サプライヤーの国 によって ドイツ とオーストリアにさらに分割されます。
オーストリア分岐は、一方がグラーツ、もう一方がウィーンと、サプライヤー都市ごとに分かれているのが特徴です。
ノード グラーツ では、平均ケースは全体平均期間の 46 時間のよりも 36 時間遅くなっています。
同じツリーで、アルミニウム以外の素材がある場合、サプライヤー都市によって、一方はグラーツ、もう一方はウィーン、ミュンヘン、フランクフルトというように分かれることがわかります。 しかし、ここでは値が逆です。 グラーツ の統計は、ウィーンやドイツのどの都市よりもはるかに優れており、グラーツの平均ケースは、すべてのケースの全体平均よりも 15 時間速くなっています。
このことから、素材がアルミニウムの場合、グラーツはパフォーマンスが低いため、最初の統計が誤解を招くことがわかりますが、素材がアルミニウム以外の場合は平均を上回っており、他の都市とはまったく逆です。
ケース期間の影響 統計は 1 つの値のみを考慮に入れるため、誤解を招く可能性があります。 RCA はそれらの組み合わせを考慮して、プロセスに関するより多くの分析情報を提供します。