Power BI 視覚化で外れ値を識別する

完了

外れ値は、データ内の一種の異常であり、過去の平均や結果に基づいた場合に、予想外だったり意外と思われたりするデータです。 外れ値を特定して他のデータ ポイントと大幅に異なるデータ ポイントを分離し、その違いの原因を調査するアクションを実行します。 この分析の結果は、ビジネス上の意思決定に大きな影響を与える可能性があります。

たとえば、出荷倉庫のデータを分析しているシナリオについて考えましょう。 特定の製品カテゴリについて、注文数が平均を超えて増えていることに気づきました。 まず、製品カテゴリを特定する必要があります。 次に、外れ値についていくつかの質問をします。

  • その日に平均を超える出荷がありましたか。

  • この特殊な状態は特定の倉庫で発生しましたか。

  • この特定のカテゴリの注文が増えたことは、1 つのイベントが原因になっていますか。

  • そのイベントは、前月、前四半期、前年、またはそれ以前の年にも発生しましたか。

Power BI を使用すると、データの外れ値を識別できますが、まず何が外れ値となるかについて、背後のロジックを判別する必要があります。 何を外れ値とみなすかについて、計算などのトリガー ポイントを使用することができます。

外れ値を識別するプロセスでは、データを 2 つのグループに分割する必要があります。1 つのグループは外れ値データで、もう一方のグループは外れ値ではありません。 計算列を使用して外れ値を識別することはできますが、結果はデータを更新しない限り静的になります。 外れ値を識別するためのより良い方法は、視覚エフェクトまたは DAX の数式を使用することです。これらの方法では結果が確実に動的になるためです。

データの外れ値を特定したら、スライサーまたはフィルターを使用してその外れ値を強調表示できます。 さらに、視覚化に凡例を追加して、他のデータ間で、外れ値を識別できるようにすることもできます。 その後、外れ値データをドリルダウンして詳細な分析を行うことができます。

視覚化を使用して外れ値を識別する

外れ値を識別するために最適な視覚化は、2 つの数値の間の関係を示す散布図です。 散布図では、大量のデータ セット内のパターンが表示されるため、外れ値を表示するのに最適です。

Power BI レポートに散布図を追加する場合、関心を持つフィールドを [X 軸][Y 軸] のセクションにそれぞれ配置します。 この例では、[Orders Shipped]\(出荷された注文\) フィールドが X 軸に、[Qty Orders]\(注文数量\) フィールドが Y 軸になります。

視覚化は、選択したフィールドに従ってデータを表示するように更新され、そのデータの外れ値を明確に特定できるようになります。外れ値は、大部分のデータから離れた孤立した項目です。

データの外れ値を識別できるようになったので、それらが存在する理由を調査し、是正措置を講じることができます。

DAX を使用して外れ値を識別する

DAX を使用すると、次の数式のように、データの外れ値を識別するメジャーを作成できます。

Outliers =
CALCULATE (
    [Order Qty],
    FILTER (
        VALUES ( Product[Product Name] ),
        COUNTROWS ( FILTER ( Sales, [Order Qty] >= [Min Qty] ) ) > 0
    )
)

注文数量は Sales テーブルのメジャーであり、最小数量は Sales テーブルで最も注文数量が少ないものです。

新しい外れ値のメジャーを作成した場合、前にヒストグラムを作成したときと同様に、グループ化機能を使用して製品をカテゴリにグループ化することができます。 次に、前のセクションで行ったように、散布図を追加する必要があります。これが、外れ値を表示するための最適な視覚エフェクト オプションであるためです。 散布図を追加したら、DAX の数式と外れ値のメジャーに関連付けられているフィールドを散布図に設定します。

散布図でデータの外れ値を特定できます。 その後、それらが存在する理由を調査し、是正措置を講じることができます。