使用 Power BI 視覺效果識別極端值

已完成

極端值是資料中的異常類型,其根據歷史平均值或結果,或為您未預期或感到驚訝的東西。 您會想要識別極端值,以隔離與其他資料點明顯不同的資料點,然後採取動作來調查該差異的原因。 此分析結果可能會對商務決策產生巨大的影響。

假設您正在分析運輸倉儲的資料。 針對特定產品類別,您注意到訂單數目增加高於平均值。 首先,您想要識別該產品類別。 接著,您想要詢問數個關於極端值的問題:

  • 那天是否有高於平均出貨?

  • 這個異常發生在特定的倉儲嗎?

  • 是否由單一事件導致特定類別的訂單增加?

  • 在上個月、上一季、去年或更早年度的其他日子,是否有發生此事件?

Power BI 可供鬆識別資料中的極端值,但必須先判斷造成極端值的邏輯。 您可在認為可能是極端值的資料附近,使用觸發點 (例如計算)。

識別極端值的處理序包括將資料分割成兩個群組:其中一個群組是極端值資料,而另一個群組則不是。 您可使用計算結果欄來識別極端值,但在重新整理資料之前,結果會是靜態。 識別極端值更好的方法是使用視覺效果或 DAX 公式,因為這些方法會確認結果為動態。

當已識別資料中的極端值時,即可使用交叉分析篩選器或篩選來醒目提示那些極端值。 此外,您可將圖例新增至視覺效果,讓其他資料可識別極端值。 接著即可鑽研極端值資料,以進行更詳細的分析。

使用視覺效果來識別極端值

用來識別極端值的最佳視覺效果是散佈圖,其顯示兩個數值之間的關聯性。 散佈圖會顯示大型資料集中的模式,所以非常適合用來顯示極端值。

當將散佈圖新增至 Power BI 報表時,將興趣的欄位分別放在 [X 軸] 與 [Y 軸] 區段中。 在本案例中,[已運輸的訂單] 欄位是在 X 軸,然後 [訂單數量] 欄位是在 Y 軸。

視覺效果將會更新,以根據所選取的欄位顯示資料,且您將可清楚地識別該資料中的極端值;其遠離大量資料的隔離項目。

既然可找出資料中的極端值,便能調查其存在的原因,並採取更正動作。

使用 DAX 來識別極端值

您可使用 DAX 來建立量值,以識別資料中的極端值,如下列公式所示:

Outliers =
CALCULATE (
    [Order Qty],
    FILTER (
        VALUES ( Product[Product Name] ),
        COUNTROWS ( FILTER ( Sales, [Order Qty] >= [Min Qty] ) ) > 0
    )
)

Order Qty 是 Sales 資料表中的量值,而 Min Qty 是指 Sales 資料表中的最低訂單數量

建立新的極端值量值之後,即可使用分組功能將產品分組為類別,如同先前建立長條圖時所做的一樣。 接著,您需要新增散佈圖視覺效果,如同在上一節中所做的一樣,因為這是顯示極端值的最佳視覺效果選項。 新增散佈圖之後,您會在其中填入與 DAX 公式與極端值量值建立關聯的欄位。

在散佈圖中,您將能夠識別資料中的極端值。 接著,您可調查其存在的原因,以及採取更正動作。