PCA 型異常偵測元件

發行項
11/08/2024

警告

此元件 已被取代 ，因為其相依性 NimbusML 專案已不再主動維護。因此，此元件將不會收到未來的更新或安全性修補程式。我們打算在即將推出的版本中移除此元件。建議使用者移轉至替代解決方案，以確保持續支持和安全性。

本文說明如何使用 Azure 機器學習設計工具中的 PCA 型異常偵測元件，根據主體元件分析（PCA）建立異常偵測模型。

此元件可協助您在一個類別中輕鬆取得定型數據，例如有效的交易，但難以取得目標異常的足夠範例的案例中建置模型。

例如，若要偵測詐騙交易，您通常沒有足夠的詐騙範例來訓練。但您可能會有許多良好的交易範例。 PCA 型異常偵測元件藉由分析可用的功能來判斷構成「一般」類別的內容，以解決問題。接著，元件會套用距離計量來識別代表異常的情況。此方法可讓您使用現有的不平衡數據來定型模型。

深入了解主體元件分析

PCA 是機器學習中的既定技術。它經常用於探勘數據分析，因為它會顯示數據的內部結構，並說明數據中的變異數。

PCA 藉由分析包含多個變數的資料來運作。它會尋找變數之間的關聯性，並決定最適合擷取結果中差異的值組合。這些合併的功能值可用來建立稱為 主體元件更精簡的功能空間。

針對異常偵測，會分析每個新的輸入。異常偵測算法會計算其預測特徵值，以及標準化重建錯誤。正規化錯誤會當做異常分數使用。錯誤愈高，實例就越異常。

如需 PCA 運作方式及異常偵測實作的詳細資訊，請參閱下列檔：

由 Rokhlin、Szlan 和 Tygert 進行主體元件分析的隨機演算法
使用隨機性尋找結構：建構近似矩陣分解的概率演算法（PDF 下載），由 Halko、Martinsson 和 Tropp

如何設定 PCA 型異常偵測

將 PCA 型異常偵測 元件新增至設計工具中的管線。您可以在異常偵測類別中找到此元件。
在元件的右面板中，選取 [ 訓練模式 ] 選項。指出您是否要使用一組特定的參數來定型模型，或使用參數掃掠來尋找最佳參數。

如果您知道如何設定模型，請選取 [單一參數 ] 選項，並提供一組特定的值作為自變數。
針對 要在 PCA 中使用的元件數目，指定您想要的輸出功能或元件數目。

要包含的元件數目決定，是使用 PCA 之實驗設計的重要部分。一般指引是，您不應該包含與變數相同的 PCA 元件數目。相反地，您應該從較小的元件開始，並增加它們，直到符合某些準則為止。

當輸出元件 數目小於 數據集中可用的功能數據行數目時，會取得最佳結果。
指定隨機 PCA 定型期間要執行的過度取樣量。在異常偵測問題中，不平衡的數據難以套用標準 PCA 技術。藉由指定一些過度取樣，您可以增加目標實例的數目。

如果您指定 1，則不會執行過度取樣。如果您指定任何高於 1 的值，則會產生額外的樣本，以用於定型模型。

根據您是否使用參數掃掠，有兩個選項：
- 隨機 PCA 的 Oversampling 參數：輸入單一整數，代表少數類別在一般類別上過度取樣的比例。（當您使用 此選項時可以使用單一參數 定型方法。）
注意

您無法檢視過度取樣的數據集。如需如何搭配 PCA 使用過度取樣的詳細資訊，請參閱技術注意事項。
選取 [ 啟用輸入功能平均正規化 ] 選項，將所有輸入特徵正規化為零的平均值。 PCA 通常建議將正規化或調整為零，因為 PCA 的目標是將變數之間的變數最大化。

預設會選取此選項。如果值已經透過不同的方法或小數字數正規化，請取消選取它。
連接標記的訓練數據集和其中一個訓練元件。

如果您將 [ 建立定型器模式 ] 選項設定為 [單一參數]，請使用 [ 定型異常偵測模型] 元件。
提交管線。

結果

完成定型時，您可以儲存定型的模型。或者，您可以將它連接到評分模型元件，以預測異常分數。

若要評估異常偵測模型的結果：

請確定這兩個數據集都有分數數據行可供使用。

如果您嘗試評估異常偵測模型，並收到「評分數據集中沒有分數數據行要比較」的錯誤，您使用的是包含標籤數據行但沒有機率分數的一般評估數據集。選擇符合異常偵測模型的架構輸出的數據集，其中包含 評分標籤 和 評分機率數據 行。
確定已標記標籤標數據行。

有時候管線圖形中會移除與標籤數據行相關聯的元數據。如果發生這種情況，當您使用評估模型元件來比較兩個異常偵測模型的結果時，您可能會收到「評分數據集中沒有標籤數據行」錯誤。或者，您可能會收到「評分數據集中沒有要比較的標籤數據行」錯誤。

您可以在評估模型元件之前新增編輯元數據元件，以避免這些錯誤。使用資料行選取器來選擇類別數據行，然後在 [字段 ] 列表中選取 [ 卷標]。

使用執行 Python 腳本元件，將標籤數據行類別調整為 1（正數、正常）和 0（負數、異常）。

label_column_name = 'XXX'
anomaly_label_category = YY
dataframe1[label_column_name] = dataframe1[label_column_name].apply(lambda x: 0 if x == anomaly_label_category else 1)

技術注意事項

此演算法會使用 PCA 來近似包含一般類別的子空間。子空間是由與數據共變數矩陣的頂端 eigenvalue 相關聯的 eigenvectors 所跨越。

針對每個新的輸入，異常偵測器會先計算其在特徵向量上的投影，然後計算標準化重建錯誤。此錯誤是異常分數。錯誤愈高，實例就越異常。如需如何計算一般空間的詳細資訊，請參閱維琪百科：主體元件分析。

下一步

請參閱 Azure 機器學習可用的元件集。

如需設計工具元件專屬的錯誤清單，請參閱設計工具的例外狀況和錯誤碼。

共用方式為

PCA 型異常偵測元件

深入了解主體元件分析

如何設定 PCA 型異常偵測

結果

技術注意事項

下一步

意見反應

其他資源