排列功能重要性
重要
Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning。
自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。
ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。
對於定型模型和測試資料集的功能變數計算排列功能重要性分數
類別: 特徵選取模組
模組概觀
本文說明如何在機器學習 Studio (傳統) 中使用排列功能重要性模組,以計算資料集的一組功能重要性分數。 您可以使用這些分數,協助您判斷要在模型中使用的最佳特徵。
在此課程模組中,功能值會隨機隨機地隨機地隨機地隨機執行,一個資料行,而模型的效能會在之前和之後進行測量。 您可以選擇所提供的其中一個標準計量來測量效能。
模組傳回的分數代表定型模型在排列之後的效能 變更 。 重要功能通常比打散程序更敏感,因此會導致更高的重要性分數。
本文提供在機器學習服務中排列功能重要性、理論基礎以及其應用程式的良好一般總覽: 排列功能重要性
如何使用排列特徵重要度
若要產生一組功能分數,您需要有已定型的模型,以及測試資料集。
將 排列功能重要性 模組新增至您的實驗。 您可以在 [ 特徵選取 ] 分類中找到此模組。
將已定型的模型連線到左邊的輸入。 模型必須是回歸模型或分類模型。
在右邊的輸入上,串連資料組,最好是與用來定型模型的資料集不同的資料集。 這個資料集會根據定型的模型來進行評分,並在功能值變更之後評估模型。
針對 [ 隨機種子],輸入要做為隨機植入的值。 如果您指定 0 (預設值),則會根據系統時鐘來產生數字。
種子值是選擇性的,但如果您想要在相同實驗的各個回合執行重現性,則應提供一個值。
針對 測量效能的計量,請選取在排列之後計算模型品質時要使用的單一度量。
根據您要評估分類或回歸模型,機器學習 Studio (傳統) 支援下列計量:
分類
精確度、有效位數、召回率、平均記錄遺失
迴歸
精確度、召回率、平均絕對錯誤、根平均平方誤差、相對絕對錯誤、相對平方誤差、判斷係數
如需這些評估度量以及如何計算的詳細說明,請參閱 評估。
執行實驗。
此模組會輸出特徵資料行清單以及與它們相關聯的分數,並依分數的順序遞減排序。
範例
請參閱 Azure AI 資源庫中的下列範例實驗:
排列功能重要性:示範如何使用此模組,依排列重要性分數的順序來排列資料集的特徵變數次序。
使用排列功能重要性模組:說明在 web 服務中使用此模組的方式。
技術說明
本節提供常見問題的執行詳細資料、秘訣和解答。
這與其他特徵選取方法有何不同?
排列功能重要性的運作方式是隨機變更每個特徵資料行的值、一次一個資料行,然後評估模型。
排列功能重要性所提供的排名通常與您從以 篩選器為基礎的特徵選取專案所取得的排名不同,這會在建立模型 之前 計算分數。
這是因為排列功能重要性不會測量功能與目標值之間的關聯,而是會從模型中的預測中,改為捕捉每項功能的影響程度。
預期的輸入
名稱 | 類型 | Description |
---|---|---|
定型的模型 | ILearner 介面 | 定型的分類或迴歸模型 |
測試資料 | 資料表 | 用於在排列功能值之後計分或評估模型的測試資料集 |
模組參數
名稱 | 類型 | 範圍 | 選擇性 | 預設 | 描述 |
---|---|---|---|---|---|
隨機種子 | 整數 | >=0 | 必要 | 0 | 亂數產生品種子值 |
用於測量效能的度量 | EvaluationMetricType | 從清單中選取 | 必要 | 分類 - 精確度 | 選取在排列之後評估模型變化時所要使用的度量 |
輸出
名稱 | 類型 | 說明 |
---|---|---|
功能重要性 | 資料表 | 資料集,根據選取的度量,包含功能重要性結果 |
例外狀況
例外狀況 | 描述 |
---|---|
錯誤 0062 | 嘗試比較兩個具有不同學習模組類型的模型時,就會發生例外狀況。 |
錯誤 0024 | 如果資料集未包含標籤資料行,就會發生例外狀況。 |
錯誤 0105 | 模組定義檔定義不受支援的參數類型時擲回 |
錯誤 0021 | 如果傳至模組的某些資料集中的資料列數目太少,就會發生例外狀況。 |