改善您的 ML.NET 模型

發行項
01/29/2025

瞭解如何改善您的 ML.NET 模型。

重新架構問題

有時候，改善模型可能與用來定型模型的數據或技術無關。相反地，可能只是被問到錯誤的問題。請考慮從不同角度查看問題，並利用數據來擷取潛在指標和隱藏關聯性，以精簡問題。

提供更多數據範例

和人類一樣，定型演算法越多，效能就越有可能提高。改善模型效能的其中一種方法是為演算法提供更多定型數據範例。它從中學到的數據越多，它就能正確識別的案例越多。

為數據添加背景資訊

單一數據點的意義可能難以解譯。在數據點周圍建置內容有助於演算法和主題專家更妥善地做出決策。例如，一棟房子有三間臥室的事實本身並沒有給出其價格的良好跡象。不過，如果您新增背景資訊，現在知道它位於一個大都市區外的郊區社區，平均年齡為38歲，平均家庭收入為8萬美元，學校在前20百分位，則演算法有更多的信息來依據來做出決策。所有這些情境都可以作為輸入加入機器學習模型，作為特徵。

使用有意義的數據和功能

雖然更多數據範例和功能有助於改善模型的精確度，但它們也可能引入雜訊，因為並非所有數據和功能都有意義。因此，請務必瞭解哪些特徵最會影響演算法所做出的決策。使用排列特徵重要性（PFI）等技術可幫助識別這些顯著特徵，不僅有助於解釋模型，而且可以將輸出用作特徵選擇方法，以減少進入訓練過程的噪音特徵數量。

如需使用 PFI 的詳細資訊，請參閱使用排列特徵重要性來說明模型預測。

交叉驗證

交叉驗證是一種定型和模型評估技術，會將數據分割成數個數據分割，並在這些分割區上定型多個演算法。這項技術藉由從定型程式擷取數據來改善模型的健全性。除了改善看不見觀察的效能之外，在數據限制的環境中，它可以是使用較小數據集來定型模型的有效工具。

如需詳細資訊，請參閱如何在 ML.NET中使用交叉驗證。

超參數微調

訓練機器學習模型是一個迭代和探索的過程。例如，使用 K-Means 演算法定型模型時，最佳叢集數目為何？答案取決於許多因素，例如數據的結構。找出該數位需要試驗 k 的不同值，然後評估效能以判斷哪一個值是最佳值。微調引導定型程序尋找最佳模型的參數做法稱為超參數微調。

選擇不同的演算法

回歸和分類之類的機器學習工作包含各種演算法實作。您可能嘗試解決的問題，以及數據結構化的方式並不適合目前的演算法。在這種情況下，請考慮針對您的工作使用不同的演算法來查看它是否從您的數據中學習得更好。

下列連結提供更多指引，以幫助您選擇演算法。

共用方式為