提升判定樹回歸元件
本文說明 Azure 機器學習 設計工具中的元件。
使用此元件建立使用提升的回歸樹狀結構合奏。 提升 表示每個樹狀結構都相依於先前的樹狀結構。 演算法會藉由調整其前面的樹狀結構殘差來學習。 因此,判定樹合奏的提升往往能提高精確度,但風險較小。
此元件是以 LightGBM 演算法為基礎。
此回歸方法是受監督的學習方法,因此需要 加上標籤的數據集。 標籤資料列必須包含數值。
注意
只搭配使用數值變數的數據集使用此元件。
定義模型之後,請使用 定型模型來定型模型。
進一步瞭解提升回歸樹狀結構
提升是建立合奏模型的數個傳統方法之一,以及套用標記、隨機樹系等等。 在 Azure 機器學習 中,提升式判定樹會使用 MART 漸層提升演算法的有效實作。 梯度提升是一種適用於迴歸問題的機器學習技術。 它會以逐步方式建置每個回歸樹狀結構,並使用預先定義的損失函式來測量每個步驟中的錯誤,並在下一個步驟中更正錯誤。 因此,預測模型實際上是較弱預測模型的合奏。
在回歸問題中,提升會以逐步方式建置一系列樹狀結構,然後使用任意可區分的損失函式來選取最佳樹狀結構。
如需詳細資訊,請參閱下列文章:
https://wikipedia.org/wiki/Gradient_boosting#Gradient_tree_boosting
這個關於漸層提升的維琪百科文章提供提升樹狀結構上的一些背景。
https://research.microsoft.com/apps/pubs/default.aspx?id=132652
Microsoft研究:從 RankNet 到 LambdaRank 到 LambdaMART:概觀。 由 J.C. 伯吉斯。
漸層提升方法也可以藉由使用適當的損失函式減少到回歸,來用於分類問題。 如需分類工作之提升式樹狀結構實作的詳細資訊,請參閱 雙類別提升判定樹。
如何設定促進式判定樹回歸
將 提升式判定樹 元件新增至您的管線。 您可以在 [回歸] 類別下的 [機器學習 初始化] 下找到此元件。
藉由設定 [建立定型定型器模式 ] 選項,指定您要如何定型模型。
單一參數:如果您知道如何設定模型,並提供一組特定的值作為自變數,請選取此選項。
參數範圍:如果您不確定最佳參數,而且想要執行參數掃掠,請選取此選項。 選取要逐一查看的值範圍,而 微調模型超參數 會逐一查看您提供之設定的所有可能組合,以判斷產生最佳結果的超參數。
每個樹狀結構的葉數上限:指出可在任何樹狀結構中建立的終端節點數目上限。
藉由增加此值,您可能會增加樹狀結構的大小並取得較佳的精確度,而風險是過度學習和較長的訓練時間。
每個分葉節點的樣本數目下限:指出在樹狀結構中建立任何終端節點(分葉)所需的最小案例數目。
藉由增加此值,您可以增加建立新規則的臨界值。 例如,預設值為 1,即使是單一案例,也會導致建立新的規則。 如果您將值增加到 5,定型數據必須包含至少 5 個符合相同條件的案例。
學習速率:輸入介於 0 到 1 之間的數位,以定義學習時的步驟大小。 學習速率會決定學習者在最佳解決方案上的交集速度或速度。 如果步驟太大,您可能會超過最佳解決方案。 如果步驟大小太小,定型需要較長的時間才能交集到最佳解決方案上。
建構的樹狀結構數目:表示在合奏中建立的判定樹總數。 藉由建立更多判定樹,您可能會獲得更好的涵蓋範圍,但定型時間會增加。
如果您將值設定為 1;不過,只會產生一個樹狀結構(具有初始參數集的樹狀結構),而且不會再執行任何反覆專案。
隨機數種子:輸入選擇性的非負整數,以做為隨機種子值。 指定種子可確保在具有相同數據和參數的執行之間重現性。
根據預設,隨機種子會設定為0,這表示會從系統時鐘取得初始種子值。
定型模型:
如果您將 [建立定型器模式] 設定為 [單一參數],請連接已標記的數據集和定型模型元件。
如果您將 [建立定型器模式] 設定為 [參數範圍],請使用 [微調模型超參數] 連接已標記的數據集並定型模型。
提交管線。
結果
完成定型之後:
若要使用模型進行評分,請將定型模型連接到評分模型,以預測新輸入範例的值。
若要儲存已定型模型的快照集,請選取 [定型模型] 右側面板中的 [輸出] 索引標籤,然後按兩下 [註冊數據集] 圖示。 定型模型的複本將會儲存為元件樹狀結構中的元件,而且不會在管線的後續執行時更新。