雙類別提升判定樹元件
本文說明 Azure 機器學習 設計工具中的元件。
使用此元件來建立以提升式判定樹演算法為基礎的機器學習模型。
提升式判定樹是一種合奏學習方法,其中第二個樹狀結構會針對第一個樹狀結構的錯誤進行更正,第三個樹狀結構會更正第一個和第二個樹狀結構的錯誤,依此類推。 預測是以進行預測的整個樹狀結構合組為基礎。
一般而言,正確設定時,提升判定樹是最簡單的方法,可讓各種機器學習工作達到最佳效能。 不過,它們也是較耗用記憶體的學習者之一,而目前的實作會保留記憶體中的所有內容。 因此,提升的判定樹模型可能無法處理某些線性學習工具可以處理的大型數據集。
此元件是以 LightGBM 演算法為基礎。
如何設定
此元件會建立未定型分類模型。 因為分類是監督式學習方法,若要定型模型,您需要 包含標籤數據行的標記數據集 ,其中包含所有數據列的值。
在 Azure 機器學習 中,將提升式判定樹元件新增至管線。
藉由設定 [建立定型定型器模式 ] 選項,指定您要如何定型模型。
單一參數:如果您知道如何設定模型,您可以提供一組特定的值做為自變數。
參數範圍:如果您不確定最佳參數,您可以使用微調模型超參數位件來尋找最佳參數。 您提供一些值範圍,而定型器會逐一查看設定的多個組合,以判斷產生最佳結果的值組合。
針對 每個樹狀結構的葉數上限,表示可在任何樹狀結構中建立的終端節點數目上限。
藉由增加此值,您可能會增加樹狀結構的大小並取得較佳的精確度,而風險是過度學習和較長的訓練時間。
針對 每個分葉節點的樣本數目下限,表示在樹狀結構中建立任何終端節點(分葉)所需的案例數目。
藉由增加此值,您可以增加建立新規則的臨界值。 例如,預設值為 1,即使是單一案例,也會導致建立新的規則。 如果您將值增加至 5,定型數據必須包含至少五個符合相同條件的案例。
針對 學習速率,輸入介於 0 到 1 之間的數位,以定義學習時的步驟大小。
學習速率會決定學習者在最佳解決方案上的交集速度或速度。 如果步驟大小太大,您可能會過度調整最佳解決方案。 如果步驟大小太小,定型需要較長的時間才能交集到最佳解決方案上。
針對 建構的樹狀結構數目,表示在合奏中建立的判定樹總數。 藉由建立更多判定樹,您可能會獲得更好的涵蓋範圍,但定型時間將會增加。
如果您將值設定為 1,則只會產生一個樹狀結構(具有初始參數集的樹狀結構),而且不會再執行任何反覆專案。
針對 [隨機數種子],選擇性地輸入非負整數做為隨機種子值。 指定種子可確保在具有相同數據和參數的執行之間重現性。
隨機種子預設會設定為 0,這表示會從系統時鐘取得初始種子值。 使用隨機種子的後續執行可能會有不同的結果。
定型模型:
如果您將 [建立定型器模式] 設定為 [單一參數],請連接已標記的數據集和定型模型元件。
如果您將 [建立定型器模式] 設定為 [參數範圍],請使用 [微調模型超參數] 連接已標記的數據集並定型模型。
結果
完成定型之後:
若要儲存已定型模型的快照集,請選取 [定型模型] 元件右面板中的 [輸出] 索引標籤。 選取 [ 註冊數據集] 圖示,將模型儲存為可重複使用的元件。
若要使用模型進行評分,請將 評分模型 元件新增至管線。