AutoML 中預測的模型掃掠和選取項目
本文說明 Azure 機器學習 中的自動化機器學習 (AutoML) 如何搜尋並選取預測模型。 如果您想要深入瞭解 AutoML 中的預測方法,請參閱 AutoML 中的預測方法概觀。 若要探索 AutoML 中預測模型的定型範例,請參閱 使用 SDK 和 CLI 設定 AutoML 來定型時間序列預測模型。
AutoML 中的模型掃掠
AutoML 的核心工作是定型及評估數個模型,並選擇與指定主要計量相關的最佳模型。 在此情況下,「模型」一詞是指模型類別,例如 ARIMA 或隨機樹系,以及區分類別內模型的特定超參數設定。 例如,ARIMA 是指共用數學範本和一組統計假設的模型類別。 ARIMA 模型需要一份正整數清單,以指定模型的精確數學形式。 這些值是超參數。 ARIMA(1,0,1) 和 ARIMA(2, 1, 2) 的模型具有相同類別,但不同的超參數。 這些定義可以分別配合定型數據進行調整,並相互評估。 AutoML 搜尋或 掃掠不同的模型類別,以及透過不同超參數在類別內搜尋。
超參數掃掠方法
下表顯示 AutoML 用於不同模型類別的不同超參數掃掠方法:
模型類別群組 | 模型類型 | 超參數掃掠方法 |
---|---|---|
樸素、季節樸素、平均、季節平均 | 時間序列 | 由於模型簡易性起見,類別內沒有掃掠 |
指數平滑法、ARIMA(X) | 時間序列 | 網格搜尋類別內掃掠 |
Prophet | 迴歸 | 類別內沒有掃掠 |
線性 SGD、LARS LASSO、彈性網、K 最接近像素、決策樹、隨機樹系、極端隨機樹系、漸層提升樹系、LightGBM、XGBoost | 迴歸 | AutoML 的模型建議服務會動態探索超參數空間 |
ForecastTCN | 迴歸 | 模型靜態清單,後面接著透過網路大小隨機搜尋、卸載率和學習速率 |
如需不同模型類型的描述,請參閱 預測方法概觀一文的 AutoML 中的預測模型一節。
AutoML 的掃掠量取決於預測作業組態。 您可以將停止準則指定為時間限制或試用版數目的限制,或對等的模型數目。 如果主要計量未改善,則可以在這兩種情況下使用早期終止邏輯來停止掃掠。
AutoML 中的模型選取
AutoML 會遵循三個階段的程式來搜尋並選取預測模型:
階段 1:掃掠時間序列模型,並使用最大可能性估計方法,從每個類別選取最佳模型。
階段 2:根據驗證集的主要計量值,掃掠回歸模型並將它們與階段 1 中最好的時間序列模型進行排名。
階段3:從排名最上層的模型建置合奏模型、計算其驗證計量,並將它與其他模型排名。
第 3 階段結束時最高排名計量值的模型會指定為最佳模型。
重要
在階段 3 中,AutoML 一律會計算未用於符合模型之樣本外數據的計量。 這種方法有助於防止過度調整。
驗證組態
AutoML 有兩個驗證組態:交叉驗證和明確的驗證數據。
在交叉驗證案例中,AutoML 會使用輸入組態來建立資料分割至定型和驗證摺疊。 這些分割中必須保留時間順序。 AutoML 使用所謂的 「滾動原始來源交叉驗證」,其會使用源時間點,將數列分割成定型和驗證數據。 滑動時間原點即會產生交叉驗證摺疊。 每個驗證摺疊都包含緊接在指定摺疊原點位置之後的下一個觀察範圍。 此策略會保留時間序列數據完整性,並降低資訊外泄的風險。
AutoML 遵循一般交叉驗證程序,在每個摺疊上定型個別的模型,並從所有摺疊平均驗證計量。
預測作業的交叉驗證設定方式是設定交叉驗證折疊的數目,並選擇性地設定兩個連續交叉驗證折疊之間的時間週期數。 如需設定交叉驗證以進行預測的詳細資訊和範例,請參閱 自定義交叉驗證設定。
您也可以自備授權驗證資料。 如需詳細資訊,請參閱 在 AutoML (SDK v1) 中設定定型、驗證、交叉驗證和測試數據。