什麼是 AutoML?

已完成

AutoML 是 Azure Databricks 的一項功能,讓您可使用演算法和超參數值的不同組合,來自動定型和評估機器學習模型。 藉由使用 AutoML,您可以減少反覆式模型定型程序所牽涉到的工作,並更快速地為您的資料建立最佳模型。

AutoML 的運作方式為何?

AutoML 的運作方式是產生多個實驗回合,每一個實驗都會使用不同的演算法和超參數組合來定型模型。 在每次執行中,系統會根據您指定的資料和預測計量來定型和評估模型。 Azure Databricks 會使用 MLflow 持續追蹤執行和所產生的模型,讓您能夠識別最佳執行模型,並將其部署到生產環境中。

顯示 AutoML 流程的圖表。

  1. 您可以啟動 AutoML 實驗,將 Azure Databricks 工作區中的資料表指定為定型的資料來源,以及想要最佳化的特定效能計量。
  2. AutoML 實驗會產生多個 MLflow 執行,每次執行都會產生具有程式碼的筆記本,其中包含用於在定型和驗證模型之前預先處理資料的程式碼。 定型模型會儲存為 MLflow 執行中的成品或 DBFS 存放區中的檔案。
  3. 實驗執行會依效能順序列出,首先顯示效能最佳的模型。 您可以探索每次執行所產生的筆記本,選擇要使用的模型,然後註冊並加以部署。

提示

如需 AutoML 所使用的特定前置處理轉換和定型演算法的詳細資訊,請在 Azure Databricks 文件中參閱 Azure Databricks AutoML 如何運作

為 AutoML 準備資料

AutoML 需要包含特徵和標籤值的定型資料來源。 若要提供此資料,請在 Azure Databricks 工作區的 Hive 中繼存放區中建立資料表。

為 AutoML 建立定型資料表的一種簡單方法,是在 Azure Databricks 入口網站中上傳資料檔案,如下所示。

Azure Databricks 的上傳資料介面的螢幕擷取畫面。

AutoML 會產生程式碼來處理一般資料前置處理工作;例如編碼類別變數、調整數值變數、處理 Null 值,以及處理不平衡的資料集。