什麼是 AutoML?
AutoML 是 Azure Databricks 的一項功能,讓您可使用演算法和超參數值的不同組合,來自動定型和評估機器學習模型。 藉由使用 AutoML,您可以減少反覆式模型定型程序所牽涉到的工作,並更快速地為您的資料建立最佳模型。
AutoML 的運作方式為何?
AutoML 的運作方式是產生多個實驗回合,每一個實驗都會使用不同的演算法和超參數組合來定型模型。 在每次執行中,系統會根據您指定的資料和預測計量來定型和評估模型。 Azure Databricks 會使用 MLflow 持續追蹤執行和所產生的模型,讓您能夠識別最佳執行模型,並將其部署到生產環境中。
- 您可以啟動 AutoML 實驗,將 Azure Databricks 工作區中的資料表指定為定型的資料來源,以及想要最佳化的特定效能計量。
- AutoML 實驗會產生多個 MLflow 執行,每次執行都會產生具有程式碼的筆記本,其中包含用於在定型和驗證模型之前預先處理資料的程式碼。 定型模型會儲存為 MLflow 執行中的成品或 DBFS 存放區中的檔案。
- 實驗執行會依效能順序列出,首先顯示效能最佳的模型。 您可以探索每次執行所產生的筆記本,選擇要使用的模型,然後註冊並加以部署。
提示
如需 AutoML 所使用的特定前置處理轉換和定型演算法的詳細資訊,請在 Azure Databricks 文件中參閱 Azure Databricks AutoML 如何運作。
為 AutoML 準備資料
AutoML 需要包含特徵和標籤值的定型資料來源。 若要提供此資料,請在 Azure Databricks 工作區的 Hive 中繼存放區中建立資料表。
為 AutoML 建立定型資料表的一種簡單方法,是在 Azure Databricks 入口網站中上傳資料檔案,如下所示。
AutoML 會產生程式碼來處理一般資料前置處理工作;例如編碼類別變數、調整數值變數、處理 Null 值,以及處理不平衡的資料集。