Trénování klasifikačních modelů pomocí rozhraní Python API AutoML
Tento článek ukazuje, jak vytrénovat model pomocí AutoML pomocí rozhraní Python API AutoML. Další podrobnosti najdete v referenčních informacích k rozhraní PYTHON API pro AutoML.
Rozhraní API poskytuje funkce pro spuštění klasifikace, regrese a prognózování spuštění AutoML. Každé volání funkce trénuje sadu modelů a vygeneruje zkušební poznámkový blok pro každý model.
Viz Požadavky pro experimenty AutoML.
Nastavení experimentu pomocí rozhraní API AutoML
Následující kroky obecně popisují, jak nastavit experiment AutoML pomocí rozhraní API:
Vytvořte poznámkový blok a připojte ho ke clusteru, na kterém běží Databricks Runtime ML.
Určete, kterou tabulku chcete použít ze stávajícího zdroje dat, nebo nahrajte datový soubor do DBFS a vytvořte tabulku.
Pokud chcete spustit autoML, použijte
automl.regress()
funkci ,automl.classify()
neboautoml.forecast()
funkci a předejte tabulku spolu s dalšími trénovacími parametry. Pokud chcete zobrazit všechny funkce a parametry, přečtěte si referenční informace k rozhraní Python API autoML.Poznámka:
Funkce
automl.forecast()
je k dispozici pouze pro prognózování klasických výpočetních prostředků.Příklad:
# Regression example summary = automl.regress(dataset=train_pdf, target_col="col_to_predict") # Classification example summary = automl.classification(dataset=train_pdf, target_col="col_to_predict") # Forecasting example summary = automl.forecast(dataset=train_pdf, target_col="col_to_predic", time_col="date_col", horizon=horizon, frequency="d", output_database="default")
Po spuštění AutoML se v konzole zobrazí adresa URL experimentu MLflow. Pomocí této adresy URL můžete sledovat průběh spuštění. Aktualizujte experiment MLflow, abyste viděli pokusy, jakmile jsou dokončené.
Po dokončení spuštění AutoML:
- Pomocí odkazů v souhrnu výstupu přejděte k experimentu MLflow nebo poznámkovému bloku, který vygeneroval nejlepší výsledky.
- Pomocí odkazu na poznámkový blok pro zkoumání dat získáte přehled o datech předávaných do AutoML. Tento poznámkový blok můžete také připojit ke stejnému clusteru a znovu ho spustit a reprodukovat výsledky nebo provést další analýzu dat.
- Pomocí souhrnného objektu vráceného voláním AutoML můžete prozkoumat další podrobnosti o zkušebních verzích nebo načíst model natrénovaný danou zkušební verzí. Přečtěte si další informace o objektu AutoMLSummary.
- Naklonujte všechny vygenerované poznámkové bloky ze zkušebních verzí a znovu ho spusťte tak, že ho připojíte ke stejnému clusteru, abyste mohli výsledky reprodukovat. Můžete také provést potřebné úpravy, znovu je spustit, abyste natrénovali další modely a přihlásili je do stejného experimentu.
Import poznámkového bloku
Pokud chcete importovat poznámkový blok uložený jako artefakt MLflow, použijte databricks.automl.import_notebook
rozhraní PYTHON API. Další informace najdete v tématu Import poznámkového bloku.
Registrace a nasazení modelu
Model vytrénovaný autoML můžete zaregistrovat a nasadit stejně jako jakýkoli registrovaný model v registru modelů MLflow; viz Protokoly, načtení, registrace a nasazení modelů MLflow.
Žádný pojmenovaný modul pandas.core.indexes.numeric
Při poskytování modelu vytvořeného pomocí AutoML s obsluhou modelů se může zobrazit chyba: No module named pandas.core.indexes.numeric
.
Důvodem je nekompatibilní pandas
verze mezi AutoML a modelem obsluhující prostředí koncového bodu. Řešení chyby:
- Stáhněte si skript add-pandas-dependency.py.
Skript upraví
requirements.txt
protokolovaný model takconda.yaml
, aby zahrnoval příslušnoupandas
verzi závislostí:pandas==1.5.3
. - Upravte skript tak, aby zahrnoval
run_id
běh MLflow, ve kterém byl váš model protokolován. - Znovu zaregistrujte model do registru modelů MLflow.
- Zkuste obsluhovat novou verzi modelu MLflow.
Příklad poznámkového bloku
Následující poznámkový blok ukazuje, jak provádět klasifikaci pomocí AutoML.
Ukázkový poznámkový blok klasifikace AutoML
Další kroky
Referenční informace k rozhraní PYTHON API pro AutoML