Träna regressionsmodeller med AutoML Python API
Den här artikeln visar hur du tränar en modell med AutoML med Hjälp av AutoML Python API. Mer information finns i Referens för AutoML Python API .
API:et tillhandahåller funktioner för att starta klassificering, regression och prognostisering av AutoML-körningar. Varje funktionsanrop tränar en set av modeller och genererar en utvärderingsanteckningsbok för varje modell.
Se Krav för AutoML-experiment.
Konfigurera ett experiment med autoML-API:et
Följande steg beskriver vanligtvis hur du set upp ett AutoML-experiment med hjälp av API:et:
Skapa en notebook-fil och koppla den till ett kluster som kör Databricks Runtime ML.
Identifiera vilken table du vill använda från din befintliga datakälla eller ladda upp en datafil till DBFS och skapa en table.
Om du vill starta en AutoML-körning använder du funktionen
automl.regress()
,automl.classify()
ellerautoml.forecast()
och skickar tabletillsammans med andra tränings-parameters. För att se alla funktioner och parameters, läs referensen för AutoML Python API.Kommentar
Funktionen
automl.forecast()
är endast tillgänglig för prognostisering för klassisk beräkning.Till exempel:
# Regression example summary = automl.regress(dataset=train_pdf, target_col="col_to_predict") # Classification example summary = automl.classification(dataset=train_pdf, target_col="col_to_predict") # Forecasting example summary = automl.forecast(dataset=train_pdf, target_col="col_to_predic", time_col="date_col", horizon=horizon, frequency="d", output_database="default")
När AutoML-körningen börjar visas en URL för MLflow-experiment i konsolen. Använd den här URL:en för att övervaka körningens förlopp. Refresh MLflow-experimentet för att se försöken när de har slutförts.
När AutoML-körningen är klar:
- Använd länkarna i utdatasammanfattningen för att navigera till MLflow-experimentet eller anteckningsboken som genererade bästa resultat.
- Använd länken till notebook-filen för datautforskning för att få insikter om de data som skickas till AutoML. Du kan också koppla den här notebook-filen till samma kluster och köra den igen för att återskapa resultaten eller utföra ytterligare dataanalys.
- Använd sammanfattningsobjektet som returneras från AutoML-anropet för att utforska mer information om utvärderingsversionerna eller för att läsa in en modell som tränats av en viss utvärderingsversion. Läs mer om AutoMLSummary-objektet.
- Klona alla genererade notebook-filer från utvärderingsversionerna och kör den igen genom att koppla den till samma kluster för att återskapa resultatet. Du kan också göra nödvändiga ändringar, köra dem igen för att träna ytterligare modeller och logga in dem i samma experiment.
Importera en notebook-fil
Om du vill importera en notebook-fil som sparats som en MLflow-artefakt använder du Python-API:et databricks.automl.import_notebook
. Mer information finns i Importera notebook-fil
Registrera och distribuera en modell
Du kan registrera och distribuera din AutoML-tränade modell precis som vilken registrerad modell som helst i MLflow-modellregistret. Se Logga, Ladda in och Registrera MLflow-modeller.
Ingen modul med namnet pandas.core.indexes.numeric
När du hanterar en modell som skapats med AutoML med modellservering kan du get felet: No module named pandas.core.indexes.numeric
.
Detta beror på en inkompatibel pandas
version mellan AutoML och modellen som betjänar slutpunktsmiljön. Så här åtgärdar du felet:
-
Ladda ned add-pandas-dependency.py skriptet.
Skriptet redigerar
requirements.txt
ochconda.yaml
för den loggade modellen så att den innehåller rättpandas
beroendeversion:pandas==1.5.3
. - Ändra skriptet så att det innehåller
run_id
för MLflow-körningen where din modell loggades. - Registrera om modellen till MLflow-modellregistret.
- Prova att hantera den nya versionen av MLflow-modellen.
Notebook-exempel
Följande notebook-fil visar hur du utför regression med AutoML.