Vad är AutoML?
AutoML förenklar processen med att tillämpa maskininlärning på dina datauppsättningar genom att automatiskt hitta den bästa algoritmen och hyperparameterkonfigurationen åt dig.
Hur fungerar AutoML?
Ange din datauppsättning och ange typ av maskininlärningsproblem, sedan gör AutoML följande:
- Rensar och förbereder dina data.
- Orkestrerar distribuerad modellträning och hyperparameterjustering över flera algoritmer.
- Hittar den bästa modellen med hjälp av öppen källkod utvärderingsalgoritmer från scikit-learn, xgboost, LightGBM, Prophet och ARIMA.
- Visar resultatet. AutoML genererar också källkodsanteckningsböcker för varje utvärderingsversion, så att du kan granska, återskapa och ändra koden efter behov.
Kom igång med AutoML-experiment via ett lågkodsgränssnitt för regression; klassificering; eller prognostisering, eller Python API.
Krav
Azure Databricks rekommenderar Databricks Runtime 10.4 LTS ML eller senare för allmän tillgänglighet för AutoML.
AutoML är
databricks-automl-runtime
beroende av paketet, som innehåller komponenter som är användbara utanför AutoML och hjälper även till att förenkla notebook-filerna som genereras av AutoML-träning.databricks-automl-runtime
finns på PyPI.Inga andra bibliotek än de som är förinstallerade i Databricks Runtime for Machine Learning ska installeras i klustret.
- Ändringar (borttagning, uppgraderingar eller nedgradering) till befintliga biblioteksversioner resulterar i körningsfel på grund av inkompatibilitet.
För att få åtkomst till filer på din arbetsyta måste du ha nätverksportarna 1017 och 1021 öppna för AutoML-experiment. Om du vill öppna dessa portar eller bekräfta att de är öppna läser du konfigurations- och säkerhetsgruppens regler för vpn-brandväggen i molnet eller kontaktar den lokala molnadministratören. Mer information om konfiguration och distribution av arbetsytor finns i Skapa en arbetsyta.
Använd en beräkningsresurs med ett beräkningsåtkomstläge som stöds. Alla beräkningsåtkomstlägen har inte åtkomst till Unity-katalogen:
Beräkningsåtkomstläge AutoML-stöd Stöd för Unity Catalog Dedikerat åtkomstläge Stöds Stöds En användare Stöds (måste vara den avsedda enskilda användaren för klustret) Stöds Läge för delad åtkomst Stöd saknas Stöd saknas Ingen isolering har delats Stöds Stöd saknas
AutoML-algoritmer
AutoML tränar och utvärderar modeller baserat på algoritmerna i följande tabell.
Kommentar
För klassificerings- och regressionsmodeller baseras beslutsträdet, slumpmässiga skogar, logistisk regression och linjär regression med stochastic gradient descent-algoritmer på scikit-learn.
Klassificeringsmodeller | Regressionsmodeller | Prognosmodeller | Prognosmodeller (serverlösa) |
---|---|---|---|
Beslutsträd | Beslutsträd | Profet | Profet |
Slumpmässiga skogar | Slumpmässiga skogar | Auto-ARIMA (finns i Databricks Runtime 10.3 ML och senare.) | Auto-ARIMA |
Logistisk regression | Linjär regression med stokastisk gradient nedstigning | DeepAR | |
XGBoost | XGBoost | ||
LightGBM | LightGBM |
Generering av utvärderingsanteckningsbok
Klassisk beräkning AutoML genererar notebook-filer med källkoden bakom utvärderingsversioner så att du kan granska, återskapa och ändra koden efter behov.
För prognosexperiment importeras automatiskt AutoML-genererade notebook-filer till din arbetsyta för alla utvärderingsversioner av experimentet.
För klassificerings- och regressionsexperiment importeras automatiskt AutoML-genererade notebook-filer för datautforskning och den bästa utvärderingsversionen i experimentet till din arbetsyta. Genererade notebook-filer för andra experimentförsök sparas som MLflow-artefakter på DBFS i stället för automatiskt importerade till din arbetsyta. För alla utvärderingsversioner förutom den bästa utvärderingsversionen anges inte notebook_path
och notebook_url
i TrialInfo
Python API. Om du behöver använda dessa notebook-filer kan du importera dem manuellt till din arbetsyta med AutoML-experimentgränssnittet eller Python-API:et.databricks.automl.import_notebook
Om du bara använder notebook-filen för datautforskning eller den bästa utvärderingsanteckningsboken som genereras av AutoML innehåller kolumnen Source i AutoML-experimentets användargränssnitt länken till den genererade notebook-filen för bästa utvärderingsversion.
Om du använder andra genererade notebook-filer i AutoML-experimentgränssnittet importeras de inte automatiskt till arbetsytan. Du hittar anteckningsböckerna genom att klicka på varje MLflow-körning. IPython-anteckningsboken sparas i avsnittet Artefakter på körningssidan. Du kan ladda ned den här notebook-filen och importera den till arbetsytan om du har aktiverat nedladdning av artefakter av arbetsyteadministratörerna.
Shapley-värden (SHAP) för modellförklarbarhet
Kommentar
För MLR 11.1 och lägre genereras inte SHAP-diagram om datauppsättningen innehåller en datetime
kolumn.
Anteckningsböckerna som skapas av AutoML-regressions- och klassificeringskörningar innehåller kod för att beräkna Shapley-värden. Shapley-värden baseras på spelteori och beräknar vikten av varje funktion för en modells förutsägelser.
AutoML notebooks beräknar Shapley-värden med hjälp av SHAP-paketet. Eftersom dessa beräkningar är mycket minnesintensiva utförs inte beräkningarna som standard.
Så här beräknar och visar du Shapley-värden:
- Gå till avsnittet Funktionsprimitet i en AutoML-genererad utvärderingsanteckningsbok.
- Ange
shap_enabled = True
. - Kör notebook-filen igen.