Wat is AutoML?
AutoML vereenvoudigt het proces van het toepassen van machine learning op uw gegevenssets door automatisch het beste algoritme en de hyperparameterconfiguratie voor u te vinden.
Hoe werkt AutoML?
Geef uw gegevensset op en geef het type machine learning-probleem op. AutoML doet het volgende:
- Schoont uw gegevens op en bereidt deze voor.
- Organiseert gedistribueerde modeltraining en afstemming van hyperparameters voor meerdere algoritmen.
- Hiermee vindt u het beste model met behulp van opensource-evaluatiealgoritmen van scikit-learn, xgboost, LightGBM, Prophet en ARIMA.
- Geeft de resultaten weer. AutoML genereert ook broncodenotitieblokken voor elke proefversie, zodat u de code indien nodig kunt bekijken, reproduceren en wijzigen.
Aan de slag met AutoML-experimenten via een gebruikersinterface met weinig code voor regressie; classificatie; of prognoses, of de Python-API.
Eisen
Azure Databricks raadt Databricks Runtime 10.4 LTS ML of hoger aan voor algemene beschikbaarheid van AutoML.
AutoML is afhankelijk van het
databricks-automl-runtime
pakket, dat onderdelen bevat die nuttig zijn buiten AutoML en helpt ook de notebooks te vereenvoudigen die worden gegenereerd door AutoML-training.databricks-automl-runtime
is beschikbaar op PyPI.Er moeten geen extra bibliotheken worden geïnstalleerd die vooraf zijn geïnstalleerd in Databricks Runtime voor Machine Learning.
- Wijzigingen (verwijdering, upgrades of downgrades) naar bestaande bibliotheekversies leiden tot uitvoeringsfouten vanwege incompatibiliteit.
Als u toegang wilt krijgen tot bestanden in uw werkruimte, moet u netwerkpoorten 1017 en 1021 hebben geopend voor AutoML-experimenten. Als u deze poorten wilt openen of wilt bevestigen dat ze zijn geopend, controleert u de configuratie- en beveiligingsgroepsregels van uw cloud-VPN of neemt u contact op met uw lokale cloudbeheerder. Zie Een werkruimte maken voor meer informatie over de configuratie en implementatie van de werkruimte.
Gebruik een rekenresource met een ondersteunde compute-toegangsmodus. Niet alle compute-toegangsmodi hebben toegang tot de Unity Catalog:
Toegangsmodus berekenen AutoML-ondersteuning Ondersteuning voor Unity Catalog één gebruiker Ondersteund (moet de aangewezen individuele gebruiker voor het cluster zijn) Ondersteund Modus voor gedeelde toegang Niet ondersteund Niet ondersteund Geen isolatie gedeeld Ondersteund Niet ondersteund
AutoML-algoritmen
AutoML traint en evalueert modellen op basis van de algoritmen in de volgende tabel.
Notitie
Voor classificatie- en regressiemodellen zijn de beslissingsstructuur, willekeurige forests, logistieke regressie en lineaire regressie met stochastische gradiëntafnamealgoritmen gebaseerd op scikit-learn.
Classificatiemodellen | Regressiemodellen | Prognosemodellen |
---|---|---|
Beslissingsstructuren | Beslissingsstructuren | Profeet |
Willekeurige forests | Willekeurige forests | Auto-ARIMA (beschikbaar in Databricks Runtime 10.3 ML en hoger.) |
Logistieke regressie | Lineaire regressie met stochastische gradiëntafname | |
XGBoost | XGBoost | |
LightGBM | LightGBM |
Generatie van proefnotitieblok
Klassieke compute AutoML genereert notebooks van de broncode achter proefversies, zodat u de code indien nodig kunt bekijken, reproduceren en wijzigen.
Voor prognoseexperimenten worden door AutoML gegenereerde notebooks automatisch geïmporteerd in uw werkruimte voor alle proefversies van uw experiment.
Voor classificatie- en regressieexperimenten worden door AutoML gegenereerde notebooks voor gegevensverkenning en de beste proefversie in uw experiment automatisch geïmporteerd in uw werkruimte. Gegenereerde notebooks voor andere experimenten worden opgeslagen als MLflow-artefacten in DBFS in plaats van automatisch geïmporteerd in uw werkruimte. Voor alle proefversies naast de beste proefversie zijn de notebook_path
en notebook_url
in de TrialInfo
Python-API niet ingesteld. Als u deze notebooks wilt gebruiken, kunt u deze handmatig importeren in uw werkruimte met de gebruikersinterface van het AutoML-experiment of de databricks.automl.import_notebook
Python-API.
Als u alleen het notebook voor gegevensverkenning of het beste proefnotitieblok gebruikt dat is gegenereerd door AutoML, bevat de kolom Bron in de gebruikersinterface van het AutoML-experiment de koppeling naar het gegenereerde notebook voor de beste proefversie.
Als u andere gegenereerde notebooks gebruikt in de gebruikersinterface van het AutoML-experiment, worden deze niet automatisch geïmporteerd in de werkruimte. U vindt de notebooks door te klikken op elke MLflow-uitvoering. Het IPython-notebook wordt opgeslagen in de sectie Artefacten van de uitvoeringspagina. U kunt dit notitieblok downloaden en importeren in de werkruimte als het downloaden van artefacten is ingeschakeld door uw werkruimtebeheerders.
Shapley-waarden (SHAP) voor modeltoelichtendheid
Notitie
Voor MLR 11.1 en lager worden SHAP-plots niet gegenereerd als de gegevensset een datetime
kolom bevat.
De notebooks die door AutoML-regressie en classificatie worden geproduceerd, bevatten code voor het berekenen van Shapley-waarden. Shapley-waarden zijn gebaseerd op speltheorie en schatten het belang van elke functie in de voorspellingen van een model.
AutoML-notebooks berekenen Shapley-waarden met behulp van het SHAP-pakket. Omdat deze berekeningen zeer geheugenintensief zijn, worden de berekeningen niet standaard uitgevoerd.
Shapley-waarden berekenen en weergeven:
- Ga naar de sectie Functiebelang in een door AutoML gegenereerd proefnotitieblok.
- Instellen
shap_enabled = True
. - Voer het notebook opnieuw uit.