Sdílet prostřednictvím


Co je AutoML?

AutoML zjednodušuje proces použití strojového učení u datových sad tím, že automaticky vyhledá nejlepší algoritmus a konfiguraci hyperparametrů za vás.

Jak AutoML funguje?

Zadejte datovou sadu a zadejte typ problému strojového učení a pak AutoML provede následující kroky:

  1. Vyčistí a připraví vaše data.
  2. Orchestruje trénování distribuovaného modelu a ladění hyperparametrů napříč několika algoritmy.
  3. Najde nejlepší model pomocí algoritmů pro vyhodnocení open source z knihovny scikit-learn, xgboost, LightGBM, Prorok a ARIMA.
  4. Zobrazí výsledky. AutoML také generuje poznámkové bloky zdrojového kódu pro každou zkušební verzi, takže můžete kód podle potřeby zkontrolovat, reprodukovat a upravit.

Get začali s experimenty AutoML prostřednictvím low-code uživatelského rozhraní pro regresi; klasifikaci ; nebo prognózování, nebo rozhraní API Pythonu.

Požadavky

  • Azure Databricks doporučuje databricks Runtime 10.4 LTS ML nebo novější pro obecnou dostupnost AutoML.

  • AutoML závisí na databricks-automl-runtime balíčku, který obsahuje komponenty, které jsou užitečné mimo AutoML, a také pomáhá zjednodušit poznámkové bloky generované trénováním AutoML. databricks-automl-runtime je k dispozici na PyPI.

  • V clusteru by se neměly instalovat žádné další knihovny, které jsou předinstalované v prostředí Databricks Runtime pro Machine Learning.

    • Jakékoli změny (odebrání, upgrady nebo downgrady) na stávající verze knihoven způsobí selhání spuštění kvůli nekompatibilitě.
  • Pokud chcete získat přístup k souborům v pracovním prostoru, musíte mít otevřené síťové porty 1017 a 1021 pro experimenty AutoML. Pokud chcete tyto porty otevřít nebo potvrdit, že jsou otevřené, zkontrolujte konfiguraci brány firewall cloudové sítě VPN a pravidla skupin zabezpečení nebo se obraťte na místního správce cloudu. Další informace o konfiguraci a nasazení pracovního prostoru najdete v tématu Vytvoření pracovního prostoru.

  • Použijte výpočetní prostředek s podporovaným režimem výpočetního přístupu. Ne všechny režimy výpočetního přístupu mají přístup k Unity Catalog:

    Režim výpočetního přístupu Podpora AutoML Podpora Unity Catalog
    režim vyhrazeného přístupu Podporováno Podporováno
    jednoho uživatele Podporováno (musí být určeným jedním uživatelem clusteru) Podporováno
    Režim sdíleného přístupu Nepodporované Nepodporované
    Žádná sdílená izolace Podporováno Nepodporované

Algoritmy AutoML

AutoML trénuje a vyhodnocuje modely na základě algoritmů v následujících table.

Poznámka:

Pro klasifikační a regresní modely jsou rozhodovací strom, náhodné doménové struktury, logistická regrese a lineární regrese s algoritmy stochastického gradientního sestupu založeny na scikit-learn.

Modely klasifikace Regresní modely Modely prognózování Modely prognózování (bezserverové)
Rozhodovací stromy Rozhodovací stromy Prorok Prorok
Náhodné doménové struktury Náhodné doménové struktury Auto-ARIMA (k dispozici v Databricks Runtime 10.3 ML a novější.) automatické ARIMA
Logistická regrese Lineární regrese se stochastickým gradientním sestupem DeepAR
XGBoost XGBoost
LightGBM LightGBM

Generování zkušebního poznámkového bloku

Classic Compute AutoML generuje poznámkové bloky zdrojového kódu za zkušebními verzemi, abyste mohli kód podle potřeby zkontrolovat, reprodukovat a upravit.

V případě předpovědí experimentů se automaticky naimportují poznámkové bloky vygenerované službou AutoML do vašeho pracovního prostoru pro všechny zkušební verze experimentu.

U klasifikačních a regresních experimentů se automaticky naimportují do pracovního prostoru poznámkové bloky generované autoML pro zkoumání dat a nejlepší zkušební verze experimentu. Vygenerované poznámkové bloky pro jiné zkušební verze experimentu se ukládají jako artefakty MLflow ve službě DBFS místo automatického importu do vašeho pracovního prostoru. U všech zkušebních verzí kromě nejlepší zkušební verze nejsou setnotebook_path a notebook_url v rozhraní API pythonu TrialInfo . Pokud tyto poznámkové bloky potřebujete použít, můžete je ručně importovat do pracovního prostoru pomocí uživatelského rozhraní experimentu databricks.automl.import_notebookAutoML nebo rozhraní Python API.

Pokud používáte jenom poznámkový blok pro zkoumání dat nebo nejlepší zkušební poznámkový blok vygenerovaný službou AutoML, Zdrojcolumn v uživatelském rozhraní experimentu AutoML obsahuje odkaz na vygenerovaný poznámkový blok pro nejlepší zkušební verzi.

Pokud používáte jiné vygenerované poznámkové bloky v uživatelském rozhraní experimentu AutoML, tyto poznámkové bloky se do pracovního prostoru automaticky neimportují. Poznámkové bloky najdete kliknutím na každé spuštění MLflow. Poznámkový blok IPython se uloží v části Artefakty na stránce spuštění. Tento poznámkový blok si můžete stáhnout a importovat do pracovního prostoru, pokud správce pracovního prostoru povolí stahování artefaktů.

Shapley values (SHAP) pro vysvětlení modelu

Poznámka:

U MLR 11.1 a novějších se grafy SHAP negenerují, pokud datová sada obsahuje datetimecolumn.

Poznámkové bloky vytvořené regresí a klasifikací AutoML zahrnují kód pro výpočet Shapley values. Shapley values jsou založeny na teorii her a odhadují důležitost každé funkce pro předpovědi modelu.

Poznámkové bloky AutoML počítají Shapley values pomocí SHAP balíčku . Vzhledem k tomu, že tyto výpočty jsou vysoce náročné na paměť, výpočty se ve výchozím nastavení neprovádí.

Pro výpočet a zobrazení Shapley values:

  1. V poznámkovém bloku zkušební verze vygenerované službou AutoML přejděte do části Důležitost funkce.
  2. Set shap_enabled = True.
  3. Znovu spusťte poznámkový blok.

Další kroky