Sdílet prostřednictvím


Co je AutoML?

AutoML zjednodušuje proces použití strojového učení u datových sad tím, že automaticky vyhledá nejlepší algoritmus a konfiguraci hyperparametrů za vás.

Jak AutoML funguje?

Zadejte datovou sadu a zadejte typ problému strojového učení a pak AutoML provede následující kroky:

  1. Vyčistí a připraví vaše data.
  2. Orchestruje trénování distribuovaného modelu a ladění hyperparametrů napříč několika algoritmy.
  3. Najde nejlepší model pomocí algoritmů pro vyhodnocení open source z knihovny scikit-learn, xgboost, LightGBM, Prorok a ARIMA.
  4. Zobrazí výsledky. AutoML také generuje poznámkové bloky zdrojového kódu pro každou zkušební verzi, takže můžete kód podle potřeby zkontrolovat, reprodukovat a upravit.

Začínáme s experimenty AutoML prostřednictvím uživatelského rozhraní s nízkým kódem pro regresi; klasifikace, prognózování nebo rozhraní PYTHON API.

Požadavky

  • Azure Databricks doporučuje databricks Runtime 10.4 LTS ML nebo novější pro obecnou dostupnost AutoML.

  • AutoML závisí na databricks-automl-runtime balíčku, který obsahuje komponenty, které jsou užitečné mimo AutoML, a také pomáhá zjednodušit poznámkové bloky generované trénováním AutoML. databricks-automl-runtime je k dispozici na PyPI.

  • V clusteru by se neměly instalovat žádné další knihovny, které jsou předinstalované v prostředí Databricks Runtime pro Machine Learning.

    • Jakékoli změny (odebrání, upgrady nebo downgrady) na stávající verze knihoven způsobí selhání spuštění kvůli nekompatibilitě.
  • Pokud chcete získat přístup k souborům v pracovním prostoru, musíte mít otevřené síťové porty 1017 a 1021 pro experimenty AutoML. Pokud chcete tyto porty otevřít nebo potvrdit, že jsou otevřené, zkontrolujte konfiguraci brány firewall cloudové sítě VPN a pravidla skupin zabezpečení nebo se obraťte na místního správce cloudu. Další informace o konfiguraci a nasazení pracovního prostoru najdete v tématu Vytvoření pracovního prostoru.

  • Použijte výpočetní prostředek s podporovaným režimem výpočetního přístupu. Ne všechny režimy výpočetního přístupu mají přístup k katalogu Unity:

    Režim výpočetního přístupu Podpora AutoML Podpora katalogu Unity
    jeden uživatel Podporováno (musí být určeným jedním uživatelem clusteru) Podporováno
    Režim sdíleného přístupu Nepodporované Nepodporované
    Žádná sdílená izolace Podporováno Nepodporované

Algoritmy AutoML

AutoML trénuje a vyhodnocuje modely na základě algoritmů v následující tabulce.

Poznámka:

Pro klasifikační a regresní modely jsou rozhodovací strom, náhodné doménové struktury, logistická regrese a lineární regrese s algoritmy stochastického gradientního sestupu založeny na scikit-learn.

Modely klasifikace Regresní modely Modely prognózování Modely prognózování (bezserverové)
Rozhodovací stromy Rozhodovací stromy Prorok Prorok
Náhodné doménové struktury Náhodné doménové struktury Auto-ARIMA (k dispozici v Databricks Runtime 10.3 ML a novější.) automatické ARIMA
Logistická regrese Lineární regrese se stochastickým gradientním sestupem DeepAR
XGBoost XGBoost
LightGBM LightGBM

Generování zkušebního poznámkového bloku

Classic Compute AutoML generuje poznámkové bloky zdrojového kódu za zkušebními verzemi, abyste mohli kód podle potřeby zkontrolovat, reprodukovat a upravit.

V případě předpovědí experimentů se automaticky naimportují poznámkové bloky vygenerované službou AutoML do vašeho pracovního prostoru pro všechny zkušební verze experimentu.

U klasifikačních a regresních experimentů se automaticky naimportují do pracovního prostoru poznámkové bloky generované autoML pro zkoumání dat a nejlepší zkušební verze experimentu. Vygenerované poznámkové bloky pro jiné zkušební verze experimentu se ukládají jako artefakty MLflow ve službě DBFS místo automatického importu do vašeho pracovního prostoru. U všech zkušebních verzí kromě nejlepší zkušební verze notebook_path není nastavené rozhraní notebook_url API Pythonu TrialInfo . Pokud tyto poznámkové bloky potřebujete použít, můžete je ručně importovat do pracovního prostoru pomocí uživatelského rozhraní experimentu databricks.automl.import_notebookAutoML nebo rozhraní Python API.

Pokud používáte jenom poznámkový blok pro zkoumání dat nebo nejlepší zkušební poznámkový blok vygenerovaný autoML, sloupec Zdroj v uživatelském rozhraní experimentu AutoML obsahuje odkaz na vygenerovaný poznámkový blok pro nejlepší zkušební verzi.

Pokud používáte jiné vygenerované poznámkové bloky v uživatelském rozhraní experimentu AutoML, tyto poznámkové bloky se do pracovního prostoru automaticky neimportují. Poznámkové bloky najdete kliknutím na každé spuštění MLflow. Poznámkový blok IPython se uloží v části Artefakty na stránce spuštění. Tento poznámkový blok si můžete stáhnout a importovat do pracovního prostoru, pokud správce pracovního prostoru povolí stahování artefaktů.

Hodnoty shapley (SHAP) pro vysvětlení modelu

Poznámka:

V případě MLR 11.1 a novějších se grafy SHAP negenerují, pokud datová sada obsahuje datetime sloupec.

Poznámkové bloky vytvořené regresí a klasifikací AutoML zahrnují kód pro výpočet hodnot Shapley. Hodnoty Shapley jsou založeny na teorii hry a odhadují důležitost každé funkce pro předpovědi modelu.

Poznámkové bloky AutoML počítají hodnoty Shapley pomocí balíčku SHAP. Vzhledem k tomu, že tyto výpočty jsou vysoce náročné na paměť, výpočty se ve výchozím nastavení neprovádí.

Výpočet a zobrazení hodnot Shapley:

  1. V poznámkovém bloku zkušební verze vygenerované službou AutoML přejděte do části Důležitost funkce.
  2. Nastavit shap_enabled = True.
  3. Znovu spusťte poznámkový blok.

Další kroky