Regrese pomocí AutoML
Pomocí AutoML můžete automaticky najít nejlepší regresní algoritmus a konfiguraci hyperparametrů pro predikci průběžných číselných hodnot.
Nastavení regresního experimentu s uživatelským rozhraním
Pomocí uživatelského rozhraní AutoML můžete nastavit problém s regresí pomocí následujícího postupu:
Na bočním panelu vyberte Experimenty.
Na kartě Regrese vyberte Zahájit trénování.
Zobrazí se stránka konfigurace experimentu AutoML. Na této stránce nakonfigurujete proces AutoML, zadáte datovou sadu, typ problému, cílový sloupec nebo sloupec popisku, který chcete předpovědět, metriku pro vyhodnocení a hodnocení spuštění experimentu a zastavení podmínek.
V poli Výpočty vyberte cluster se spuštěným modulem Databricks Runtime ML.
V části Datová sada vyberte Procházet.
Přejděte do tabulky, kterou chcete použít, a klikněte na Vybrat. Zobrazí se schéma tabulky.
- Ve službě Databricks Runtime 10.3 ML a vyšší můžete určit, které sloupce AutoML se mají použít pro trénování. Sloupec vybraný jako cíl předpovědi nebo časový sloupec nelze odebrat, aby se data rozdělila.
- V Databricks Runtime 10.4 LTS ML a vyšší můžete určit, jak jsou hodnoty null imputovány výběrem z rozevíracího seznamu Impute s rozevíracím seznamem . AutoML ve výchozím nastavení vybere metodu imputace na základě typu sloupce a obsahu.
Poznámka:
Pokud zadáte metodu bez výchozí imputace, AutoML neprovádí detekci sémantických typů.
Klikněte do pole Cíl předpovědi. Zobrazí se rozevírací seznam se seznamem sloupců zobrazených ve schématu. Vyberte sloupec, který má model předpovědět.
Pole Název experimentu zobrazuje výchozí název. Pokud ho chcete změnit, zadejte nový název do pole.
Můžete také:
- Zadejte další možnosti konfigurace.
- K rozšíření původní vstupní datové sady použijte existující tabulky funkcí v úložišti funkcí.
Pokročilé konfigurace
Otevřete oddíl Advanced Configuration (volitelné) pro přístup k těmto parametrům.
- Metrika vyhodnocení je primární metrika použitá k určení skóre spuštění.
- Ve službě Databricks Runtime 10.4 LTS ML a novějších můžete vyloučit z úvahy trénovací architektury. AutoML ve výchozím nastavení trénuje modely pomocí architektur uvedených v algoritmech AutoML.
- Podmínky zastavení můžete upravit. Výchozí podmínky zastavení jsou:
- U předpovědí experimentů zastavte po 120 minutách.
- V Databricks Runtime 10.4 LTS ML a níže pro klasifikační a regresní experimenty zastavte po 60 minutách nebo po dokončení 200 pokusů, podle toho, co nastane dříve. Pro Databricks Runtime 11.0 ML a vyšší se počet pokusů nepoužívá jako stav zastavení.
- V Databricks Runtime 10.4 LTS ML a novějších, pro klasifikační a regresní experimenty autoML zahrnuje předčasné zastavení; zastaví trénování a ladění modelů, pokud se metrika ověřování už nelepší.
- Ve službě Databricks Runtime 10.4 LTS ML a vyšší můžete vybrat
time column
rozdělení dat pro trénování, ověřování a testování v chronologickém pořadí (platí pouze pro klasifikaci a regresi). - Databricks doporučuje nenaplnění pole Adresář dat. Tím se aktivuje výchozí chování zabezpečeného ukládání datové sady jako artefaktu MLflow. Je možné zadat cestu DBFS, ale v tomto případě datová sada nedědí přístupová oprávnění experimentu AutoML.
Spuštění experimentu a monitorování výsledků
Chcete-li spustit experiment AutoML, klepněte na tlačítko Spustit AutoML. Experiment se spustí a zobrazí se stránka pro trénování AutoML. Pokud chcete aktualizovat tabulku spuštění, klikněte na tlačítko .
Zobrazení průběhu experimentu
Z této stránky můžete:
- Experiment můžete kdykoli zastavit.
- Otevřete poznámkový blok pro zkoumání dat.
- Monitorování spuštění.
- Přejděte na stránku spuštění pro jakékoli spuštění.
S modulem Databricks Runtime 10.1 ML a novějším zobrazí AutoML upozornění na potenciální problémy s datovou sadou, jako jsou nepodporované typy sloupců nebo sloupce s vysokou kardinalitou.
Poznámka:
Databricks nejlépe indikuje potenciální chyby nebo problémy. To ale nemusí být komplexní a nemusí zaznamenávat problémy nebo chyby, které hledáte.
Pokud chcete zobrazit všechna upozornění pro datovou sadu, klikněte na kartu Upozornění na stránce školení nebo na stránce experimentu po dokončení experimentu.
Zobrazení výsledků
Po dokončení experimentu můžete:
- Zaregistrujte a nasaďte jeden z modelů pomocí MLflow.
- Pokud chcete zkontrolovat a upravit poznámkový blok, který vytvořil nejlepší model, vyberte Zobrazit poznámkový blok.
- Výběrem možnosti Zobrazit poznámkový blok pro zkoumání dat otevřete poznámkový blok pro zkoumání dat.
- Hledání, filtrování a řazení spuštění v tabulce spuštění
- Podrobnosti o každém spuštění:
- Vygenerovaný poznámkový blok obsahující zdrojový kód pro zkušební spuštění najdete kliknutím na spuštění MLflow. Poznámkový blok se uloží v části Artefakty na stránce spuštění. Tento poznámkový blok si můžete stáhnout a importovat do pracovního prostoru, pokud správce pracovního prostoru povolí stahování artefaktů.
- Pokud chcete zobrazit výsledky spuštění, klikněte ve sloupci Modely nebo na sloupec Počáteční čas . Zobrazí se stránka spuštění s informacemi o zkušebním spuštění (například parametry, metriky a značky) a artefaktech vytvořených spuštěním, včetně modelu. Tato stránka obsahuje také fragmenty kódu, které můžete použít k předpovědím s modelem.
Pokud se chcete k tomuto experimentu AutoML vrátit později, najděte ho v tabulce na stránce Experimenty. Výsledky každého experimentu AutoML, včetně zkoumání dat a trénovacích poznámkových bloků, jsou uložené ve databricks_automl
složce v domovské složce uživatele, který experiment spustil.
Registrace a nasazení modelu
Model můžete zaregistrovat a nasadit pomocí uživatelského rozhraní AutoML:
- Vyberte odkaz ve sloupci Modely , který se má model zaregistrovat. Po dokončení spuštění je nejlepším modelem horního řádku (na základě primární metriky).
- Výběrem zaregistrujete model v registru modelů.
- Výběrem možnosti Modely na bočním panelu přejděte do registru modelů.
- V tabulce modelu vyberte název modelu.
- Na stránce zaregistrovaného modelu můžete model obsluhovat pomocí obsluhy modelů.
Žádný modul s názvem pandas.core.indexes.numeric
Při poskytování modelu vytvořeného pomocí AutoML s obsluhou modelů se může zobrazit chyba: No module named 'pandas.core.indexes.numeric
.
Důvodem je nekompatibilní pandas
verze mezi AutoML a modelem obsluhující prostředí koncového bodu. Tuto chybu můžete vyřešit spuštěním skriptu add-pandas-dependency.py. Skript upraví requirements.txt
protokolovaný model tak conda.yaml
, aby zahrnoval příslušnou pandas
verzi závislostí: pandas==1.5.3
- Upravte skript tak, aby zahrnoval
run_id
běh MLflow, ve kterém byl váš model protokolován. - Opětovná registrace modelu do registru modelů MLflow
- Zkuste obsluhovat novou verzi modelu MLflow.