Sdílet prostřednictvím


Prognózování pomocí AutoML (klasické výpočetní prostředí)

Pomocí AutoML můžete automaticky najít nejlepší algoritmus prognózování a konfiguraci hyperparametrů k predikci values na základě dat časových řad.

Prognózování časových řad je k dispozici pouze pro Databricks Runtime 10.0 ML nebo novější.

Set zlepšení experimentu prognózy s uživatelským rozhraním

Pomocí uživatelského rozhraní AutoML můžete set problém s prognózováním pomocí následujícího postupu:

  1. Na bočním panelu selectExperimenty.
  2. Na kartě PrognózováníselectZahajte trénink.

Uživatelské rozhraní je ve výchozím nastavení prognózování bez použití serveru. Pokud chcete získat přístup k prognózování pomocí vlastních výpočetních prostředků select, vrátit se k původnímu prostředí.

konfigurace experimentu AutoML

  1. Zobrazí se stránka konfigurace experimentu AutoML. Na této stránce nakonfigurujete proces AutoML, zadáte datovou sadu, typ problému, cíl nebo popisek column pro predikci, metriku, která se má použít k vyhodnocení a ohodnocení běhů experimentu, a podmínky pro zastavení.

  2. V poli Computeselect cluster se spuštěným Modulem Databricks Runtime 10.0 ML nebo novějším.

  3. V části Datová sada klikněte na Procházet. Přejděte na table, který chcete použít, a klikněte na Select. Zobrazí se tableschema.

  4. Klikněte do pole Cíl předpovědi. Zobrazí se rozevírací nabídka se seznamem columns zobrazených v schema. Select tu column, kterou má model předpovědět.

  5. Klikněte do pole Čas column. Zobrazí se rozevírací seznam, který ukazuje datovou sadu columns, která je typu timestamp nebo date. Select column obsahující časová období časové řady.

  6. U prognózování s více řadami vyberte selectcolumn(y), které identifikují jednotlivé časové řady, z rozevíracího seznamu identifikátorů časových řad . AutoML seskupí data podle těchto columns jako různé časové řady a trénuje model pro každou řadu nezávisle. Pokud toto pole necháte prázdné, AutoML předpokládá, že datová sada obsahuje jednu časovou řadu.

  7. V polích Horizont prognózy a frekvence zadejte počet časových období do budoucnosti, pro které má AutoML vypočítat prognózované values. Do levého pole zadejte celočíselné číslo období, která se mají prognózovat. V pravém poli zadejte select jednotky.

    Poznámka:

    Aby bylo možné použít funkci Auto-ARIMA, musí mít časová řada pravidelnou frekvenci where interval mezi všemi dvěma body musí být v průběhu časových řad stejný. Frekvence se musí shodovat s jednotkou frekvence zadanou ve volání rozhraní API nebo v uživatelském rozhraní AutoML. AutoML zpracovává chybějící časové kroky vyplněním values s předchozí hodnotou.

  8. Ve službě Databricks Runtime 11.3 LTS ML a novějších můžete uložit výsledky předpovědi. Uděláte to tak, že do pole Výstupní databáze zadáte databázi. Klikněte na Procházet a select databázi z dialogového okna. AutoML zapíše výsledky předpovědi do table v této databázi.

  9. Pole Název experimentu zobrazuje výchozí název. Pokud ho chcete změnit, zadejte nový název do pole.

Můžete také:

Pokročilé konfigurace

Otevřete sekci Rozšířená konfigurace (volitelné) pro zobrazení těchto parameters.

  • Metrika vyhodnocení je primární metrika použitá k určení skóre spuštění.
  • Ve službě Databricks Runtime 10.4 LTS ML a novějších můžete vyloučit z úvahy trénovací architektury. AutoML ve výchozím nastavení trénuje modely pomocí architektur uvedených v algoritmech AutoML.
  • Podmínky zastavení můžete upravit. Výchozí podmínky zastavení jsou:
    • U předpovědí experimentů zastavte po 120 minutách.
    • V Databricks Runtime 10.4 LTS ML a níže pro klasifikační a regresní experimenty zastavte po 60 minutách nebo po dokončení 200 pokusů, podle toho, co nastane dříve. Pro Databricks Runtime 11.0 ML a vyšší se počet pokusů nepoužívá jako stav zastavení.
    • V Databricks Runtime 10.4 LTS ML a novějších, pro klasifikační a regresní experimenty autoML zahrnuje předčasné zastavení; zastaví trénování a ladění modelů, pokud se metrika ověřování už nelepší.
  • V Databricks Runtime 10.4 LTS ML a novějších můžete selecttime column rozdělit data pro trénování, ověřování a testování v chronologickém pořadí (platí pouze pro klasifikace a regrese).
  • Databricks doporučuje nenaplnění pole Adresář dat. Tím se aktivuje výchozí chování zabezpečeného ukládání datové sady jako artefaktu MLflow. Je možné zadat cestu DBFS, ale v tomto případě datová sada nedědí přístupová oprávnění experimentu AutoML.

Spuštění experimentu a monitorování výsledků

Chcete-li spustit experiment AutoML, klepněte na tlačítko Spustit AutoML. Experiment se spustí a zobrazí se stránka pro trénování AutoML. Klikněte na tlačítko Refresh, chcete-li provést spuštění refreshtable.

Zobrazení průběhu experimentu

Z této stránky můžete:

  • Experiment můžete kdykoli zastavit.
  • Otevřete poznámkový blok pro zkoumání dat.
  • Monitorování spuštění.
  • Přejděte na stránku spuštění pro jakékoli spuštění.

S modulem Databricks Runtime 10.1 ML a novějším zobrazí AutoML upozornění na potenciální problémy s datovou sadou, jako jsou nepodporované typy column nebo columnss vysokou kardinalitou .

Poznámka:

Databricks nejlépe indikuje potenciální chyby nebo problémy. To ale nemusí být komplexní a nemusí zaznamenávat problémy nebo chyby, které hledáte.

Pokud chcete zobrazit všechna upozornění pro datovou sadu, klikněte na kartu Upozornění na stránce školení nebo na stránce experimentu po dokončení experimentu.

Upozornění AutoML

Zobrazení výsledků

Po dokončení experimentu můžete:

  • Zaregistrujte a nasaďte jeden z modelů pomocí MLflow.
  • Select Zobrazit poznámkový blok pro nejlepší model pro kontrolu a úpravu poznámkového bloku, který vytvořil nejlepší model.
  • Select zobrazení poznámkového bloku pro zkoumání dat otevřete poznámkový blok pro zkoumání dat.
  • Hledání, filtrování a řazení běhů v bězích table.
  • Podrobnosti o každém spuštění:
    • Vygenerovaný poznámkový blok obsahující zdrojový kód pro zkušební spuštění najdete kliknutím na spuštění MLflow. Poznámkový blok se uloží v části Artefakty na stránce spuštění. Tento poznámkový blok si můžete stáhnout a importovat do pracovního prostoru, pokud správce pracovního prostoru povolí stahování artefaktů.
    • Chcete-li zobrazit výsledky spuštění, klikněte na Modelycolumn nebo na Čas zahájenícolumn. Objeví se stránka spuštění s informacemi o testovacím spuštění (například parameters, metrikách a značkách) a artefaktech, které byly vytvořeny během spuštění, včetně modelu. Tato stránka obsahuje také fragmenty kódu, které můžete použít k předpovědím s modelem.

Pokud se chcete vrátit k tomuto experimentu AutoML později, najděte ho v table na stránce Experimenty. Výsledky každého experimentu AutoML, včetně zkoumání dat a trénovacích poznámkových bloků, jsou uložené ve databricks_automl složce v domovské složce uživatele, který experiment spustil.

Registrace a nasazení modelu

Model můžete zaregistrovat a nasadit pomocí uživatelského rozhraní AutoML:

  1. Select odkaz v Modelycolumn pro registraci modelu. Po dokončení spuštění je nejlepším modelem horního řádku (na základě primární metriky).
  2. Select pro registraci modelu v registru modelů.
  3. Select Ikony Modely Modely v postranním panelu k navigaci do registru modelů.
  4. Select název vašeho modelu v modelu table.
  5. Na stránce zaregistrovaného modelu můžete model obsluhovat pomocí obsluhy modelů.

Žádný modul s názvem pandas.core.indexes.numeric

Při poskytování modelu vytvořeného pomocí AutoML a pomocí obsluhy modelů můžete narazit na chybu get: No module named 'pandas.core.indexes.numeric.

Důvodem je nekompatibilní pandas verze mezi AutoML a modelem obsluhující prostředí koncového bodu. Tuto chybu můžete vyřešit spuštěním skriptu add-pandas-dependency.py. Skript upraví requirements.txt protokolovaný model tak conda.yaml , aby zahrnoval příslušnou pandas verzi závislostí: pandas==1.5.3

  1. Upravte skript tak, aby zahrnoval run_id spuštění MLflow where byl váš model zaznamenán.
  2. Opětovná registrace modelu do registru modelů MLflow
  3. Zkuste obsluhovat novou verzi modelu MLflow.

Další kroky