Rozhraní příkazového řádku (v2) Schéma YAML úlohy automatizovaného prognózování ML
PLATÍ PRO: Rozšíření Azure CLI ml v2 (aktuální)
Zdrojové schéma JSON najdete na adrese https://azuremlschemas.azureedge.net/latest/autoMLForecastingJob.schema.json
Poznámka:
Syntaxe YAML podrobná v tomto dokumentu je založená na schématu JSON pro nejnovější verzi rozšíření ML CLI v2. Tato syntaxe je zaručena pouze pro práci s nejnovější verzí rozšíření ML CLI v2. Schémata pro starší verze rozšíření najdete na adrese https://azuremlschemasprod.azureedge.net/.
Syntaxe YAML
Klíč | Typ | Popis | Povolené hodnoty | Default value |
---|---|---|---|---|
$schema |
string | Umístění/adresa URL pro načtení schématu YAML. Pokud uživatel používá rozšíření Azure Machine Learning VS Code k vytvoření souboru YAML, včetně $schema v horní části souboru, umožní uživateli vyvolat schéma a dokončování prostředků. |
||
compute |
string | Povinný: Název výpočetní infrastruktury AML, na které se má úloha spouštět. Výpočetní prostředky můžou být odkazem na existující výpočetní počítač v pracovním prostoru. Poznámka: Úlohy v kanálu nepodporují "local" jako compute . Místní znamená, že výpočetní instance vytvořená v uživatelském studio Azure Machine Learning pracovním prostoru. |
1. vzor [^azureml:<compute_name>] pro použití stávajících výpočetních prostředků,2. 'local' použití místního provádění |
'local' |
limits |
objekt | Představuje objekt slovníku skládající se z konfigurací omezení tabulkové úlohy automatizovaného strojového učení. Klíč je název limitu v kontextu úlohy a hodnota je limitní hodnota. Podívejte se na omezení pro zjištění vlastností tohoto objektu. |
||
name |
string | Název odeslané úlohy automatizovaného strojového učení. Musí být jedinečný pro všechny úlohy v pracovním prostoru. Pokud není zadaný, Azure Machine Learning automaticky vygeneruje identifikátor GUID pro název. |
||
description |
string | Popis úlohy automatizovaného strojového učení. | ||
display_name |
string | Název úlohy, kterou chce uživatel zobrazit v uživatelském rozhraní studia. V rámci pracovního prostoru může být ne jedinečné. Pokud je vynechán, Azure Machine Learning automaticky vygeneruje identifikátor jmenného jména čitelného člověka pro zobrazovaný název. | ||
experiment_name |
string | Název experimentu. Experimenty jsou záznamy trénovacích úloh ML v Azure. Experimenty obsahují výsledky spuštění spolu s protokoly, grafy a grafy. Záznam spuštění každé úlohy je uspořádaný pod odpovídajícím experimentem na kartě Experimenty v sadě Studio. |
Název pracovního adresáře, ve kterém byl vytvořen | |
environment_variables |
objekt | Objekt slovníku proměnných prostředí, který se nastaví v procesu, ve kterém se příkaz spouští. | ||
outputs |
objekt | Představuje slovník výstupních konfigurací úlohy. Klíč je název výstupu v kontextu úlohy a hodnota je výstupní konfigurace. Zobrazení výstupu úlohy pro zjištění vlastností tohoto objektu | ||
log_files |
objekt | Objekt slovníku obsahující protokoly spuštění úlohy automatizovaného strojového učení | ||
log_verbosity |
string | Úroveň podrobností protokolu pro zápis do souboru protokolu. Přijatelné hodnoty jsou definovány v knihovně protokolování Pythonu. |
'not_set' , 'debug' , 'info' , 'warning' , , 'error' 'critical' |
'info' |
type |
const | Povinný: Typ úlohy. |
automl |
automl |
task |
const | Povinný: Typ úlohy automatizovaného strojového učení, který se má provést. |
forecasting |
forecasting |
target_column_name |
string | Povinný: Představuje název sloupce, který má být prognózován. Úloha automatizovaného strojového učení vyvolá chybu, pokud není zadána. |
||
featurization |
objekt | Objekt slovníku definující konfiguraci vlastní featurizace. V případě, že se nevytvořil, použije konfigurace automatizovaného strojového učení automatickou funkciaturace. Viz featurizace k zobrazení vlastností tohoto objektu. | ||
forecasting |
objekt | Objekt slovníku definující nastavení prognózovací úlohy. Podívejte se na prognózování a zjistěte vlastnosti tohoto objektu. | ||
n_cross_validations |
řetězec nebo celé číslo | Počet křížových ověření, která se mají provést při výběru modelu nebo kanálu, pokud validation_data není zadán.V případě, že validation_data ani tento parametr není zadaný nebo nastavený na None , pak je úloha automatizovaného strojového učení nastavil auto ve výchozím nastavení. V případě distributed_featurization , že je povolená a validation_data není zadána, je ve výchozím nastavení nastavená na hodnotu 2. |
'auto' , [int] |
None |
primary_metric |
string | Metrika, která automatizované strojové učení optimalizuje pro výběr modelu prognózování časových řad. Pokud allowed_training_algorithms má k trénování použít tcn_forecaster, automatizované strojové učení podporuje pouze v normalized_root_mean_squared_error a normalized_mean_absolute_error, které se mají použít jako primary_metric. |
"spearman_correlation" , , "normalized_root_mean_squared_error" "r2_score" "normalized_mean_absolute_error" |
"normalized_root_mean_squared_error" |
training |
objekt | Objekt slovníku definující konfiguraci, která se používá při trénování modelu. Zkontrolujte trénování a zjistěte vlastnosti tohoto objektu. |
||
training_data |
objekt | Povinní účastníci Objekt slovníku obsahující konfiguraci MLTable definující trénovací data, která se mají použít jako vstup pro trénování modelu. Tato data jsou podmnožinou dat a měla by se skládat z nezávislých funkcí/sloupců a cílové funkce/sloupce. Uživatel může použít zaregistrovanou tabulku MLTable v pracovním prostoru ve formátu :(např. Input(mltable='my_mltable:1')) NEBO může jako tabulku MLTable použít místní soubor nebo složku(např. Input(mltable=MLTable(local_path="./data")). Tento objekt musí být zadaný. Pokud cílová funkce není ve zdrojovém souboru, automatizované strojové učení vyvolá chybu. Zkontrolujte trénovací nebo ověřovací nebo testovací data a zjistěte vlastnosti tohoto objektu. |
||
validation_data |
objekt | Objekt slovníku obsahující konfiguraci MLTable definující ověřovací data, která se mají použít v rámci experimentu automatizovaného strojového učení pro křížové ověření. Pokud je tento objekt k dispozici, měl by se skládat z nezávislých funkcí/sloupců a cílových funkcí/sloupce. Ukázky v trénovacích datech a ověřovacích datech se nemůžou překrývat ve složených datech. Pokud chcete zjistit vlastnosti tohoto objektu, podívejte se na trénovací nebo ověřovací nebo testovací data . V případě, že tento objekt není definován, použije automatizované strojové učení n_cross_validations k rozdělení ověřovacích dat z trénovacích dat definovaných v objektu training_data . |
||
test_data |
objekt | Objekt slovníku obsahující konfiguraci MLTable definující testovací data, která se mají použít při testovacím běhu pro předpovědi při použití nejlepšího modelu, a vyhodnocuje model pomocí definovaných metrik. Pokud je tento objekt k dispozici, měl by se skládat pouze z nezávislých funkcí používaných v trénovacích datech (bez cílové funkce). Zkontrolujte trénovací nebo ověřovací nebo testovací data a zjistěte vlastnosti tohoto objektu. Pokud není k dispozici, automatizované strojové učení používá jiné předdefinované metody k navržení nejlepšího modelu pro odvozování. |
hranice
Klíč | Typ | Popis | Povolené hodnoty | Default value |
---|---|---|---|---|
enable_early_termination |
boolean | Představuje, jestli se má povolit ukončení experimentu, pokud se skóre ztráty nezlepší po počtu iterací x. V úloze automatizovaného strojového učení se na prvních 20 iterací nepoužije žádné předčasné zastavení. Počáteční zastavování se spustí až po prvních 20 iteracích. |
true , false |
true |
max_concurrent_trials |
integer | Maximální počet pokusů (podřízených úloh), které by se spouštěly paralelně. Důrazně doporučujeme nastavit počet souběžných spuštění na počet uzlů v clusteru (aml compute definovaný v compute ). |
1 |
|
max_trials |
integer | Představuje maximální počet pokusů, které může úloha automatizovaného strojového učení zkusit spustit trénovací algoritmus s různými kombinacemi hyperparametrů. Výchozí hodnota je nastavená na 1 000. Pokud enable_early_termination je definováno, může být počet pokusů použitých ke spuštění trénovacích algoritmů menší. |
1000 |
|
max_cores_per_trial |
integer | Představuje maximální počet jader podle toho, které jsou k dispozici pro každou zkušební verzi. Výchozí hodnota je nastavená na -1, což znamená, že se v procesu používají všechna jádra. | -1 |
|
timeout_minutes |
integer | Maximální doba v minutách, po kterou může spustit odeslaná úloha automatizovaného strojového učení. Po uplynutí zadané doby se úloha ukončí. Tento časový limit zahrnuje nastavení, featurizaci, trénovací běhy, promýšlání a vysvětlení modelu (pokud je k dispozici) všech pokusů. Všimněte si, že nezahrnuje překládanou a vysvětlitelnost modelu se spustí na konci procesu, pokud se úloha nedokončí, timeout_minutes protože tyto funkce jsou k dispozici po dokončení všech zkušebních verzí (podřízených úloh). Výchozí hodnota je nastavená na 360 minut (6 hodin). Pokud chcete zadat časový limit menší než nebo rovnou 1 hodině (60 minut), měl by se uživatel ujistit, že velikost datové sady není větší než 10 000 000 (řádek krát sloupec) nebo chybové výsledky. |
360 |
|
trial_timeout_minutes |
integer | Maximální doba v minutách, po kterou může každá zkušební verze (podřízená úloha) v odeslané úloze automatizovaného strojového učení běžet. Po uplynutí zadané doby se podřízená úloha ukončí. | 30 |
|
exit_score |
float (číslo s plovoucí řádovou čárkou) | Skóre, které se má dosáhnout experimentem. Experiment se ukončí po dosažení zadaného skóre. Pokud není zadána (žádná kritéria), experiment se spustí, dokud nedojde k žádnému dalšímu postupu definovaného primary metric . |
prognostika
Klíč | Typ | Popis | Povolené hodnoty | Default value |
---|---|---|---|---|
time_column_name |
řetězec | Povinní účastníci Název sloupce v datové sadě, který odpovídá časové ose jednotlivých časových řad. Vstupní datová sada pro trénování, ověřování nebo testování musí obsahovat tento sloupec, pokud je forecasting úkol . Pokud není k dispozici nebo není nastavena None , úloha prognózování automatizovaného strojového učení vyvolá chybu a experiment ukončí. |
||
forecast_horizon |
řetězec nebo celé číslo | Maximální horizont prognózy v jednotkách frekvence časových řad. Tyto jednotky vycházejí z odvozeného časového intervalu trénovacích dat (např. měsíčně, týdně), který prognóza používá k predikci. Pokud je nastavena na None nebo auto , jeho výchozí hodnota je nastavena na 1, což znamená "t+1" z posledního časového razítka t ve vstupních datech. |
auto , [int] |
0 |
frequency |
string | Frekvence, s jakou je generování prognózy žádoucí, například denně, týdně, ročně atd. Pokud není zadána nebo nastavena na hodnotu None, její výchozí hodnota se odvodí z indexu času datové sady. Uživatel může nastavit jeho hodnotu větší než odvozená frekvence datové sady, ale ne menší než její hodnota. Pokud je například frekvence datové sady denně, může trvat hodnoty jako denní, týdenní, měsíční, ale ne každou hodinu, protože hodina je menší než denně(24 hodin). Další informace najdete v dokumentaci k knihovně pandas. |
None |
|
time_series_id_column_names |
řetězec nebo list(řetězce) | Názvy sloupců v datech, které se mají použít k seskupení dat do více časových řad. Pokud time_series_id_column_names není definována nebo nastavena na Hodnotu Žádné, automatizované strojové učení používá k detekci sloupců logiku automatického zjišťování. | None |
|
feature_lags |
string | Představuje, jestli chce uživatel automaticky generovat prodlevy pro poskytnuté číselné funkce. Výchozí hodnota je nastavená na auto , což znamená, že automatizované strojové učení používá heuristiku založenou na automatických opravách k automatickému výběru objednávek prodlevy a generování odpovídajících lag funkcí pro všechny číselné funkce. "Žádné" znamená, že pro žádné číselné funkce se negenerují žádné prodlevy. |
'auto' , None |
None |
country_or_region_for_holidays |
string | Země nebo oblast, které se mají použít k vygenerování funkcí svátků. Tyto znaky by měly být reprezentovány ve dvouznakovém kódu země/oblasti ISO 3166, například v USA nebo GB. Seznam kódů ISO naleznete na adrese https://wikipedia.org/wiki/List_of_ISO_3166_country_codes. | None |
|
cv_step_size |
řetězec nebo celé číslo | Počet období mezi origin_time jednoho cv přeložení a dalším přeložením. Pokud je například pro denní data nastavená hodnota 3, čas vzniku každého přeložení je od sebe tři dny. Pokud je nastavená na hodnotu Žádné nebo není zadána, je ve výchozím nastavení nastavená na auto hodnotu Žádný. Pokud se jedná o celočíselné typy, minimální hodnota, kterou může trvat, je 1, jinak vyvolá chybu. |
auto , [int] |
auto |
seasonality |
řetězec nebo celé číslo | Sezónnost časových řad jako celočíselná násobek frekvence řady. Pokud není zadána sezónnost, jeho hodnota je nastavena na 'auto' , což znamená, že je odvozena automaticky automatizovaným ml. Pokud tento parametr není nastaven na None hodnotu , automatizované strojové učení předpokládá časové řady jako neschůdné, což odpovídá nastavení jako celočíselné hodnoty 1. |
'auto' , [int] |
auto |
short_series_handling_config |
string | Představuje způsob, jakým by automatizované strojové učení mělo zpracovávat krátké časové řady, pokud je zadáno. Přijímá následující hodnoty:
|
'auto' , 'pad' , , 'drop' None |
auto |
target_aggregate_function |
string | Představuje agregační funkci, která se má použít k agregaci cílového sloupce v časových řadách a generování prognóz zadanou frekvencí (definovanou v freq ). Pokud je tento parametr nastavený, ale freq parametr není nastavený, dojde k chybě. Vynechá se nebo nastaví na Hodnotu Žádné, pak se nepoužije žádná agregace. |
'sum' , 'max' , , 'min' 'mean' |
auto |
target_lags |
řetězec nebo celé číslo nebo list(celé číslo) | Počet minulých/historických období, která se mají použít k prodlevě od cílových hodnot na základě frekvence datové sady. Ve výchozím nastavení je tento parametr vypnutý. Nastavení 'auto' umožňuje systému používat automatickou heuristické prodlevu. Tato vlastnost prodlevy by se měla použít, když vztah mezi nezávislými proměnnými a závislými proměnnými ve výchozím nastavení nekoeluje. Další informace najdete v tématu Opožděné funkce pro prognózování časových řad v automatizovaném strojovém učení. |
'auto' , [int] |
None |
target_rolling_window_size |
řetězec nebo celé číslo | Počet minulých pozorování, která se mají použít k vytvoření průběžného intervalu cílového sloupce. Při prognózování představuje tento parametr n historických období, která se mají použít ke generování prognózovaných hodnot, <= velikost trénovací sady. Pokud tuto hodnotu vynecháte, n je úplná velikost trénovací sady. Tento parametr zadejte, pokud chcete při trénování modelu vzít v úvahu pouze určitou část historie. | 'auto' celé číslo None |
None |
use_stl |
string | Komponenty, které se mají generovat použitím rozkladu STL v časových řadách. Pokud není k dispozici nebo není nastavena žádná součást časové řady, nevygeneruje se žádná součást časové řady. use_stl může mít dvě hodnoty: 'season' : generovat součást sezóny. 'season_trend' : pro generování komponent automatizovaného strojového učení i trendu. |
'season' , 'seasontrend' |
None |
trénování nebo ověřování nebo testování dat
Klíč | Typ | Popis | Povolené hodnoty | Default value |
---|---|---|---|---|
datastore |
string | Název úložiště dat, kde se data nahrají uživatelem. | ||
path |
string | Cesta, ze které se mají načíst data. Může to být file cesta, folder cesta nebo pattern cesty. pattern určuje vzor hledání, který umožňuje použití globbingu(* a ** ) souborů a složek obsahujících data. Podporované typy identifikátorů URI jsou azureml , , https wasbs , abfss , a adl . Další informace najdete v tématu Syntaxe Core yaml, abyste pochopili, jak používat formát identifikátoru azureml:// URI. Identifikátor URI umístění souboru artefaktu. Pokud tento identifikátor URI nemá schéma (například http:, azureml atd.), považuje se za místní odkaz a soubor, na který odkazuje, se nahraje do výchozího úložiště objektů blob pracovního prostoru při vytváření entity. |
||
type |
const | Typ vstupních dat. Aby uživatel mohl generovat modely počítačového zpracování obrazu, musí jako vstup pro trénování modelu použít označení data obrázků ve formě tabulky MLTable. | mltable |
mltable |
školení
Klíč | Typ | Popis | Povolené hodnoty | Default value |
---|---|---|---|---|
allowed_training_algorithms |
list(řetězec) | Seznam algoritmů pro prognózování časových řad, které se mají vyzkoušet jako základní model pro trénování modelu v experimentu. Pokud je vynechána nebo nastavena na Hodnotu None, všechny podporované algoritmy se použijí během experimentu s výjimkou algoritmů zadaných v blocked_training_algorithms . |
'auto_arima' , 'prophet' , ,'seasonal_naive' 'naive' , 'average' , 'seasonal_average' , 'exponential_smoothing' , 'arimax' , 'lasso_lars' 'light_gbm' 'decision_tree' 'random_forest' 'sgd' 'knn' 'extreme_random_trees' 'tcn_forecaster' 'elastic_net' 'gradient_boosting' 'xg_boost_regressor' |
None |
blocked_training_algorithms |
list(řetězec) | Seznam algoritmů pro prognózování časových řad, které se nespustí jako základní model při trénování modelu v experimentu. Pokud je vynechána nebo nastavena na Hodnotu Žádné, všechny podporované algoritmy se použijí během trénování modelu. | 'auto_arima' , 'prophet' , , 'seasonal_naive' 'naive' 'seasonal_average' 'average' , , 'light_gbm' 'exponential_smoothing' 'arimax' 'tcn_forecaster' 'elastic_net' 'gradient_boosting' 'decision_tree' 'knn' 'lasso_lars' 'sgd' 'random_forest' 'extreme_random_trees' 'xg_boost_regressor' |
None |
enable_dnn_training |
boolean | Příznak pro zapnutí nebo vypnutí zahrnutí modelů založených na DNN, které se mají vyzkoušet během výběru modelu. | True , False |
False |
enable_model_explainability |
boolean | Představuje příznak pro zapnutí vysvětlitelnosti modelu, jako je důležitost funkce, nejlepšího modelu vyhodnoceného systémem automatizovaného strojového učení. | True , False |
True |
enable_vote_ensemble |
boolean | Příznak pro povolení nebo zakázání přemíscení některých základních modelů pomocí hlasovacího algoritmu. Další informace o souborech naleznete v tématu Nastavení automatického trénování. | true , false |
true |
enable_stack_ensemble |
boolean | Příznak pro povolení nebo zakázání přemíscení některých základních modelů pomocí algoritmu stackingu U úloh prognózování je tento příznak ve výchozím nastavení vypnutý, aby se zabránilo rizikům přeurčení kvůli malé trénovací sadě používané při přizpůsobení metaučujícího. Další informace o souborech naleznete v tématu Nastavení automatického trénování. | true , false |
false |
featurizace
Klíč | Typ | Popis | Povolené hodnoty | Default value |
---|---|---|---|---|
mode |
string | Režim featurizace, který má být používán úlohou automatizovaného strojového učení. Nastavení na: 'auto' označuje, jestli se má krok featurizace provést automaticky.'off' indikuje, zda se má použít vlastní featurizace<'custom' . Poznámka: Pokud jsou vstupní data zhuštěná, není možné zapnout featurizaci. |
'auto' , , 'off' 'custom' |
None |
blocked_transformers |
list(řetězec) | Seznam názvů transformátorů, které mají být blokovány během kroku featurizace automatizovaným ML, pokud je featurizace mode nastavena na "vlastní". |
'text_target_encoder' , 'one_hot_encoder' , , 'cat_target_encoder' , 'wo_e_target_encoder' 'tf_idf' , 'label_encoder' 'word_embedding' 'naive_bayes' , , 'count_vectorizer' 'hash_one_hot_encoder' |
None |
column_name_and_types |
objekt | Objekt slovníku skládající se z názvů sloupců jako klíče diktování a typů funkcí používaných k aktualizaci účelu sloupce jako přidružené hodnoty, pokud je featurizace mode nastavená na "vlastní". |
||
transformer_params |
objekt | Vnořený objekt slovníku, který se skládá z názvu transformátoru jako klíče a odpovídajících parametrů přizpůsobení sloupců datové sady pro featurizaci, pokud je featurizace mode nastavena na "vlastní".Prognózování podporuje imputer pouze transformátor pro přizpůsobení.Projděte si column_transformers a zjistěte, jak vytvořit parametry přizpůsobení. |
None |
column_transformers
Klíč | Typ | Popis | Povolené hodnoty | Default value |
---|---|---|---|---|
fields |
list(řetězec) | Seznam názvů sloupců, u kterých je uvedeno transformer_params , by se měl použít. |
||
parameters |
objekt | Objekt slovníku, který se skládá ze strategie jako klíč a hodnota jako imputační strategie. Další podrobnosti o tom, jak ji můžete poskytnout, najdete v příkladech zde. |
Výstupy úloh
Klíč | Typ | Popis | Povolené hodnoty | Default value |
---|---|---|---|---|
type |
string | Typ výstupu úlohy. Pro výchozí uri_folder typ výstup odpovídá složce. |
uri_folder , , mlflow_model custom_model |
uri_folder |
mode |
string | Režim doručení výstupních souborů do cílového úložiště Pro režim připojení pro čtení i zápis (rw_mount ) je výstupní adresář připojeným adresářem. V režimu nahrávání se soubory zapsané na konci úlohy nahrají. |
rw_mount , upload |
rw_mount |
Spuštění úlohy prognózování pomocí rozhraní příkazového řádku
az ml job create --file [YOUR_CLI_YAML_FILE] --workspace-name [YOUR_AZURE_WORKSPACE] --resource-group [YOUR_AZURE_RESOURCE_GROUP] --subscription [YOUR_AZURE_SUBSCRIPTION]
Rychlé odkazy pro další referenci:
- Instalace a použití rozhraní příkazového řádku (v2)
- Spuštění úlohy automatizovaného strojového učení prostřednictvím rozhraní příkazového řádku
- Postup automatického trénování prognóz
- Příklady prognózování rozhraní příkazového řádku:
Orange Juice Sale Forecasting
Prognózování poptávky po energii
Prognózování poptávky na kolech
Předpověď denních aktivních uživatelů GitHubu