Delen via


CLI (v2) Automated ML Forecasting command job YAML schema

VAN TOEPASSING OP: Azure CLI ml-extensie v2 (huidige)

Het JSON-bronschema vindt u op https://azuremlschemas.azureedge.net/latest/autoMLForecastingJob.schema.json

Notitie

De YAML-syntaxis die in dit document wordt beschreven, is gebaseerd op het JSON-schema voor de nieuwste versie van de ML CLI v2-extensie. Deze syntaxis werkt gegarandeerd alleen met de nieuwste versie van de ML CLI v2-extensie. U vindt de schema's voor oudere extensieversies op https://azuremlschemasprod.azureedge.net/.

YAML-syntaxis

Sleutel Type Description Toegestane waarden Default value
$schema tekenreeks De locatie/URL voor het laden van het YAML-schema.
Als de gebruiker de Azure Machine Learning VS Code-extensie gebruikt om het YAML-bestand te ontwerpen, inclusief $schema bovenaan het bestand, kan de gebruiker schema- en resourcevoltooiingen aanroepen.
compute tekenreeks Vereist.
De naam van de AML-rekeninfrastructuur waarop de taak moet worden uitgevoerd.
De berekening kan een verwijzing naar een bestaande rekenmachine in de werkruimte zijn
Opmerking: taken in de pijplijn bieden geen ondersteuning voor 'lokaal' als compute. De 'lokale' hier betekent dat het rekenproces dat is gemaakt in de Azure Machine Learning-studio werkruimte van de gebruiker.
1. patroon [^azureml:<compute_name>] voor het gebruik van bestaande rekenkracht,
2.'local' om lokale uitvoering te gebruiken
'local'
limits object Vertegenwoordigt een woordenlijstobject dat bestaat uit limietconfiguraties van de geautomatiseerde ML-taak in tabelvorm.
De sleutel is een naam voor de limiet binnen de context van de taak en de waarde is een limietwaarde. Zie limieten om de eigenschappen van dit object te achterhalen.
name tekenreeks De naam van de verzonden Geautomatiseerde ML-taak.
Deze moet uniek zijn voor alle taken in de werkruimte. Als dit niet is opgegeven, wordt in Azure Machine Learning automatisch een GUID gegenereerd voor de naam.
description tekenreeks De beschrijving van de geautomatiseerde ML-taak.
display_name tekenreeks De naam van de taak die de gebruiker wil weergeven in de gebruikersinterface van studio. Deze kan niet uniek zijn binnen de werkruimte. Als dit wordt weggelaten, wordt in Azure Machine Learning automatisch een door mensen leesbare naamwoord-naamwoord-id voor de weergavenaam gegenereerd.
experiment_name tekenreeks De naam van het experiment.
Experimenten zijn records van uw ML-trainingstaken in Azure. Experimenten bevatten de resultaten van uw uitvoeringen, samen met logboeken, grafieken en grafieken. De uitvoeringsrecord van elke taak wordt geordend onder het bijbehorende experiment op het tabblad Experimenten van de studio.
Naam van de werkmap waarin deze is gemaakt
environment_variables object Een woordenboekobject van omgevingsvariabelen die moeten worden ingesteld voor het proces waarin de opdracht wordt uitgevoerd.
outputs object Vertegenwoordigt een woordenlijst met uitvoerconfiguraties van de taak. De sleutel is een naam voor de uitvoer binnen de context van de taak en de waarde is de uitvoerconfiguratie. Bekijk de taakuitvoer om de eigenschappen van dit object te achterhalen.
log_files object Een woordenlijstobject met logboeken van een geautomatiseerde ML-taakuitvoering
log_verbosity tekenreeks Het niveau van uitgebreidheid van logboeken voor het schrijven naar het logboekbestand.
De acceptabele waarden worden gedefinieerd in de Python-logboekregistratiebibliotheek.
'not_set', , 'debug''info', 'warning', , , 'error''critical' 'info'
type Const Vereist.
Het type taak.
automl automl
task Const Vereist.
Het type geautomatiseerde ML-taak dat moet worden uitgevoerd.
forecasting forecasting
target_column_name tekenreeks Vereist.
Vertegenwoordigt de naam van de kolom die moet worden voorspeld. De geautomatiseerde ML-taak genereert een fout als deze niet is opgegeven.
featurization object Een woordenlijstobject waarmee de configuratie van aangepaste featurization wordt gedefinieerd. Als deze niet wordt gemaakt, past de geautomatiseerde ML-configuratie automatische featurization toe. Zie featurization om de eigenschappen van dit object te bekijken.
forecasting object Een woordenlijstobject waarmee de instellingen van de prognosetaak worden gedefinieerd. Bekijk prognoses om de eigenschappen van dit object te achterhalen.
n_cross_validations tekenreeks of geheel getal Het aantal kruisvalidaties dat moet worden uitgevoerd tijdens het selecteren van modellen/pijplijnen als validation_data dit niet is opgegeven.
Als zowel validation_data als deze parameter niet is opgegeven of is ingesteld op None, wordt deze auto standaard ingesteld op geautomatiseerde ML-taak. distributed_featurization Als dit is ingeschakeld en validation_data niet is opgegeven, is deze standaard ingesteld op 2.
'auto', [int] None
primary_metric tekenreeks Een metrische waarde die geautomatiseerde ML optimaliseert voor de selectie van het Time Series Forecasting-model.
Als allowed_training_algorithms 'tcn_forecaster' wordt gebruikt voor training, ondersteunt Geautomatiseerde ML alleen in 'normalized_root_mean_squared_error' en 'normalized_mean_absolute_error' om te worden gebruikt als primary_metric.
"spearman_correlation""r2_score", , "normalized_root_mean_squared_error" "normalized_mean_absolute_error" "normalized_root_mean_squared_error"
training object Een woordenlijstobject dat de configuratie definieert die wordt gebruikt in modeltraining.
Bekijk de training om de eigenschappen van dit object te achterhalen.
training_data object Vereist
Een woordenlijstobject met de MLTable-configuratie waarmee trainingsgegevens worden gedefinieerd die moeten worden gebruikt als invoer voor modeltraining. Deze gegevens zijn een subset van gegevens en moeten bestaan uit zowel onafhankelijke functies/kolommen als doelfunctie/kolom. De gebruiker kan een geregistreerde MLTable in de werkruimte gebruiken met de indeling ':' (bijvoorbeeld Input(mltable='my_mltable:1')) OF kan een lokaal bestand of een lokale map gebruiken als MLTable(bijvoorbeeld Input(mltable=MLTable(local_path="./data")). Dit object moet worden opgegeven. Als de doelfunctie niet aanwezig is in het bronbestand, genereert Geautomatiseerde ML een fout. Bekijk trainings- of validatie- of testgegevens om de eigenschappen van dit object te achterhalen.
validation_data object Een woordenlijstobject met de MLTable-configuratie waarmee validatiegegevens worden gedefinieerd die moeten worden gebruikt in geautomatiseerd ML-experiment voor kruisvalidatie. Deze moet bestaan uit zowel onafhankelijke functies/kolommen als doelfunctie/kolom als dit object is opgegeven. Voorbeelden in trainingsgegevens en validatiegegevens kunnen niet overlappen in een vouw.
Bekijk trainings- of validatie- of testgegevens om de eigenschappen van dit object te achterhalen. Als dit object niet is gedefinieerd, gebruikt n_cross_validations Automated ML voor het splitsen van validatiegegevens van trainingsgegevens die in training_data het object zijn gedefinieerd.
test_data object Een woordenlijstobject met de MLTable-configuratie waarmee testgegevens worden gedefinieerd die moeten worden gebruikt in de testuitvoering voor voorspellingen in het beste model en het model evalueert met behulp van gedefinieerde metrische gegevens. Het moet bestaan uit alleen onafhankelijke functies die worden gebruikt in trainingsgegevens (zonder doelfunctie) als dit object wordt opgegeven.
Bekijk trainings- of validatie- of testgegevens om de eigenschappen van dit object te achterhalen. Als dit niet wordt opgegeven, gebruikt Automated ML andere ingebouwde methoden om het beste model voor deductie te suggereren.

grens

Sleutel Type Description Toegestane waarden Default value
enable_early_termination boolean Geeft aan of het beëindigen van experimenten moet worden ingeschakeld als de verliesscore na 'x' aantal iteraties niet wordt verbeterd.
In een geautomatiseerde ML-taak wordt er geen vroege stop toegepast op de eerste 20 iteraties. Het vroege stopvenster begint pas na de eerste 20 iteraties.
true, false true
max_concurrent_trials geheel getal Het maximum aantal experimenten (onderliggende taken) dat parallel wordt uitgevoerd. Het wordt ten zeerste aanbevolen om het aantal gelijktijdige uitvoeringen in te stellen op het aantal knooppunten in het cluster (aml-rekenkracht gedefinieerd in compute). 1
max_trials geheel getal Vertegenwoordigt het maximum aantal experimenten dat een geautomatiseerde ML-taak kan proberen een trainingsalgoritmen uit te voeren met een andere combinatie van hyperparameters. De standaardwaarde is ingesteld op 1000. Als enable_early_termination dit is gedefinieerd, kan het aantal experimenten dat wordt gebruikt om trainingsalgoritmen uit te voeren kleiner zijn. 1000
max_cores_per_trial geheel getal Geeft het maximum aantal kernen aan dat beschikbaar is voor gebruik door elke proefversie. De standaardwaarde is ingesteld op -1, wat betekent dat alle kernen in het proces worden gebruikt. -1
timeout_minutes geheel getal De maximale hoeveelheid tijd in minuten die de verzonden Geautomatiseerde ML-taak kan duren. Na de opgegeven tijdsduur wordt de taak beëindigd. Deze time-out omvat setup, featurization, training runs, ensembling en model explainability (indien opgegeven) van alle proefversies.
Houd er rekening mee dat het niet de functies en modeltoelichtende uitvoeringen aan het einde van het proces bevat als de taak niet kan timeout_minutes worden voltooid, omdat deze functies beschikbaar zijn zodra alle proefversies (kindertaken) zijn voltooid.
De standaardwaarde is ingesteld op 360 minuten (6 uur). Als u een time-out wilt opgeven die kleiner is dan of gelijk is aan 1 uur (60 minuten), moet de gebruiker ervoor zorgen dat de grootte van de gegevensset niet groter is dan 10.000.000 (rijtijdenkolom) of een foutresultaten.
360
trial_timeout_minutes geheel getal De maximale hoeveelheid tijd in minuten die elke proefversie (onderliggende taak) in de ingediende geautomatiseerde ML-taak kan duren. Na de opgegeven tijdsduur wordt de onderliggende taak beëindigd. 30
exit_score zwevend De score die moet worden bereikt door een experiment. Het experiment wordt beëindigd nadat de opgegeven score is bereikt. Als dit niet is opgegeven (geen criteria), wordt het experiment uitgevoerd totdat er geen verdere voortgang wordt gemaakt op de gedefinieerde primary metric.

Vooruitzichten

Sleutel Type Description Toegestane waarden Default value
time_column_name tekenreeks Vereist
De naam van de kolom in de gegevensset die overeenkomt met de tijdsas van elke tijdreeks. De invoergegevensset voor training, validatie of test moet deze kolom bevatten als de taak is forecasting. Als dit niet is opgegeven of ingesteld Noneop, genereert geautomatiseerde ML-prognosetaak een fout en beëindigt u het experiment.
forecast_horizon tekenreeks of geheel getal De maximale voorspellingshorizon in eenheden van tijdreeksfrequentie. Deze eenheden zijn gebaseerd op het uitgestelde tijdsinterval van uw trainingsgegevens (bijvoorbeeld maandelijks, wekelijks) die de prognose gebruikt om te voorspellen. Als deze is ingesteld op Geen of auto, wordt de standaardwaarde ingesteld op 1, wat betekent 't+1' uit de laatste tijdstempel t in de invoergegevens. auto, [int] 1
frequency tekenreeks De frequentie waarmee de prognosegeneratie gewenst is, bijvoorbeeld dagelijks, wekelijks, jaarlijks, enzovoort.
Als deze niet is opgegeven of is ingesteld op Geen, wordt de standaardwaarde afgeleid van de tijdindex van de gegevensset. De gebruiker kan de waarde ervan instellen die groter is dan de uitgestelde frequentie van de gegevensset, maar niet kleiner dan die van de gegevensset. Als de frequentie van de gegevensset bijvoorbeeld dagelijks is, kan het waarden als dagelijks, wekelijks, maandelijks, maar niet per uur duren, omdat de gegevensset minder is dan dagelijks (24 uur).
Raadpleeg de pandas-documentatie voor meer informatie.
None
time_series_id_column_names tekenreeks of lijst(tekenreeksen) De namen van kolommen in de gegevens die moeten worden gebruikt om gegevens in meerdere tijdreeksen te groeperen. Als time_series_id_column_names niet is gedefinieerd of is ingesteld op Geen, gebruikt de geautomatiseerde ML logica voor automatische detectie om de kolommen te detecteren. None
feature_lags tekenreeks Geeft aan of de gebruiker automatisch vertraging wil genereren voor de opgegeven numerieke functies. De standaardwaarde is ingesteld op auto, wat betekent dat Geautomatiseerde ML gebruikmaakt van heuristiek op basis van autocorrectie om automatisch vertragingsorders te selecteren en bijbehorende vertragingsfuncties te genereren voor alle numerieke functies. Geen betekent dat er geen vertraging wordt gegenereerd voor numerieke functies. 'auto', None None
country_or_region_for_holidays tekenreeks Het land of de regio die moet worden gebruikt om vakantiefuncties te genereren. Deze tekens moeten worden weergegeven in ISO 3166-land-/regiocodes met twee letters, bijvoorbeeld 'VS' of 'GB'. De lijst met ISO-codes vindt u op https://wikipedia.org/wiki/List_of_ISO_3166_country_codes. None
cv_step_size tekenreeks of geheel getal Het aantal perioden tussen de origin_time van één CV-vouw en de volgende vouw. Als deze bijvoorbeeld is ingesteld op 3 voor dagelijkse gegevens, is de oorspronkelijke tijd voor elke vouw drie dagen uit elkaar. Als deze is ingesteld op Geen of niet opgegeven, wordt deze standaard ingesteld op auto . Als het een geheel getal is, is de minimale waarde die kan worden gebruikt 1, anders wordt er een fout gegenereerd. auto, [int] auto
seasonality tekenreeks of geheel getal De tijdreeksseizoensgebondenheid als een geheel getal van de reeksfrequentie. Als seizoensgebondenheid niet is opgegeven, wordt de waarde ingesteld op 'auto', wat betekent dat deze automatisch wordt afgeleid door Geautomatiseerde ML. Als deze parameter niet is ingesteld Noneop, wordt in geautomatiseerde ML uitgegaan van tijdreeks als niet-seizoensgebonden, wat gelijk is aan het instellen als geheel getalwaarde 1. 'auto', [int] auto
short_series_handling_config tekenreeks Geeft aan hoe Geautomatiseerde ML korte tijdreeksen moet verwerken, indien opgegeven. Hiervoor worden de volgende waarden gebruikt:
  • 'auto' : korte reeks wordt opgevuld als er geen lange reeks is, anders wordt korte reeks verwijderd.
  • 'pad': alle korte reeksen worden opgevuld met nullen.
  • 'drop': alle korte reeksen worden verwijderd.
  • None: de korte reeks wordt niet gewijzigd.
    'auto', , , 'pad''drop'None auto
    target_aggregate_function tekenreeks Vertegenwoordigt de statistische functie die moet worden gebruikt voor het aggregeren van de doelkolom in tijdreeksen en het genereren van de prognoses op opgegeven frequentie (gedefinieerd in freq). Als deze parameter is ingesteld, maar de freq parameter niet is ingesteld, wordt er een fout gegenereerd. Het wordt weggelaten of ingesteld op Geen, en er wordt geen aggregatie toegepast. 'sum', , , 'max''min''mean' auto
    target_lags tekenreeks of geheel getal of lijst(geheel getal) Het aantal eerdere/historische perioden dat moet worden gebruikt voor vertraging van de doelwaarden op basis van de frequentie van de gegevensset. Deze parameter is standaard uitgeschakeld. Met de 'auto' instelling kan het systeem automatische vertraging op basis van heuristiek gebruiken.
    Deze vertragingseigenschap moet worden gebruikt wanneer de relatie tussen de onafhankelijke variabelen en afhankelijke variabelen niet standaard correleert. Zie Gemarkeerde functies voor het voorspellen van tijdreeksen in Geautomatiseerde ML voor meer informatie.
    'auto', [int] None
    target_rolling_window_size tekenreeks of geheel getal Het aantal eerdere waarnemingen dat moet worden gebruikt voor het maken van een gemiddeld rolling window van de doelkolom. Bij het voorspellen vertegenwoordigt deze parameter n historische perioden die moeten worden gebruikt om voorspelde waarden te genereren, <= grootte van trainingssets. Als u dit weglaat, is n de volledige grootte van de trainingsset. Geef deze parameter op wanneer u alleen een bepaalde hoeveelheid geschiedenis wilt overwegen bij het trainen van het model. 'auto'geheel getal None None
    use_stl tekenreeks De onderdelen die moeten worden gegenereerd door STL-decompositie toe te passen op tijdreeksen. Als dit niet is opgegeven of is ingesteld op Geen, wordt er geen tijdreeksonderdeel gegenereerd.
    use_stl kan twee waarden aannemen:
    'season' : om seizoenonderdeel te genereren.
    'season_trend' : voor het genereren van geautomatiseerde ML en trendonderdelen van het seizoen.
    'season', 'seasontrend' None

    training- of validatie- of testgegevens

    Sleutel Type Description Toegestane waarden Default value
    datastore tekenreeks De naam van het gegevensarchief waar gegevens door de gebruiker worden geüpload.
    path tekenreeks Het pad van waaruit gegevens moeten worden geladen. Dit kan een file pad, folder pad of pattern voor paden zijn.
    pattern hiermee geeft u een zoekpatroon op om globbing(* en **) toe te staan van bestanden en mappen die gegevens bevatten. Ondersteunde URI-typen zijnazureml, https, wasbs, en abfssadl. Zie core yaml-syntaxis voor meer informatie over het gebruik van de azureml:// URI-indeling. URI van de locatie van het artefactbestand. Als deze URI geen schema heeft (bijvoorbeeld http:, azureml: enzovoort), wordt het beschouwd als een lokale verwijzing en wordt het bestand waarnaar wordt verwezen, geüpload naar de standaardwerkruimte-blobopslag wanneer de entiteit wordt gemaakt.
    type Const Het type invoergegevens. Om computer vision-modellen te genereren, moet de gebruiker gelabelde afbeeldingsgegevens als invoer voor modeltraining in de vorm van een MLTable meenemen. mltable mltable

    Training 

    Sleutel Type Description Toegestane waarden Default value
    allowed_training_algorithms list(string) Een lijst met Time Series Forecasting-algoritmen om uit te proberen als basismodel voor modeltraining in een experiment. Als het wordt weggelaten of ingesteld op Geen, worden alle ondersteunde algoritmen gebruikt tijdens het experiment, behalve algoritmen die zijn opgegeven in blocked_training_algorithms. 'auto_arima', , 'naive',, , , 'seasonal_average', , 'tcn_forecaster''lasso_lars''extreme_random_trees''gradient_boosting''decision_tree''knn''random_forest''light_gbm''arimax''sgd''exponential_smoothing''elastic_net''average''seasonal_naive''prophet''xg_boost_regressor' None
    blocked_training_algorithms list(string) Een lijst met Time Series Forecasting-algoritmen die niet als basismodel kunnen worden uitgevoerd tijdens het trainen van modellen in een experiment. Als deze wordt weggelaten of is ingesteld op Geen, worden alle ondersteunde algoritmen gebruikt tijdens het trainen van modellen. 'auto_arima', , 'prophet', , , 'average', , 'seasonal_average', , 'elastic_net''tcn_forecaster''knn''lasso_lars''sgd''extreme_random_trees''light_gbm''gradient_boosting''random_forest''arimax''decision_tree''exponential_smoothing''seasonal_naive''naive''xg_boost_regressor' None
    enable_dnn_training boolean Een vlag voor het in- of uitschakelen van op DNN gebaseerde modellen om uit te proberen tijdens het selecteren van modellen. True, False False
    enable_model_explainability boolean Vertegenwoordigt een vlag voor het inschakelen van modeluit legbaarheid, zoals het belang van functies, van het beste model dat wordt geëvalueerd door het geautomatiseerde ML-systeem. True, False True
    enable_vote_ensemble boolean Een vlag om het aantal basismodellen in of uit te schakelen met behulp van stemalgoritmen. Zie Auto train instellen voor meer informatie over ensembles. true, false true
    enable_stack_ensemble boolean Een vlag voor het in- of uitschakelen van een aantal basismodellen met behulp van het Stacking-algoritme. Bij het voorspellen van taken wordt deze vlag standaard uitgeschakeld om risico's van overfitting te voorkomen als gevolg van een kleine trainingsset die wordt gebruikt bij het aanpassen van de meta-cursist. Zie Auto train instellen voor meer informatie over ensembles. true, false false

    featurization

    Sleutel Type Description Toegestane waarden Default value
    mode tekenreeks De featurization-modus die moet worden gebruikt door geautomatiseerde ML-taak.
    Instellen op:
    'auto' geeft aan of de featurization-stap automatisch moet worden uitgevoerd
    'off' geeft aan dat er geen featurization<'custom' wordt aangegeven of aangepaste featurization moet worden gebruikt.

    Opmerking: als de invoergegevens sparse zijn, kan featurization niet worden ingeschakeld.
    'auto', , 'off''custom' None
    blocked_transformers list(string) Een lijst met namen van transformatoren die moeten worden geblokkeerd tijdens het uitvoeren van de functiestap geautomatiseerde ML, als featurization mode is ingesteld op 'aangepast'. 'text_target_encoder', , 'cat_target_encoder', 'tf_idf''one_hot_encoder', , 'wo_e_target_encoder', 'label_encoder', , 'count_vectorizer''naive_bayes''word_embedding''hash_one_hot_encoder' None
    column_name_and_types object Een woordenlijstobject dat bestaat uit kolomnamen als dictsleutel en functietypen die worden gebruikt om het kolomdoel bij te werken als gekoppelde waarde, als featurization mode is ingesteld op 'aangepast'.
    transformer_params object Een geneste woordenlijstobject dat bestaat uit de naam van de transformatiefunctie als sleutel en bijbehorende aanpassingsparameters voor gegevenssetkolommen voor featurization, als featurization mode is ingesteld op 'aangepast'.
    De prognose biedt alleen ondersteuning imputer voor transformatoren voor aanpassing.
    Bekijk column_transformers voor meer informatie over het maken van aanpassingsparameters.
    None

    column_transformers

    Sleutel Type Description Toegestane waarden Default value
    fields list(string) Een lijst met kolomnamen waarop moet worden opgegeven transformer_params , moet worden toegepast.
    parameters object Een woordenlijstobject dat bestaat uit 'strategie' als sleutel en waarde als imputatiestrategie.
    Meer informatie over hoe deze kan worden verstrekt, vindt u hier in voorbeelden.

    Taakuitvoer

    Sleutel Type Description Toegestane waarden Default value
    type tekenreeks Het type taakuitvoer. Voor het standaardtype uri_folder komt de uitvoer overeen met een map. uri_folder, , mlflow_modelcustom_model uri_folder
    mode tekenreeks De modus van hoe uitvoerbestanden worden geleverd aan de doelopslag. Voor de koppelingsmodus lezen/schrijven (rw_mount) is de uitvoermap een gekoppelde map. Voor de uploadmodus worden de geschreven bestanden aan het einde van de taak geüpload. rw_mount, upload rw_mount

    Prognosetaak uitvoeren via CLI

    az ml job create --file [YOUR_CLI_YAML_FILE] --workspace-name [YOUR_AZURE_WORKSPACE] --resource-group [YOUR_AZURE_RESOURCE_GROUP] --subscription [YOUR_AZURE_SUBSCRIPTION]