Esquema YAML do trabalho de comando da Previsão de ML automatizado da CLI (v2)
APLICA-SE A: Extensão de ML da CLI do Azurev2 (atual)
O código-fonte do esquema JSON pode ser encontrado em https://azuremlschemas.azureedge.net/latest/autoMLForecastingJob.schema.json
Observação
A sintaxe YAML detalhada neste documento baseia-se no esquema JSON da última versão da extensão de ML da CLI v2. Essa sintaxe só tem a garantia de funcionar com a última versão da extensão de ML da CLI v2. Encontre os esquemas para as versões mais antigas da extensão em https://azuremlschemasprod.azureedge.net/.
Sintaxe YAML
Chave | Type | Descrição | Valores permitidos | Valor padrão |
---|---|---|---|---|
$schema |
string | O local/a URL para carregar o esquema YAML. Se o usuário usar a extensão VS Code do Azure Machine Learning para criar o arquivo YAML, incluir $schema na parte superior do arquivo permite que o usuário invoque o esquema e as conclusões de recursos. |
||
compute |
string | Necessário. O nome da infraestrutura de computação AML na qual executar o trabalho. A computação pode ser uma referência a uma máquina de computação existente no workspace Observação: os trabalhos do pipeline não dão suporte a "local" como compute . O "local" aqui significa que a instância de computação foi criada no workspace Estúdio do Azure Machine Learning do usuário. |
1. Padrão [^azureml:<compute_name>] para usar a computação existente,2. 'local' para usar a execução local |
'local' |
limits |
objeto | Representa um objeto de dicionário que consiste em limitar as configurações do trabalho tabular de ML automatizado. A chave é o nome do limite no contexto do trabalho e o valor é o valor limite. Confira os limites para descobrir as propriedades desse objeto. |
||
name |
string | O nome do trabalho de ML Automatizado enviado. Precisa ser exclusivo em todos os trabalhos no espaço de trabalho. Se não for especificado, o Azure Machine Learning vai gerar automaticamente um GUID para o nome. |
||
description |
string | A descrição do trabalho de ML automatizado. | ||
display_name |
string | O nome do trabalho que o usuário deseja exibir na interface do usuário do estúdio. Pode ser não exclusivo dentro do workspace. Se for omitido, o Azure Machine Learning vai gerar automaticamente um identificador adjetivo-substantivo legível como o nome de exibição. | ||
experiment_name |
string | O nome do experimento. Experimentos são registros dos seus trabalhos de treinamento de ML no Azure. Os experimentos contêm os resultados de suas execuções, juntamente com logs, gráficos e grafos. O registro de execução de cada trabalho é organizado no experimento correspondente da guia "Experimentos" do estúdio. |
Nome do diretório de trabalho no qual ele foi criado | |
environment_variables |
objeto | Um objeto de dicionário da variável de ambiente a ser definido no processo em que o comando está sendo executado. | ||
outputs |
objeto | Representa um dicionário de configurações de saída do trabalho. A chave é um nome para a saída dentro do contexto do trabalho e o valor é a configuração de saída. Confira a saída do trabalho para descobrir as propriedades desse objeto. | ||
log_files |
objeto | Um objeto de dicionário que contém logs de uma execução de trabalho de ML automatizado | ||
log_verbosity |
string | O nível de detalhamento do log para gravar no arquivo de log. Os valores aceitáveis são definidos na biblioteca de registros em log do Python. |
'not_set' , 'debug' , 'info' , 'warning' , 'error' , , 'critical' |
'info' |
type |
const | Necessário. O tipo de trabalho. |
automl |
automl |
task |
const | Necessário. O tipo de tarefa ML automatizada a ser executada. |
forecasting |
forecasting |
target_column_name |
string | Necessário. Representa o nome da coluna a ser prevista. O trabalho de ML automatizado gera um erro se não for especificado. |
||
featurization |
objeto | Um objeto de dicionário que define a configuração da personalização de recursos. Caso não seja criada, a configuração de ML automatizado aplica a personalização automática. Confira a definição de recursos para ver as propriedades desse objeto. | ||
forecasting |
objeto | Um objeto de dicionário que define as configurações do trabalho de previsão. Confira os limites para descobrir as propriedades desse objeto. | ||
n_cross_validations |
Cadeia de caracteres ou número inteiro | O número de validações cruzadas a serem executadas durante a seleção de modelo/pipeline, se validation_data não for especificado.Caso tanto validation_data quanto esse parâmetro não sejam fornecidos ou definidos como None , o trabalho de ML automatizado o definirá como auto por padrão. Caso distributed_featurization esteja habilitado e validation_data não seja especificado, ele será definido como 2 por padrão. |
'auto' , [int] |
None |
primary_metric |
string | Uma métrica que o ML Automatizado otimiza para a seleção do modelo de Previsão de Série Temporal. Se allowed_training_algorithms tiver "tcn_forecaster" a ser usado para treinamento, o ML automatizado só terá suporte em 'normalized_root_mean_squared_error' e 'normalized_mean_absolute_error' a serem usados como primary_metric. |
"spearman_correlation" , "normalized_root_mean_squared_error" , "r2_score" "normalized_mean_absolute_error" |
"normalized_root_mean_squared_error" |
training |
objeto | Um objeto de dicionário que define a configuração usada no treinamento de modelo. Confira treinamento para descobrir as propriedades desse objeto. |
||
training_data |
objeto | Necessário Um objeto de dicionário que contém a configuração de MLTable que define os dados de treinamento a serem usados como entrada para treinamento de modelo. Esses dados são um subconjunto de dados e devem ser compostos por recursos/colunas independentes e recurso/coluna de destino. O usuário pode usar uma MLTable registrada no workspace usando o formato ':' (por exemplo, Input(mltable='my_mltable:1')) OU pode usar um arquivo ou pasta local como uma MLTable(por exemplo, Input(mltable=MLTable(local_path="./data")). Esse objeto deve ser fornecido. Se o recurso de destino não estiver presente no arquivo de origem, o ML automatizado vai gerar um erro. Verifique os dados de treinamento, validação ou teste para descobrir as propriedades desse objeto. |
||
validation_data |
objeto | Um objeto de dicionário que contém a configuração de MLTable que define os dados de validação a serem usados no experimento de ML automatizado para validação cruzada. Ele deve ser composto por recursos/colunas independentes e recurso/coluna de destino se esse objeto for fornecido. Exemplos em dados de treinamento e dados de validação não podem se sobrepor em uma dobra. Confira os dados de treinamento, validação ou teste para descobrir as propriedades desse objeto. Caso esse objeto não seja definido, o ML automatizado usa n_cross_validations para dividir os dados de validação dos dados de treinamento definidos no objeto training_data . |
||
test_data |
objeto | Um objeto de dicionário que contém a configuração MLTable que define os dados de teste a serem usados na execução de teste para previsões no uso do melhor modelo e avalia o modelo usando métricas definidas. Ele deve ser composto apenas por recursos independentes usados em dados de treinamento (sem recurso de destino) se esse objeto for fornecido. Verifique os dados de treinamento, validação ou teste para descobrir as propriedades desse objeto. Se não for fornecido, o ML automatizado usará outros métodos internos para sugerir o melhor modelo a ser usado para inferência. |
limites
Chave | Type | Descrição | Valores permitidos | Valor padrão |
---|---|---|---|---|
enable_early_termination |
booleano | Representa se a finalização do experimento será habilitada se a pontuação de perda não melhorar após o número "x" de iterações. Em um trabalho de ML automatizado, nenhuma interrupção antecipada é aplicada nas primeiras 20 iterações. A janela de parada antecipada começa somente após as primeiras 20 iterações. |
true , false |
true |
max_concurrent_trials |
inteiro | Número máximo de avaliações (trabalhos filhos) que seriam executadas em paralelo. É altamente recomendável definir o número de execuções simultâneas para o número de nós no cluster (computação AML definida em compute ). |
1 |
|
max_trials |
inteiro | Representa o número máximo de avaliações que um trabalho de ML Automatizado pode tentar executar em um algoritmo de treinamento com uma combinação diferente de hiperparâmetros. O valor padrão é definido como 1000. Se enable_early_termination for definido, o número de avaliações usadas para executar algoritmos de treinamento poderá ser menor. |
1000 |
|
max_cores_per_trial |
inteiro | Representa o número máximo de núcleos que estão disponíveis para serem usados por cada avaliação. O valor padrão deles é definido como -1, o que significa que todos os núcleos são usados no processo. | -1 |
|
timeout_minutes |
inteiro | Quantidade máxima de tempo em minutos que o trabalho do ML Automatizado enviado pode levar para executar. Após a quantidade de tempo especificada, o trabalho é encerrado. Esse tempo limite inclui instalação, recursos, execuções de treinamento, ensembling e explicabilidade de modelo (se fornecido) de todas as avaliações. Observe que ele não inclui as execuções de explicação de ensembling e modelo ao final do processo se o trabalho não for concluído dentro do timeout_minutes fornecido, pois esses recursos estarão disponíveis depois que todas as avaliações (trabalhos filho) forem feitas. O valor padrão é definido como 360 minutos (6 horas) Para especificar um tempo limite menor ou igual a uma hora (60 minutos), o usuário deve verificar se o tamanho do conjunto de dados não é maior que 10.000.000 (linhas vezes coluna) ou se há erros. |
360 |
|
trial_timeout_minutes |
inteiro | Representa a quantidade máxima de tempo em minutos que cada avaliação (trabalho filho) no trabalho do ML Automatizado enviado pode levar na execução. Após o período especificado, o trabalho filho será encerrado. | 30 |
|
exit_score |
FLOAT | A pontuação a ser alcançada por um experimento. O experimento termina depois que a pontuação especificada é alcançada. Se não for especificado (nenhum critério), o experimento será executado até que nenhum outro progresso seja feito em primary metric definido. |
previsão
Chave | Type | Descrição | Valores permitidos | Valor padrão |
---|---|---|---|---|
time_column_name |
string | Necessário O nome da coluna no conjunto de dados que corresponde ao eixo temporal de cada série temporal. O conjunto de dados de entrada para treinamento, validação ou teste deve conter esta coluna se a tarefa for forecasting . Se não é fornecido ou definido como None , o trabalho de previsão de ML automatizado gera um erro e encerra o experimento. |
||
forecast_horizon |
Cadeia de caracteres ou número inteiro | O horizonte de previsão máximo em unidades de frequência de série temporal. Essas unidades são baseadas no intervalo de tempo inferido dos dados de treinamento (por exemplo: mensal, semanal) que o preditor usa para prever. Se for definido como Nenhum ou auto , seu valor padrão será definido como 1, o que significa 't+1' do último carimbo de data/hora nos dados de entrada. |
auto , [int] |
1 |
frequency |
string | A frequência na qual a geração de previsão é desejada, por exemplo, diariamente, semanal, anual etc. Se não for especificado ou definido como Nenhum, seu valor padrão será inferido do índice de tempo do conjunto de dados. O usuário pode definir seu valor maior que a frequência inferida do conjunto de dados, mas não menor do que ele. Por exemplo, se a frequência do conjunto de dados for diária, ela poderá levar valores como diário, semanal, mensal, mas não por hora, pois por hora é menor que diariamente (24 horas). Confira a documentação do pandas para obter mais informações. |
None |
|
time_series_id_column_names |
string ou list(strings) | Os nomes das colunas nos dados a serem usados para agrupar dados em várias séries temporais. Se time_series_id_column_names não estiver definido ou definido como Nenhum, o ML automatizado usará a lógica de detecção automática para detectar as colunas. | None |
|
feature_lags |
string | Representa se o usuário deseja gerar atrasos automaticamente para os recursos numéricos fornecidos. O padrão é definido como auto , o que significa que o ML automatizado usa heurística baseada em relação automática para selecionar automaticamente pedidos de retardo e gerar recursos de retardo correspondentes para todos os recursos numéricos. "Nenhum" significa que nenhum retardo é gerado para nenhum recurso numérico. |
'auto' , None |
None |
country_or_region_for_holidays |
string | País/região a ser usado para gerar recursos de feriados. Esses caracteres devem ser representados em código de país/região de duas letras ISO 3166, por exemplo, 'US' ou 'GB'. A lista dos códigos ISO pode ser encontrada em https://wikipedia.org/wiki/List_of_ISO_3166_country_codes. | None |
|
cv_step_size |
Cadeia de caracteres ou número inteiro | O número de períodos entre o origin_time de uma dobra de validação cruzada e a próxima dobra. Por exemplo, se for definido como 3 para dados diários, a hora de origem de cada dobra terá três dias de diferença da anterior. Se ele definir como Nenhum ou não especificado, ele será definido como auto por padrão. Se for do tipo inteiro, o valor mínimo que ele pode levar será 1, caso contrário, vai gerar um erro. |
auto , [int] |
auto |
seasonality |
Cadeia de caracteres ou número inteiro | Defina a sazonalidade da série temporal como um inteiro múltiplo da frequência da série. Se sazonalidade não for especificada, seu valor será definido como 'auto' , o que significa que ele será inferido automaticamente pelo ML automatizado. Se esse parâmetro não estiver definido como None , o ML automatizado pressupõe série temporal como não sazonal, o que equivale a defini-lo como valor inteiro 1. |
'auto' , [int] |
auto |
short_series_handling_config |
string | Representa como o ML automatizado deve lidar com séries temporais curtas, se especificado. Ele usa os seguintes valores:
|
'auto' , 'pad' , 'drop' , None |
auto |
target_aggregate_function |
string | Representa a função de agregação a ser usada para agregar a coluna de destino em série temporal e gerar as previsões na frequência especificada (definida em freq ). Se este parâmetro for definido, mas o parâmetro freq não for definido, será gerado um erro. Ele é omitido ou definido como Nenhum e, em seguida, nenhuma agregação é aplicada. |
'sum' , 'max' , 'min' , 'mean' |
auto |
target_lags |
string ou integer ou list(integer) | O número de períodos passados/históricos a serem usados para retardo dos valores de destino com base na frequência do conjunto de dados. Por padrão, esse parâmetro é desativado. A configuração 'auto' permite que o sistema use o retardo baseado em heurística automática. Essa propriedade de atraso deve ser usada quando a relação entre as variáveis independentes e a variável dependente não se correlaciona por padrão. Para obter mais informações, confira Recursos registrados para previsão de série temporal no ML automatizado. |
'auto' , [int] |
None |
target_rolling_window_size |
Cadeia de caracteres ou número inteiro | O número de observações anteriores a serem usadas para criar uma média de janela móvel da coluna de destino. Durante a previsão, esse parâmetro representa n períodos históricos a serem usados para gerar valores previstos, <= o tamanho do conjunto de treinamento. Se omitido, n será o tamanho total do conjunto de treinamento. Especifique esse parâmetro quando desejar considerar apenas certa quantidade de histórico no treinamento do modelo. | 'auto' , integer, None |
None |
use_stl |
string | Os componentes a serem gerados aplicando a decomposição de STL em série temporal. Se não é fornecido ou definido como Nenhum, não é gerado nenhum componente de série temporal. use_stl pode assumir dois valores: 'season' : para gerar o componente de temporada. 'season_trend' : para gerar a ML automatizada da temporada e os componentes de tendência. |
'season' , 'seasontrend' |
None |
dados de treinamento, de validação ou de teste
Chave | Type | Descrição | Valores permitidos | Valor padrão |
---|---|---|---|---|
datastore |
string | O nome do armazenamento de dados em que os dados são carregados pelo usuário. | ||
path |
string | O caminho do qual os dados devem ser carregados. Pode ser um caminho file , caminho folder ou pattern para caminhos. O pattern especifica um padrão de pesquisa para permitir o agrupamento (* e ** ) de arquivos e pastas contendo dados. Os tipos de URI com suporte são azureml , https , wasbs , abfss e adl . Para obter mais informações, confira Sintaxe principal do YAML para entender como usar o formato do URI azureml:// . URI do local do arquivo de artefato. Se esse URI não tiver um esquema (por exemplo, http:, azureml: etc.), será considerado uma referência local e o arquivo para o qual ele aponta será carregado no armazenamento de blobs padrão do workspace durante a criação da entidade. |
||
type |
const | Tipo de dados de entrada. Para gerar modelos de visão computacional, o usuário precisa fornecer dados de imagem rotulados como entrada para o treinamento do modelo na forma de uma MLTable. | mltable |
mltable |
treinando
Chave | Type | Descrição | Valores permitidos | Valor padrão |
---|---|---|---|---|
allowed_training_algorithms |
list(string) | Uma lista de algoritmos de Previsão de Série Temporal para experimentar como modelo de base para treinamento de modelo em um experimento. Se for omitido ou definido como Nenhum, todos os algoritmos com suporte serão usados durante o experimento, exceto algoritmos especificados em blocked_training_algorithms . |
'auto_arima' , 'prophet' , 'naive' ,'seasonal_naive' , 'average' , 'seasonal_average' 'exponential_smoothing' 'arimax' 'tcn_forecaster' 'elastic_net' 'gradient_boosting' 'decision_tree' 'knn' 'lasso_lars' 'sgd' 'random_forest' 'extreme_random_trees' 'light_gbm' 'xg_boost_regressor' |
None |
blocked_training_algorithms |
list(string) | Uma lista de algoritmos de Previsão de Série Temporal para não serem executados como modelo de base durante o treinamento de modelo em um experimento. Se for omitido ou definido como Nenhum, todos os algoritmos com suporte serão usados durante o treinamento do modelo. | 'auto_arima' , 'prophet' , 'naive' , 'seasonal_naive' , 'average' 'tcn_forecaster' 'extreme_random_trees' 'sgd' 'light_gbm' 'random_forest' 'lasso_lars' 'knn' 'gradient_boosting' 'arimax' 'decision_tree' 'seasonal_average' 'exponential_smoothing' 'elastic_net' ,'xg_boost_regressor' |
None |
enable_dnn_training |
booleano | Um sinalizador para ativar ou desativar a inclusão de modelos baseados em DNN para experimentar durante a seleção do modelo. | True , False |
False |
enable_model_explainability |
booleano | Representa um sinalizador para ativar a explicabilidade do modelo, como a importância do recurso, do melhor modelo avaliado pelo sistema de ML automatizado. | True , False |
True |
enable_vote_ensemble |
booleano | Um sinalizador para habilitar ou desabilitar a codificação de alguns modelos de base usando o algoritmo Voting. Para obter mais informações sobre conjuntos, confira Configurar o treinamento automático. | true , false |
true |
enable_stack_ensemble |
booleano | Um sinalizador para habilitar ou desabilitar a codificação de alguns modelos de base usando o algoritmo Stacking. Em tarefas de previsão, esse sinalizador é desativado por padrão, para evitar riscos de sobreajuste devido a um pequeno conjunto de treinamento usado para ajustar o meta-aluno. Para obter mais informações sobre conjuntos, confira Configurar o treinamento automático. | true , false |
false |
definição de recursos
Chave | Type | Descrição | Valores permitidos | Valor padrão |
---|---|---|---|---|
mode |
string | O modo de definição de recursos a ser usado pelo trabalho do ML automatizado. Configurando-o como: 'auto' indica que a etapa de definição de recursos não deve ser feita automaticamente'off' indica nenhuma definição de recursos<'custom' indica se a definição de recursos personalizada deve ser usada. Observação: se os dados de entrada forem esparsos, a definição de recursos não poderá ser ativada. |
'auto' , 'off' , 'custom' |
None |
blocked_transformers |
list(string) | Uma lista de nomes de transformador a serem bloqueados durante a etapa de definição de recursos pelo ML automatizado, se a definição de recursos mode for definida como "personalizada". |
'text_target_encoder' , 'one_hot_encoder' , 'cat_target_encoder' , 'tf_idf' , 'wo_e_target_encoder' 'count_vectorizer' 'label_encoder' 'word_embedding' 'naive_bayes' ,'hash_one_hot_encoder' |
None |
column_name_and_types |
objeto | Um objeto de dicionário que consiste em nomes de coluna como chave de ditado e tipos de recursos usados para atualizar a finalidade da coluna como valor associado, se a definição de recursos mode for definida como "personalizado". |
||
transformer_params |
objeto | Um objeto de dicionário aninhado que consiste no nome do transformador como chave e parâmetros de personalização correspondentes em colunas de conjunto de dados para definição de recursos, se a definição de recursos mode for definida como "personalizada".A previsão dá suporte apenas ao transformador imputer para personalização.Confira column_transformers para descobrir como criar parâmetros de personalização. |
None |
column_transformers
Chave | Type | Descrição | Valores permitidos | Valor padrão |
---|---|---|---|---|
fields |
list(string) | Uma lista de nomes de colunas nos quais os transformer_params fornecidos devem ser aplicados. |
||
parameters |
objeto | Um objeto de dicionário que consiste em "estratégia" como chave e valor como estratégia de imputação. Mais detalhes sobre como ele pode ser fornecido são mostrados em exemplos aqui. |
Saídas de trabalho
Chave | Type | Descrição | Valores permitidos | Valor padrão |
---|---|---|---|---|
type |
string | O tipo de saída de trabalho. Para o tipo padrão uri_folder , a saída corresponderá a uma pasta. |
uri_folder , mlflow_model , custom_model |
uri_folder |
mode |
string | O modo como os arquivos de saída são entregues ao armazenamento de destino. No modo de montagem de leitura/gravação (rw_mount ), o diretório de saída será um diretório montado. No modo de upload, os arquivos gravados serão carregados no final do trabalho. |
rw_mount , upload |
rw_mount |
Como executar o trabalho de previsão por meio da CLI
az ml job create --file [YOUR_CLI_YAML_FILE] --workspace-name [YOUR_AZURE_WORKSPACE] --resource-group [YOUR_AZURE_RESOURCE_GROUP] --subscription [YOUR_AZURE_SUBSCRIPTION]
Links rápidos para referência adicional:
- Instalar e usar a CLI (v2)
- Como executar um trabalho de ML automatizado por meio da CLI
- Como treinar automaticamente as previsões
- Exemplos de previsão da CLI:
Previsão de vendas de suco de laranja
Previsão de demanda de energia
Previsão de demanda do Compartilhamento de Bicicletas
Previsão de Usuários Ativos Diários no GitHub