AutoMLConfig Clase
Representa la configuración para enviar un experimento de ML automatizado en Azure Machine Learning.
Este objeto de configuración contiene y conserva los parámetros para configurar la ejecución del experimento, así como los datos de entrenamiento que se usarán en tiempo de ejecución. Para obtener instrucciones sobre cómo seleccionar la configuración, consulte https://aka.ms/AutoMLConfig.
Cree un autoMLConfig.
- Herencia
-
builtins.objectAutoMLConfig
Constructor
AutoMLConfig(task: str, path: str | None = None, iterations: int | None = None, primary_metric: str | None = None, positive_label: Any | None = None, compute_target: Any | None = None, spark_context: Any | None = None, X: Any | None = None, y: Any | None = None, sample_weight: Any | None = None, X_valid: Any | None = None, y_valid: Any | None = None, sample_weight_valid: Any | None = None, cv_splits_indices: List[List[Any]] | None = None, validation_size: float | None = None, n_cross_validations: int | str | None = None, y_min: float | None = None, y_max: float | None = None, num_classes: int | None = None, featurization: str | FeaturizationConfig = 'auto', max_cores_per_iteration: int = 1, max_concurrent_iterations: int = 1, iteration_timeout_minutes: int | None = None, mem_in_mb: int | None = None, enforce_time_on_windows: bool = True, experiment_timeout_hours: float | None = None, experiment_exit_score: float | None = None, enable_early_stopping: bool = True, blocked_models: List[str] | None = None, blacklist_models: List[str] | None = None, exclude_nan_labels: bool = True, verbosity: int = 20, enable_tf: bool = False, model_explainability: bool = True, allowed_models: List[str] | None = None, whitelist_models: List[str] | None = None, enable_onnx_compatible_models: bool = False, enable_voting_ensemble: bool = True, enable_stack_ensemble: bool | None = None, debug_log: str = 'automl.log', training_data: Any | None = None, validation_data: Any | None = None, test_data: Any | None = None, test_size: float | None = None, label_column_name: str | None = None, weight_column_name: str | None = None, cv_split_column_names: List[str] | None = None, enable_local_managed: bool = False, enable_dnn: bool | None = None, forecasting_parameters: ForecastingParameters | None = None, **kwargs: Any)
Parámetros
Nombre | Description |
---|---|
task
Requerido
|
Tipo de tarea que se va a ejecutar. Los valores pueden ser "clasificación", "regresión" o "previsión", dependiendo del tipo de problema de aprendizaje automático automatizado que se va a resolver. |
path
Requerido
|
Ruta de acceso completa a la carpeta del proyecto de Azure Machine Learning. Si no se especifica, el valor predeterminado es usar el directorio actual o ".". |
iterations
Requerido
|
Número total de combinaciones de algoritmos y parámetros diferentes que se probarán durante un experimento de aprendizaje automático automatizado. Si no se especifica, el valor predeterminado es 1000. |
primary_metric
Requerido
|
Métrica que Automated Machine Learning optimizará para la selección del modelo. AutoML recopila más métricas de las que puede optimizar. Puede usar para get_primary_metrics obtener una lista de métricas válidas para la tarea dada. Para obtener más información sobre cómo se calculan las métricas, vea https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric. Si no se especifica, la precisión se usa para las tareas de clasificación, la media normalizada al cuadrado se usa para las tareas de previsión y regresión, la precisión se usa para la clasificación de imágenes y la clasificación de varias etiquetas de imagen, y la precisión media se usa para la detección de objetos de imagen. |
positive_label
Requerido
|
Etiqueta de clase positiva que el aprendizaje automático automatizado utilizará para calcular las métricas binarias. Las métricas binarias se calculan en dos condiciones para las tareas de clasificación:
Para obtener más información sobre la clasificación, consulte Métricas para los escenarios de clasificación. |
compute_target
Requerido
|
El destino de proceso de Azure Machine Learning en el que ejecutar el experimento de Machine Learning automatizado. Consulte https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote para más información sobre los destinos de proceso. |
spark_context
Requerido
|
<xref:SparkContext>
Contexto de Spark. Solo es aplicable cuando se usa en el entorno de Azure Databricks/Spark. |
X
Requerido
|
Características de entrenamiento que se usarán al ajustar canalizaciones durante un experimento. Esta configuración está en desuso. Use training_data y label_column_name en su lugar. |
y
Requerido
|
Etiquetas de entrenamiento que se usarán al ajustar canalizaciones durante un experimento. Este es el valor que predecirá el modelo. Esta configuración está en desuso. Use training_data y label_column_name en su lugar. |
sample_weight
Requerido
|
Peso que se debe dar a cada ejemplo de entrenamiento al ejecutar canalizaciones de ajuste, cada fila debe corresponder a una fila en datos X e Y. Especifique este parámetro al especificar |
X_valid
Requerido
|
Características de validación que se usan al ajustar canalizaciones durante un experimento. Si se especifica, se debe especificar también |
y_valid
Requerido
|
Etiquetas de validación que se usarán al ajustar canalizaciones durante un experimento. Tanto |
sample_weight_valid
Requerido
|
Peso que se debe dar a cada ejemplo de validación al ejecutar canalizaciones de puntuación, cada fila debe corresponder a una fila en datos X e Y. Especifique este parámetro al especificar |
cv_splits_indices
Requerido
|
Índices donde dividir los datos de entrenamiento para la validación cruzada. Cada fila es un plegamiento cruzado independiente y, dentro de cada uno de ellos, se proporcionan 2 matrices de Numpy, la primera con los índices para las muestras que se usarán para los datos de entrenamiento y la segunda con los índices que se usarán para los datos de validación. Es decir, [[t1, v1], [t2, v2], ...] donde t1 son los índices de entrenamiento para el primer plegamiento cruzado y v1 son los índices de validación para el primer plegamiento cruzado. Para especificar los datos existentes como datos de validación, use |
validation_size
Requerido
|
Fracción de los datos que se va a contener para la validación cuando no se especifican los datos de validación de usuario. Debe estar entre 0,0 y 1,0 no inclusivo. Especifique Para obtener más información, consulte Configuración de las divisiones de datos y la validación cruzada en aprendizaje automático automatizado. |
n_cross_validations
Requerido
|
Número de validaciones cruzadas que se realizan cuando no se especifican los datos de validación del usuario. Especifique Para obtener más información, consulte Configuración de las divisiones de datos y la validación cruzada en aprendizaje automático automatizado. |
y_min
Requerido
|
Valor mínimo de y para un experimento de regresión. La combinación de |
y_max
Requerido
|
Valor máximo de y para un experimento de regresión. La combinación de |
num_classes
Requerido
|
Número de clases de los datos de etiqueta para un experimento de clasificación. Esta configuración está en desuso. En su lugar, este valor se calculará a partir de los datos. |
featurization
Requerido
|
Indicador 'auto' / 'off' / FeaturizationConfig para saber si el paso de caracterización debe realizarse automáticamente o no, o si se debe usar la caracterización personalizada. Nota: Si los datos de entrada son dispersos, la caracterización no se puede desactivar. El tipo de columna se detecta automáticamente. En función del tipo de columna detectado, el preprocesamiento y la caracterización se realizan de la manera siguiente:
Puede encontrar más información en el artículo Configuración de experimentos de aprendizaje automático automatizado en Python. Para personalizar el paso de caracterización, proporcione un objeto FeaturizationConfig. La caracterización personalizada actualmente admite el bloqueo de un conjunto de transformadores, la actualización de la finalidad de la columna, la edición de parámetros del transformador y la colocación de columnas. Para obtener más información, consulte Personalización de las reglas de alertas. Nota: Las características de series temporales se controlan por separado cuando el tipo de tarea se establece en previsión independiente de este parámetro. |
max_cores_per_iteration
Requerido
|
Número máximo de subprocesos que se usarán para una iteración de entrenamiento determinada. Valores aceptables:
|
max_concurrent_iterations
Requerido
|
representa el número máximo de iteraciones que se ejecutarán en paralelo. El valor predeterminado es 1.
|
iteration_timeout_minutes
Requerido
|
Tiempo máximo en minutos durante el que se puede ejecutar cada iteración antes de que finalice. Si no se especifica, se usa un valor de 1 mes o 43200 minutos. |
mem_in_mb
Requerido
|
Uso máximo de memoria para el que se puede ejecutar cada iteración antes de finalizar. Si no se especifica, se usa un valor de 1 PB 1073741824 MB. |
enforce_time_on_windows
Requerido
|
Si se debe aplicar un límite de tiempo al entrenamiento del modelo en cada iteración en Windows. El valor predeterminado es True. Si se ejecuta desde un archivo de script de Python (.py), consulte la documentación para permitir límites de recursos en Windows. |
experiment_timeout_hours
Requerido
|
Cantidad máxima de tiempo en horas que pueden tardar todas las iteraciones combinadas antes de que finalice el experimento. Puede ser un valor decimal, como 0,25, que representa 15 minutos. Si no se especifica, el tiempo de espera predeterminado del experimento es de 6 días. Para especificar un tiempo de espera menor o igual que 1 hora, asegúrese de que el tamaño del conjunto de datos no sea mayor que 10 000 000 (filas por columna) o resultados de un error. |
experiment_exit_score
Requerido
|
Puntuación de destino para el experimento. El experimento finaliza una vez que se alcanza esta puntuación. Si no se especifica (sin criterios), el experimento se ejecuta hasta que no se realiza ningún progreso adicional en la métrica principal. Para obtener más información sobre los criterios de salida, consulte este artículo. |
enable_early_stopping
Requerido
|
Marca para permitir la finalización prematura si la puntuación no mejora a corto plazo. El valor predeterminado es True. Lógica de detención temprana:
|
blocked_models
Requerido
|
list(str) o
list(Classification) <xref:for classification task> o
list(Regression) <xref:for regression task> o
list(Forecasting) <xref:for forecasting task>
Lista de algoritmos que se omitirán para un experimento. Si |
blacklist_models
Requerido
|
list(str) o
list(Classification) <xref:for classification task> o
list(Regression) <xref:for regression task> o
list(Forecasting) <xref:for forecasting task>
Parámetro en desuso, use blocked_models en su lugar. |
exclude_nan_labels
Requerido
|
Si se excluyen filas con valores NaN en la etiqueta. El valor predeterminado es True. |
verbosity
Requerido
|
Nivel de detalle para escribir en el archivo de registro. El valor predeterminado es INFO o 20. Los valores aceptables se definen en la biblioteca de registro de Python. |
enable_tf
Requerido
|
Parámetro en desuso para habilitar o deshabilitar algoritmos de Tensorflow. El valor predeterminado es False. |
model_explainability
Requerido
|
Si se habilita la explicación del mejor modelo de AutoML al final de todas las iteraciones de entrenamiento de AutoML. El valor predeterminado es True. Para más información, consulte Interpretación: capacidad de explicación de modelos de aprendizaje automático automatizado (versión preliminar). |
allowed_models
Requerido
|
list(str) o
list(Classification) <xref:for classification task> o
list(Regression) <xref:for regression task> o
list(Forecasting) <xref:for forecasting task>
Lista de nombres de modelo para buscar un experimento. Si no se especifica, se usan todos los modelos admitidos para la tarea menos los especificados en |
whitelist_models
Requerido
|
list(str) o
list(Classification) <xref:for classification task> o
list(Regression) <xref:for regression task> o
list(Forecasting) <xref:for forecasting task>
Parámetro en desuso, use allowed_models en su lugar. |
enable_onnx_compatible_models
Requerido
|
Si desea habilitar o deshabilitar la aplicación de los modelos compatibles con ONNX. El valor predeterminado es False. Para obtener más información sobre Open Neural Network Exchange (ONNX) y Azure Machine Learning, consulte este artículo. |
forecasting_parameters
Requerido
|
Objeto ForecastingParameters que contiene todos los parámetros específicos de la previsión. |
time_column_name
Requerido
|
Nombre de la columna de hora. Este parámetro es obligatorio en la previsión para especificar la columna de fecha y hora en los datos de entrada que se usa para crear la serie temporal e inferir su frecuencia. Esta configuración está en desuso. Use forecasting_parameters en su lugar. |
max_horizon
Requerido
|
Horizonte de previsión máximo deseado en unidades de frecuencia de la serie temporal. El valor predeterminado es 1. Las unidades se basan en el intervalo de tiempo de los datos de entrenamiento, p. ej., semanales, mensuales, que debe predecir el pronosticador. Cuando el tipo de tarea es previsión, se requiere este parámetro. Para más información sobre cómo establecer los parámetros de previsión, consulte Configuración de AutoML para entrenar un modelo de previsión de series temporales con Python. Esta configuración está en desuso. Use forecasting_parameters en su lugar. |
grain_column_names
Requerido
|
Nombres de las columnas que se usan para agrupar una serie temporal. Se puede usar para crear varias series. Si no se define el nivel de detalle, el conjunto de datos se presupone una serie temporal. Este parámetro se usa con la previsión del tipo de tarea. Esta configuración está en desuso. Use forecasting_parameters en su lugar. |
target_lags
Requerido
|
Número de períodos pasados para retrasar desde la columna de destino. El valor predeterminado es 1. Esta configuración está en desuso. Use forecasting_parameters en su lugar. Al pronosticar, este parámetro representa el número de filas para retrasar de los valores de destino en función de la frecuencia de los datos. Se representa como una lista o un entero único. El retardo se debe usar cuando la relación entre las variables independientes y la variable dependiente no coincide o está en correlación de forma predeterminada. Por ejemplo, al intentar pronosticar la demanda de un producto, la demanda de cualquier mes puede depender del precio de determinados artículos 3 meses antes. En este ejemplo, es posible que desee retrasar el destino (demanda) negativamente en 3 meses para que el modelo esté entrenando en la relación correcta. Para más información, consulte Configuración de AutoML para entrenar un modelo de previsión de series temporales con Python. |
feature_lags
Requerido
|
Marca para generar retrasos para las características numéricas. Esta configuración está en desuso. Use forecasting_parameters en su lugar. |
target_rolling_window_size
Requerido
|
Número de períodos pasados usados para crear un promedio de ventana gradual de la columna de destino. Esta configuración está en desuso. Use forecasting_parameters en su lugar. Al pronosticar, este parámetro representa n períodos históricos que se usarán para generar valores previstos, <= tamaño del conjunto de entrenamiento. Si se omite, n es el tamaño total del conjunto de entrenamiento. Especifique este parámetro si solo desea tener en cuenta una determinada cantidad de historial al entrenar el modelo. |
country_or_region
Requerido
|
País o región que se usa para generar características de vacaciones. Debe ser el código ISO 3166 de país o región de dos letras, por ejemplo, "US" o "GB". Esta configuración está en desuso. Use forecasting_parameters en su lugar. |
use_stl
Requerido
|
Configura la descomposición de STL de la columna de destino de la serie temporal. use_stl puede tomar tres valores: None (valor predeterminado), sin descomposición de STL, "season", solo para generar componente de temporadas y "season_trend", para generar componentes de temporada y tendencias. Esta configuración está en desuso. Use forecasting_parameters en su lugar. |
seasonality
Requerido
|
Establece la estacionalidad de la serie temporal. Si la estacionalidad se establece en "auto", se infiere. Esta configuración está en desuso. Use forecasting_parameters en su lugar. |
short_series_handling_configuration
Requerido
|
Parámetro que define si AutoML debe controlar series temporales cortas. Valores posibles: "auto" (valor predeterminado), "pad", "drop" y "None".
Fecha numeric_value string Destino 01-01-2020 23 green 55 Salida que da por sentado que el número mínimo de valores es cuatro: Fecha numeric_value string Destino 2019-12-29 0 N/D 55.1 2019-12-30 0 N/D 55.6 2019-12-31 0 N/D 54.5 01-01-2020 23 green 55 Nota: Tenemos dos parámetros short_series_handling_configuration y short_series_handling heredado. Cuando se establecen ambos parámetros, se sincronizan como se muestra en la tabla siguiente (short_series_handling_configuration y short_series_handling por motivos de brevedad se marcan como handling_configuration y handling respectivamente). Manejo handling_configuration control resultante handling_configuration resultantes True auto True auto True Almohadilla True auto True drop True auto True None False None False auto False None False Almohadilla False None False drop False None False None False None |
freq
Requerido
|
Frecuencia de pronóstico. Al pronosticar, este parámetro representa el período con el que se desea la previsión, por ejemplo, diaria, semanal, anual, etc. La frecuencia de previsión es la frecuencia del conjunto de datos de manera predeterminada. Opcionalmente, puede establecerla en un valor mayor (pero no menor) que la frecuencia del conjunto de datos. Agregaremos los datos y generaremos los resultados con la frecuencia de previsión. Por ejemplo, para los datos diarios, puede establecer la frecuencia para que sea diaria, semanal o mensual, pero no cada hora. La frecuencia debe ser un alias de desplazamiento de Pandas. Vea la documentación de Pandas para obtener más información: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects. |
target_aggregation_function
Requerido
|
Función que se usará para agregar la columna de destino de serie temporal según la frecuencia especificada por el usuario. Si target_aggregation_function está establecido, pero el parámetro freq no lo está, se produce el error. Las posibles funciones de agregación de destino son: "sum", "max", "min" y "mean". Freq target_aggregation_function Mecanismo de corrección de regularidad de datos Ninguno (predeterminado) Ninguno (predeterminado) La agregación no se aplica. Si no se puede generar la frecuencia válida, se generará el error. Algún valor Ninguno (predeterminado) La agregación no se aplica. Si el número de puntos de datos compatibles con la cuadrícula de frecuencia dada es inferior al 90 %, se quitarán estos puntos; de lo contrario, se generará el error. Ninguno (predeterminado) Función de agregación Se ha producido el error sobre los parámetros de frecuencia que faltan. Algún valor Función de agregación Agregado a frecuencia mediante la función providedaggregation. |
enable_voting_ensemble
Requerido
|
Si se habilita o deshabilita la iteración votingEnsemble. El valor predeterminado es True. Para obtener más información sobre los conjuntos, vea Configuración del conjunto. |
enable_stack_ensemble
Requerido
|
Si se habilita o deshabilita la iteración de StackEnsemble. El valor predeterminado es none. Si la marca enable_onnx_compatible_models no se establece, se deshabilitará la iteración de StackEnsemble. Del mismo modo, para las tareas de Timeseries, la iteración de StackEnsemble se deshabilitará de forma predeterminada, para evitar riesgos de sobreajuste debido a un pequeño conjunto de entrenamiento que se usa para ajustar el metaaprendizaje. Para obtener más información sobre los conjuntos, vea Configuración del conjunto. |
debug_log
Requerido
|
El archivo de registro para escribir la información de depuración. Si no se especifica, se usa "automl.log". |
training_data
Requerido
|
Datos de entrenamiento que se usarán dentro del experimento.
Debe contener características de entrenamiento y una columna de etiqueta (opcionalmente, una columna de pesos de ejemplo).
Si se especifica
|
validation_data
Requerido
|
Datos de validación que se usarán dentro del experimento.
Debe contener características de entrenamiento y una columna de etiqueta (opcionalmente, una columna de pesos de ejemplo).
Si se especifica
|
test_data
Requerido
|
La característica Prueba de modelo mediante conjuntos de datos de prueba o divisiones de datos de prueba es una característica en estado de versión preliminar y puede cambiar en cualquier momento. Los datos de prueba que se usarán para una ejecución de pruebas que se iniciarán automáticamente una vez completado el entrenamiento del modelo. La serie de pruebas calculará las predicciones con el mejor modelo y generará métricas con arreglo a estas predicciones. Si no se especifica este parámetro o el parámetro |
test_size
Requerido
|
La característica Prueba de modelo mediante conjuntos de datos de prueba o divisiones de datos de prueba es una característica en estado de versión preliminar y puede cambiar en cualquier momento. Qué fracción de los datos de entrenamiento se va a mantener para los datos de prueba de una ejecución de prueba que se iniciará automáticamente una vez completado el entrenamiento del modelo. La serie de pruebas calculará las predicciones con el mejor modelo y generará métricas con arreglo a estas predicciones. Debe estar entre 0,0 y 1,0 no inclusivo.
Si se especifica En las tareas de regresión se usa el muestreo aleatorio. Para las tareas de clasificación, se usa el muestreo estratificado. La previsión no admite actualmente la especificación de un conjunto de datos de prueba mediante una división de entrenamiento o prueba. Si no se especifica este parámetro o el parámetro |
label_column_name
Requerido
|
Nombre de la columna de etiqueta. Si los datos de entrada son de un elemento Pandas.DataFrame que no tiene nombres de columna, se pueden usar índices de columna en su lugar, expresados como enteros. Este parámetro es aplicable a los parámetros |
weight_column_name
Requerido
|
Nombre de la columna de peso de muestra. El aprendizaje automático automatizado admite una columna de peso como entrada, lo que provoca que las filas de los datos se puedan subir o bajar. Si los datos de entrada son de un elemento Pandas.DataFrame que no tiene nombres de columna, se pueden usar índices de columna en su lugar, expresados como enteros. Este parámetro es aplicable a los parámetros |
cv_split_column_names
Requerido
|
Lista de nombres de las columnas que contienen una división de validación cruzada personalizada. Cada una de las columnas de división de CV representa una división de CV donde cada fila se marca como 1 para el entrenamiento o 0 para la validación. Este parámetro es aplicable al parámetro Use Para obtener más información, consulte Configuración de las divisiones de datos y la validación cruzada en aprendizaje automático automatizado. |
enable_local_managed
Requerido
|
Parámetro deshabilitado. Las ejecuciones administradas locales no se pueden habilitar en este momento. |
enable_dnn
Requerido
|
Si se deben incluir modelos basados en DNN durante la selección del modelo. El valor predeterminado de init es None. Sin embargo, el valor predeterminado es True para las tareas NLP de DNN y es False para todas las demás tareas de AutoML. |
task
Requerido
|
Tipo de tarea que se va a ejecutar. Los valores pueden ser "clasificación", "regresión" o "previsión", dependiendo del tipo de problema de aprendizaje automático automatizado que se va a resolver. |
path
Requerido
|
Ruta de acceso completa a la carpeta del proyecto de Azure Machine Learning. Si no se especifica, el valor predeterminado es usar el directorio actual o ".". |
iterations
Requerido
|
Número total de combinaciones de algoritmos y parámetros diferentes que se probarán durante un experimento de aprendizaje automático automatizado. Si no se especifica, el valor predeterminado es 1000. |
primary_metric
Requerido
|
Métrica que Automated Machine Learning optimizará para la selección del modelo. AutoML recopila más métricas de las que puede optimizar. Puede usar para get_primary_metrics obtener una lista de métricas válidas para la tarea dada. Para obtener más información sobre cómo se calculan las métricas, vea https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric. Si no se especifica, la precisión se usa para las tareas de clasificación, la media normalizada al cuadrado se usa para las tareas de previsión y regresión, la precisión se usa para la clasificación de imágenes y la clasificación de varias etiquetas de imagen, y la precisión media se usa para la detección de objetos de imagen. |
positive_label
Requerido
|
Etiqueta de clase positiva que el aprendizaje automático automatizado utilizará para calcular las métricas binarias. Las métricas binarias se calculan en dos condiciones para las tareas de clasificación:
Para obtener más información sobre la clasificación, consulte Métricas para los escenarios de clasificación. |
compute_target
Requerido
|
El destino de proceso de Azure Machine Learning en el que ejecutar el experimento de Machine Learning automatizado. Consulte https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remote para más información sobre los destinos de proceso. |
spark_context
Requerido
|
<xref:SparkContext>
Contexto de Spark. Solo es aplicable cuando se usa en el entorno de Azure Databricks/Spark. |
X
Requerido
|
Características de entrenamiento que se usarán al ajustar canalizaciones durante un experimento. Esta configuración está en desuso. Use training_data y label_column_name en su lugar. |
y
Requerido
|
Etiquetas de entrenamiento que se usarán al ajustar canalizaciones durante un experimento. Este es el valor que predecirá el modelo. Esta configuración está en desuso. Use training_data y label_column_name en su lugar. |
sample_weight
Requerido
|
Peso que se debe dar a cada ejemplo de entrenamiento al ejecutar canalizaciones de ajuste, cada fila debe corresponder a una fila en datos X e Y. Especifique este parámetro al especificar |
X_valid
Requerido
|
Características de validación que se usan al ajustar canalizaciones durante un experimento. Si se especifica, se debe especificar también |
y_valid
Requerido
|
Etiquetas de validación que se usarán al ajustar canalizaciones durante un experimento. Tanto |
sample_weight_valid
Requerido
|
Peso que se debe dar a cada ejemplo de validación al ejecutar canalizaciones de puntuación, cada fila debe corresponder a una fila en datos X e Y. Especifique este parámetro al especificar |
cv_splits_indices
Requerido
|
Índices donde dividir los datos de entrenamiento para la validación cruzada. Cada fila es un plegamiento cruzado independiente y, dentro de cada uno de ellos, se proporcionan 2 matrices de Numpy, la primera con los índices para las muestras que se usarán para los datos de entrenamiento y la segunda con los índices que se usarán para los datos de validación. Es decir, [[t1, v1], [t2, v2], ...] donde t1 son los índices de entrenamiento para el primer plegamiento cruzado y v1 son los índices de validación para el primer plegamiento cruzado. Esta opción se admite cuando los datos se pasan como conjuntos de datos de características independientes y columna Etiqueta. Para especificar los datos existentes como datos de validación, use |
validation_size
Requerido
|
Fracción de los datos que se va a contener para la validación cuando no se especifican los datos de validación de usuario. Debe estar entre 0,0 y 1,0 no inclusivo. Especifique Para obtener más información, consulte Configuración de las divisiones de datos y la validación cruzada en aprendizaje automático automatizado. |
n_cross_validations
Requerido
|
Número de validaciones cruzadas que se realizan cuando no se especifican los datos de validación del usuario. Especifique Para obtener más información, consulte Configuración de las divisiones de datos y la validación cruzada en aprendizaje automático automatizado. |
y_min
Requerido
|
Valor mínimo de y para un experimento de regresión. La combinación de |
y_max
Requerido
|
Valor máximo de y para un experimento de regresión. La combinación de |
num_classes
Requerido
|
Número de clases de los datos de etiqueta para un experimento de clasificación. Esta configuración está en desuso. En su lugar, este valor se calculará a partir de los datos. |
featurization
Requerido
|
Indicador 'auto' / 'off' / FeaturizationConfig para saber si el paso de caracterización debe realizarse automáticamente o no, o si se debe usar la caracterización personalizada. Nota: Si los datos de entrada son dispersos, la caracterización no se puede desactivar. El tipo de columna se detecta automáticamente. En función del tipo de columna detectado, el preprocesamiento y la caracterización se realizan de la manera siguiente:
Puede encontrar más información en el artículo Configuración de experimentos de aprendizaje automático automatizado en Python. Para personalizar el paso de caracterización, proporcione un objeto FeaturizationConfig. La caracterización personalizada actualmente admite el bloqueo de un conjunto de transformadores, la actualización de la finalidad de la columna, la edición de parámetros del transformador y la colocación de columnas. Para obtener más información, consulte Personalización de las reglas de alertas. Nota: Las características de series temporales se controlan por separado cuando el tipo de tarea se establece en previsión independiente de este parámetro. |
max_cores_per_iteration
Requerido
|
Número máximo de subprocesos que se usarán para una iteración de entrenamiento determinada. Valores aceptables:
|
max_concurrent_iterations
Requerido
|
representa el número máximo de iteraciones que se ejecutarán en paralelo. El valor predeterminado es 1.
|
iteration_timeout_minutes
Requerido
|
Tiempo máximo en minutos durante el que se puede ejecutar cada iteración antes de que finalice. Si no se especifica, se usa un valor de 1 mes o 43200 minutos. |
mem_in_mb
Requerido
|
Uso máximo de memoria para el que se puede ejecutar cada iteración antes de finalizar. Si no se especifica, se usa un valor de 1 PB 1073741824 MB. |
enforce_time_on_windows
Requerido
|
Si se debe aplicar un límite de tiempo al entrenamiento del modelo en cada iteración en Windows. El valor predeterminado es True. Si se ejecuta desde un archivo de script de Python (.py), consulte la documentación para permitir límites de recursos en Windows. |
experiment_timeout_hours
Requerido
|
Cantidad máxima de tiempo en horas que pueden tardar todas las iteraciones combinadas antes de que finalice el experimento. Puede ser un valor decimal, como 0,25, que representa 15 minutos. Si no se especifica, el tiempo de espera predeterminado del experimento es de 6 días. Para especificar un tiempo de espera menor o igual que 1 hora, asegúrese de que el tamaño del conjunto de datos no sea mayor que 10 000 000 (filas por columna) o resultados de un error. |
experiment_exit_score
Requerido
|
Puntuación de destino para el experimento. El experimento finaliza una vez que se alcanza esta puntuación.
Si no se especifica (sin criterios), el experimento se ejecuta hasta que no se realiza ningún progreso adicional en la métrica principal. Para obtener más información sobre los criterios de salida, vea ">> |
enable_early_stopping
Requerido
|
Marca para permitir la finalización prematura si la puntuación no mejora a corto plazo. El valor predeterminado es True. Lógica de detención temprana:
|
blocked_models
Requerido
|
list(str) o
list(Classification) <xref:for classification task> o
list(Regression) <xref:for regression task> o
list(Forecasting) <xref:for forecasting task>
Lista de algoritmos que se omitirán para un experimento. Si |
blacklist_models
Requerido
|
list(str) o
list(Classification) <xref:for classification task> o
list(Regression) <xref:for regression task> o
list(Forecasting) <xref:for forecasting task>
Parámetro en desuso, use blocked_models en su lugar. |
exclude_nan_labels
Requerido
|
Si se excluyen filas con valores NaN en la etiqueta. El valor predeterminado es True. |
verbosity
Requerido
|
Nivel de detalle para escribir en el archivo de registro. El valor predeterminado es INFO o 20. Los valores aceptables se definen en la biblioteca de registro de Python. |
enable_tf
Requerido
|
Si se habilitan o deshabilitan los algoritmos de TensorFlow. El valor predeterminado es False. |
model_explainability
Requerido
|
Si se habilita la explicación del mejor modelo de AutoML al final de todas las iteraciones de entrenamiento de AutoML. El valor predeterminado es True. Para más información, consulte Interpretación: capacidad de explicación de modelos de aprendizaje automático automatizado (versión preliminar). |
allowed_models
Requerido
|
list(str) o
list(Classification) <xref:for classification task> o
list(Regression) <xref:for regression task> o
list(Forecasting) <xref:for forecasting task>
Lista de nombres de modelo para buscar un experimento. Si no se especifica, se usan todos los modelos admitidos para la tarea menos los especificados en |
allowed_models
Requerido
|
Lista de nombres de modelo para buscar un experimento. Si no se especifica, se usan todos los modelos admitidos para la tarea menos los especificados en |
whitelist_models
Requerido
|
Parámetro en desuso, use allowed_models en su lugar. |
enable_onnx_compatible_models
Requerido
|
Si desea habilitar o deshabilitar la aplicación de los modelos compatibles con ONNX. El valor predeterminado es False. Para obtener más información sobre Open Neural Network Exchange (ONNX) y Azure Machine Learning, consulte este artículo. |
forecasting_parameters
Requerido
|
Objeto que contiene todos los parámetros específicos de previsión. |
time_column_name
Requerido
|
Nombre de la columna de hora. Este parámetro es obligatorio en la previsión para especificar la columna de fecha y hora en los datos de entrada que se usa para crear la serie temporal e inferir su frecuencia. Esta configuración está en desuso. Use forecasting_parameters en su lugar. |
max_horizon
Requerido
|
Horizonte de previsión máximo deseado en unidades de frecuencia de la serie temporal. El valor predeterminado es 1. Esta configuración está en desuso. Use forecasting_parameters en su lugar. Las unidades se basan en el intervalo de tiempo de los datos de entrenamiento, p. ej., semanales, mensuales, que debe predecir el pronosticador. Cuando el tipo de tarea es previsión, se requiere este parámetro. Para más información sobre cómo establecer los parámetros de previsión, consulte Configuración de AutoML para entrenar un modelo de previsión de series temporales con Python. |
grain_column_names
Requerido
|
Nombres de las columnas que se usan para agrupar una serie temporal. Se puede usar para crear varias series. Si no se define el nivel de detalle, el conjunto de datos se presupone una serie temporal. Este parámetro se usa con la previsión del tipo de tarea. Esta configuración está en desuso. Use forecasting_parameters en su lugar. |
target_lags
Requerido
|
Número de períodos pasados para retrasar desde la columna de destino. El valor predeterminado es 1. Esta configuración está en desuso. Use forecasting_parameters en su lugar. Al pronosticar, este parámetro representa el número de filas para retrasar de los valores de destino en función de la frecuencia de los datos. Se representa como una lista o un entero único. El retardo se debe usar cuando la relación entre las variables independientes y la variable dependiente no coincide o está en correlación de forma predeterminada. Por ejemplo, al intentar pronosticar la demanda de un producto, la demanda de cualquier mes puede depender del precio de determinados artículos 3 meses antes. En este ejemplo, es posible que desee retrasar el destino (demanda) negativamente en 3 meses para que el modelo esté entrenando en la relación correcta. Para más información, consulte Configuración de AutoML para entrenar un modelo de previsión de series temporales con Python. |
feature_lags
Requerido
|
Marca para generar retrasos para las características numéricas. Esta configuración está en desuso. Use forecasting_parameters en su lugar. |
target_rolling_window_size
Requerido
|
Número de períodos pasados usados para crear un promedio de ventana gradual de la columna de destino. Esta configuración está en desuso. Use forecasting_parameters en su lugar. Al pronosticar, este parámetro representa n períodos históricos que se usarán para generar valores previstos, <= tamaño del conjunto de entrenamiento. Si se omite, n es el tamaño total del conjunto de entrenamiento. Especifique este parámetro si solo desea tener en cuenta una determinada cantidad de historial al entrenar el modelo. |
country_or_region
Requerido
|
País o región que se usa para generar características de vacaciones. Deben ser los códigos ISO 3166 de país o región de dos letras, por ejemplo, "US" o "GB". Esta configuración está en desuso. Use forecasting_parameters en su lugar. |
use_stl
Requerido
|
Configura la descomposición de STL de la columna de destino de la serie temporal. use_stl puede tomar tres valores: None (valor predeterminado), sin descomposición de STL, "season", solo para generar componente de temporadas y "season_trend", para generar componentes de temporada y tendencias. Esta configuración está en desuso. Use forecasting_parameters en su lugar. |
seasonality
Requerido
|
Establece la estacionalidad de la serie temporal. Si la estacionalidad se establece en -1, se infiere. Si use_stl no está establecido, no se usará este parámetro. Esta configuración está en desuso. Use forecasting_parameters en su lugar. |
short_series_handling_configuration
Requerido
|
Parámetro que define si AutoML debe controlar series temporales cortas. Valores posibles: "auto" (valor predeterminado), "pad", "drop" y "None".
Fecha numeric_value string Destino 01-01-2020 23 green 55 La salida supone que el número mínimo de valores es cuatro: +————+—————+———-+—––+ | Fecha | numeric_value | string | target | +============+===============+==========+========+ | 2019-12-29 | 0 | NA | 55.1 | +————+—————+———-+——–+ | 2019-12-30 | 0 | NA | 55.6 | +————+—————+———-+——–+ | 2019-12-31 | 0 | NA | 54.5 | +————+—————+———-+——–+ | 2020-01-01 | 23 | verde | 55 | +————+—————+———-+——–+ Nota: Tenemos dos parámetros short_series_handling_configuration y short_series_handling heredado. Cuando se establecen ambos parámetros, se sincronizan como se muestra en la tabla siguiente (short_series_handling_configuration y short_series_handling por motivos de brevedad se marcan como handling_configuration y handling respectivamente). Manejo handling_configuration control resultante handling_configuration resultante True auto True auto True Almohadilla True auto True drop True auto True None False None False auto False None False Almohadilla False None False drop False None False None False None |
freq
Requerido
|
Frecuencia de pronóstico. Al pronosticar, este parámetro representa el período con el que se desea la previsión, por ejemplo, diaria, semanal, anual, etc. La frecuencia de previsión es la frecuencia del conjunto de datos de manera predeterminada. Opcionalmente, puede establecerla en un valor mayor (pero no menor) que la frecuencia del conjunto de datos. Agregaremos los datos y generaremos los resultados con la frecuencia de previsión. Por ejemplo, para los datos diarios, puede establecer la frecuencia para que sea diaria, semanal o mensual, pero no cada hora. La frecuencia debe ser un alias de desplazamiento de Pandas. Vea la documentación de Pandas para obtener más información: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects. |
target_aggregation_function
Requerido
|
Función que se usará para agregar la columna de destino de serie temporal según la frecuencia especificada por el usuario. Si target_aggregation_function está establecido, pero el parámetro freq no lo está, se produce el error. Las posibles funciones de agregación de destino son: "sum", "max", "min" y "mean". Freq target_aggregation_function Mecanismo de corrección de regularidad de datos Ninguno (predeterminado) Ninguno (predeterminado) No se aplica la agregación. Si no se puede generar la frecuencia válida, se producirá el error. Algún valor Ninguno (predeterminado) No se aplica la agregación. Si el número de puntos de datos compatibles con la cuadrícula de frecuencia dada es menor, se quitará el 90 % de estos puntos; de lo contrario, se generará el error. Ninguno (predeterminado) Función de agregación Se ha producido el error sobre los parámetros de frecuencia que faltan. Algún valor Función de agregación Agregado a frecuencia mediante la función providedaggregation. |
enable_voting_ensemble
Requerido
|
Si se habilita o deshabilita la iteración votingEnsemble. El valor predeterminado es True. Para obtener más información sobre los conjuntos, vea Configuración del conjunto. |
enable_stack_ensemble
Requerido
|
Si se habilita o deshabilita la iteración de StackEnsemble. El valor predeterminado es none. Si la marca enable_onnx_compatible_models no se establece, se deshabilitará la iteración de StackEnsemble. Del mismo modo, para las tareas de Timeseries, la iteración de StackEnsemble se deshabilitará de forma predeterminada, para evitar riesgos de sobreajuste debido a un pequeño conjunto de entrenamiento que se usa para ajustar el metaaprendizaje. Para obtener más información sobre los conjuntos, vea Configuración del conjunto. |
debug_log
Requerido
|
El archivo de registro para escribir la información de depuración. Si no se especifica, se usa "automl.log". |
training_data
Requerido
|
Datos de entrenamiento que se usarán dentro del experimento.
Debe contener características de entrenamiento y una columna de etiqueta (opcionalmente, una columna de pesos de ejemplo).
Si se especifica
|
validation_data
Requerido
|
Datos de validación que se usarán dentro del experimento.
Debe contener características de entrenamiento y una columna de etiqueta (opcionalmente, una columna de pesos de ejemplo).
Si se especifica
|
test_data
Requerido
|
La característica Prueba de modelo mediante conjuntos de datos de prueba o divisiones de datos de prueba es una característica en estado de versión preliminar y puede cambiar en cualquier momento. Los datos de prueba que se usarán para una ejecución de pruebas que se iniciarán automáticamente una vez completado el entrenamiento del modelo. La serie de pruebas calculará las predicciones con el mejor modelo y generará métricas con arreglo a estas predicciones. Si no se especifica este parámetro o el parámetro |
test_size
Requerido
|
La característica Prueba de modelo mediante conjuntos de datos de prueba o divisiones de datos de prueba es una característica en estado de versión preliminar y puede cambiar en cualquier momento. Qué fracción de los datos de entrenamiento se va a mantener para los datos de prueba de una ejecución de prueba que se iniciará automáticamente una vez completado el entrenamiento del modelo. La serie de pruebas calculará las predicciones con el mejor modelo y generará métricas con arreglo a estas predicciones. Debe estar entre 0,0 y 1,0 no inclusivo.
Si se especifica En las tareas de regresión se usa el muestreo aleatorio. Para las tareas de clasificación, se usa el muestreo estratificado. La previsión no admite actualmente la especificación de un conjunto de datos de prueba mediante una división de entrenamiento o prueba. Si no se especifica este parámetro o el parámetro |
label_column_name
Requerido
|
Nombre de la columna de etiqueta. Si los datos de entrada son de un elemento Pandas.DataFrame que no tiene nombres de columna, se pueden usar índices de columna en su lugar, expresados como enteros. Este parámetro es aplicable a los parámetros |
weight_column_name
Requerido
|
Nombre de la columna de peso de muestra. El aprendizaje automático automatizado admite una columna de peso como entrada, lo que provoca que las filas de los datos se puedan subir o bajar. Si los datos de entrada son de un elemento Pandas.DataFrame que no tiene nombres de columna, se pueden usar índices de columna en su lugar, expresados como enteros. Este parámetro es aplicable a los parámetros |
cv_split_column_names
Requerido
|
Lista de nombres de las columnas que contienen una división de validación cruzada personalizada. Cada una de las columnas de división de CV representa una división de CV donde cada fila se marca como 1 para el entrenamiento o 0 para la validación. Este parámetro es aplicable al parámetro Use Para obtener más información, consulte Configuración de las divisiones de datos y la validación cruzada en aprendizaje automático automatizado. |
enable_local_managed
Requerido
|
Parámetro deshabilitado. Las ejecuciones administradas locales no se pueden habilitar en este momento. |
enable_dnn
Requerido
|
Si se deben incluir modelos basados en DNN durante la selección del modelo. El valor predeterminado de init es None. Sin embargo, el valor predeterminado es True para las tareas NLP de DNN y es False para todas las demás tareas de AutoML. |
Comentarios
En el código siguiente se muestra un ejemplo básico de creación de un objeto AutoMLConfig y envío de un experimento para la regresión:
automl_settings = {
"n_cross_validations": 3,
"primary_metric": 'r2_score',
"enable_early_stopping": True,
"experiment_timeout_hours": 1.0,
"max_concurrent_iterations": 4,
"max_cores_per_iteration": -1,
"verbosity": logging.INFO,
}
automl_config = AutoMLConfig(task = 'regression',
compute_target = compute_target,
training_data = train_data,
label_column_name = label,
**automl_settings
)
ws = Workspace.from_config()
experiment = Experiment(ws, "your-experiment-name")
run = experiment.submit(automl_config, show_output=True)
Hay disponible un ejemplo completo en Regresión.
En estos cuadernos se muestran ejemplos de uso de AutoMLConfig para la previsión:
Puede encontrar ejemplos de uso de AutoMLConfig para todos los tipos de tareas en estos cuadernos de aprendizaje automático automatizado.
Para obtener información sobre el aprendizaje automático automatizado, consulte los artículos:
Configuración de experimentos de aprendizaje automático automatizado en Python En este artículo, hay información sobre los distintos algoritmos y métricas principales que se usan para cada tipo de tarea.
Entrenamiento automático de un modelo de previsión de series temporales En este artículo, hay información sobre qué parámetros de constructor y
**kwargs
se usan en la previsión.
Para obtener más información sobre las distintas opciones para configurar las divisiones de datos de entrenamiento/validación y la validación cruzada para el aprendizaje automático automatizado, AutoML y experimentos, consulte Configuración de las divisiones de datos y la validación cruzada en aprendizaje automático automatizado.
Métodos
as_serializable_dict |
Convierta el objeto en diccionario. |
get_supported_dataset_languages |
Obtenga los idiomas admitidos y sus códigos de idioma correspondientes en ISO 639-3. |
as_serializable_dict
Convierta el objeto en diccionario.
as_serializable_dict() -> Dict[str, Any]
get_supported_dataset_languages
Obtenga los idiomas admitidos y sus códigos de idioma correspondientes en ISO 639-3.
get_supported_dataset_languages(use_gpu: bool) -> Dict[Any, Any]
Parámetros
Nombre | Description |
---|---|
cls
Requerido
|
Objeto de clase de AutoMLConfig. |
use_gpu
Requerido
|
Valor booleano que indica si se usa o no el proceso de GPU. |
Devoluciones
Tipo | Description |
---|---|
Diccionario de formato {: }. El código de idioma cumple con el estándar ISO 639-3; consulte https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes |