Compartir vía


Referencia de API Python de AutoML

En este artículo se describe la API de Python de AutoML, que proporciona métodos para iniciar la clasificación, la regresión y la previsión de ejecuciones de AutoML. Cada llamada de método entrena un conjunto de modelos y genera un cuaderno de prueba para cada modelo.

Para más información sobre AutoML, incluida una opción de interfaz de usuario con poco código, consulte ¿Qué es AutoML?

Clasificar

El método databricks.automl.classify configura una ejecución de AutoML para entrenar un modelo de clasificación.

Nota:

El parámetro max_trials está en desuso en Databricks Runtime 10.4 ML y no es compatible con Databricks Runtime 11.0 ML y versiones posteriores. Use timeout_minutes para controlar la duración de una ejecución de AutoML.

databricks.automl.classify(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "f1",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  pos_label: Optional[Union[int, bool, str]] = None,                 # <DBR> 11.1 ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None                           # <DBR> 15.4 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Clasificación de parámetros

Nombre de parámetro Type Descripción
dataset str, pandas.DataFrame, , pyspark.DataFrame, pyspark.sql.DataFrame Nombre de tabla de entrada o DataFrame que contiene características de entrenamiento y destino. El nombre de la tabla puede tener el formato "<nombreBaseDeDatos>.<>nombreTabla" o "<nombreEsquema>.<>nombreTabla" para tablas que no son de Unity Catalog.
target_col str Nombre de columna de la etiqueta de destino.
primary_metric str Métrica usada para evaluar y clasificar el rendimiento del modelo.

Métricas admitidas para la regresión: "r2" (valor predeterminado), "mae", "rmse", "mse"

Métricas admitidas para la clasificación: "f1" (valor predeterminado), "log_loss", "precision", "accuracy", "roc_auc"
data_dir str de formato dbfs:/<folder-name> Opcional. Ruta de acceso de DBFS que se usa para almacenar el conjunto de datos de entrenamiento. Esta ruta de acceso es visible para los nodos de controlador y de trabajo.

Databricks recomienda dejar este campo vacío, por lo que AutoML puede guardar el conjunto de datos de entrenamiento como un artefacto de MLflow.

Si se especifica una ruta de acceso personalizada, el conjunto de datos no hereda los permisos de acceso del experimento de AutoML.
experiment_dir str Opcional. Ruta de acceso al directorio del área de trabajo para guardar los cuadernos y experimentos generados.

Opción predeterminada: /Users/<username>/databricks_automl/
experiment_name str Opcional. Nombre del experimento de MLflow que crea AutoML.

Valor predeterminado: el nombre se genera automáticamente.
exclude_cols List[str] Opcional. Lista de columnas que se omitirán durante los cálculos de AutoML.

Default: []
exclude_frameworks List[str] Opcional. Lista de marcos de algoritmos que AutoML no debe tener en cuenta cuando desarrolla modelos. Valores posibles: lista vacía, o uno o varios entre "sklearn", "lightgbm", o "xgboost".

Valor predeterminado: [] (se tienen en cuenta todos los marcos)
feature_store_lookups List[Dict] Opcional. Lista de diccionarios que representan características del Almacén de características para el aumento de datos. Las claves válidas de cada diccionario son:

- table_name (str): obligatorio. Nombre de la tabla de características.
- lookup_key (list o str): obligatorio. Nombres de columna que se usarán como clave al unir la tabla de características con los datos pasados en el parámetro dataset. El orden de los nombres de columna debe coincidir con el orden de las claves principales de la tabla de características.
- timestamp_lookup_key (str): se requiere si la tabla especificada es una tabla de características de serie temporal. Nombre de columna que se va a usar al realizar una búsqueda a un momento dado en la tabla de características con los datos pasados en el parámetro dataset.

Default: []
imputers Dict[str, Union[str, Dict[str, Any]]] Opcional. Diccionario en el que cada clave es un nombre de columna y cada valor es una cadena o diccionario que describe la estrategia de imputación. Si se especifica como una cadena, el valor debe ser "mean", "median" o "most_frequent". Para imputar con un valor conocido, especifique el valor como un {"strategy": "constant", "fill_value": <desired value>} de diccionario. También puede especificar opciones de cadena como diccionarios, por ejemplo {"strategy": "mean"}.

Si no se proporciona ninguna estrategia de imputación para una columna, AutoML selecciona una estrategia predeterminada basada en el tipo de columna y el contenido. Si elige un método de imputación distinto del predeterminado, AutoML no realiza la detección de tipos semánticos.

Opción predeterminada: {}
pos_label Union[int, bool, str] (Solo clasificación) La clase positiva. Esto es útil para calcular métricas como la precisión y la coincidencia. Solo se debe especificar para problemas de clasificación binaria.
time_col str Disponible en Databricks Runtime 10.1 ML y versiones posteriores.

Opcional. Nombre de columna de una columna de tiempo.

Si se proporciona, AutoML intenta dividir el conjunto de datos en entrenamiento, validación y conjuntos de prueba cronológicamente, usando los puntos más antiguos como datos de entrenamiento y los puntos más recientes como conjunto de pruebas.

Los tipos de columna aceptados son el de marca de tiempo y el entero. Con Databricks Runtime 10.2 ML y posteriores, también se admiten columnas de cadena.

Si el tipo de columna es el de cadena, AutoML intenta convertirlo en el de marca de tiempo mediante la detección semántica. Si se produce un error en la conversión, se produce un error en la ejecución de AutoML.
split_col str Opcional. Nombre de columna de una columna dividida. Solo está disponible en Databricks Runtime 15.3 ML y versiones posteriores para flujos de trabajo de API. Si se proporciona, AutoML intenta dividir los conjuntos de entrenamiento, validación y prueba por valores especificados por el usuario, y esta columna se excluye automáticamente de las características de entrenamiento.

El tipo de columna aceptado es de cadena. El valor de cada entrada de esta columna debe ser uno de los siguientes: "train", "validate" o "test”.
sample_weight_col str Disponible en Databricks Runtime 15.4 ML y versiones posteriores para flujos de trabajo de API de clasificación.

Opcional. Nombre de columna del conjunto de datos que contiene los pesos de ejemplo de cada fila. La clasificación admite pesos de muestra por clase. Estos pesos ajustan la importancia de cada clase durante el entrenamiento del modelo. Cada muestra dentro de una clase debe tener el mismo peso de muestra y los pesos deben ser valores decimales o enteros no negativos, que van de 0 a 10 000. Las clases con pesos de muestra más altos se consideran más importantes y tienen una mayor influencia en el algoritmo de aprendizaje. Si no se especifica esta columna, se supone que todas las clases tienen el mismo peso.
max_trials int Opcional. Número máximo de pruebas que se ejecutan. Este parámetro está disponible en Databricks Runtime 10.5 ML y versiones anteriores, pero está en desuso a partir de Databricks Runtime 10.3 ML. En Databricks Runtime 11.0 ML y versiones posteriores, este parámetro no es compatible.

Valor predeterminado: 20

Si timeout_minutes=None, AutoML ejecuta el número máximo de pruebas.
timeout_minutes int Opcional. Tiempo máximo para esperar a que se completen las pruebas de AutoML. Los tiempos de espera más largos permiten que AutoML ejecute más pruebas e identifique un modelo con mayor precisión.

Predeterminado: 120 minutos

Valor mínimo: 5 minutos

Se notifica un error si el tiempo de espera es demasiado corto como para permitir que se complete, al menos, una prueba.

Retroceder

El método databricks.automl.regress configura una ejecución de AutoML para entrenar un modelo de regresión. Este método devuelve un AutoMLSummary.

Nota:

El parámetro max_trials está en desuso en Databricks Runtime 10.4 ML y no es compatible con Databricks Runtime 11.0 ML y versiones posteriores. Use timeout_minutes para controlar la duración de una ejecución de AutoML.

databricks.automl.regress(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "r2",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None,                          # <DBR> 15.3 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Parámetros de regresión

Nombre de parámetro Type Descripción
dataset str, pandas.DataFrame, , pyspark.DataFrame, pyspark.sql.DataFrame Nombre de tabla de entrada o DataFrame que contiene características de entrenamiento y destino. El nombre de la tabla puede tener el formato "<nombreBaseDeDatos>.<>nombreTabla" o "<nombreEsquema>.<>nombreTabla" para tablas que no son de Unity Catalog.
target_col str Nombre de columna de la etiqueta de destino.
primary_metric str Métrica usada para evaluar y clasificar el rendimiento del modelo.

Métricas admitidas para la regresión: "r2" (valor predeterminado), "mae", "rmse", "mse"

Métricas admitidas para la clasificación: "f1" (valor predeterminado), "log_loss", "precision", "accuracy", "roc_auc"
data_dir str de formato dbfs:/<folder-name> Opcional. Ruta de acceso de DBFS que se usa para almacenar el conjunto de datos de entrenamiento. Esta ruta de acceso es visible para los nodos de controlador y de trabajo.

Databricks recomienda dejar este campo vacío, por lo que AutoML puede guardar el conjunto de datos de entrenamiento como un artefacto de MLflow.

Si se especifica una ruta de acceso personalizada, el conjunto de datos no hereda los permisos de acceso del experimento de AutoML.
experiment_dir str Opcional. Ruta de acceso al directorio del área de trabajo para guardar los cuadernos y experimentos generados.

Opción predeterminada: /Users/<username>/databricks_automl/
experiment_name str Opcional. Nombre del experimento de MLflow que crea AutoML.

Valor predeterminado: el nombre se genera automáticamente.
exclude_cols List[str] Opcional. Lista de columnas que se omitirán durante los cálculos de AutoML.

Default: []
exclude_frameworks List[str] Opcional. Lista de marcos de algoritmos que AutoML no debe tener en cuenta cuando desarrolla modelos. Valores posibles: lista vacía, o uno o varios entre "sklearn", "lightgbm", o "xgboost".

Valor predeterminado: [] (se tienen en cuenta todos los marcos)
feature_store_lookups List[Dict] Opcional. Lista de diccionarios que representan características del Almacén de características para el aumento de datos. Las claves válidas de cada diccionario son:

- table_name (str): obligatorio. Nombre de la tabla de características.
- lookup_key (list o str): obligatorio. Nombres de columna que se usarán como clave al unir la tabla de características con los datos pasados en el parámetro dataset. El orden de los nombres de columna debe coincidir con el orden de las claves principales de la tabla de características.
- timestamp_lookup_key (str): se requiere si la tabla especificada es una tabla de características de serie temporal. Nombre de columna que se va a usar al realizar una búsqueda a un momento dado en la tabla de características con los datos pasados en el parámetro dataset.

Default: []
imputers Dict[str, Union[str, Dict[str, Any]]] Opcional. Diccionario en el que cada clave es un nombre de columna y cada valor es una cadena o diccionario que describe la estrategia de imputación. Si se especifica como una cadena, el valor debe ser "mean", "median" o "most_frequent". Para imputar con un valor conocido, especifique el valor como un {"strategy": "constant", "fill_value": <desired value>} de diccionario. También puede especificar opciones de cadena como diccionarios, por ejemplo {"strategy": "mean"}.

Si no se proporciona ninguna estrategia de imputación para una columna, AutoML selecciona una estrategia predeterminada basada en el tipo de columna y el contenido. Si elige un método de imputación distinto del predeterminado, AutoML no realiza la detección de tipos semánticos.

Opción predeterminada: {}
time_col str Disponible en Databricks Runtime 10.1 ML y versiones posteriores.

Opcional. Nombre de columna de una columna de tiempo.

Si se proporciona, AutoML intenta dividir el conjunto de datos en entrenamiento, validación y conjuntos de prueba cronológicamente, usando los puntos más antiguos como datos de entrenamiento y los puntos más recientes como conjunto de pruebas.

Los tipos de columna aceptados son el de marca de tiempo y el entero. Con Databricks Runtime 10.2 ML y posteriores, también se admiten columnas de cadena.

Si el tipo de columna es el de cadena, AutoML intenta convertirlo en el de marca de tiempo mediante la detección semántica. Si se produce un error en la conversión, se produce un error en la ejecución de AutoML.
split_col str Opcional. Nombre de columna de una columna dividida. Solo está disponible en Databricks Runtime 15.3 ML y versiones posteriores para flujos de trabajo de API. Si se proporciona, AutoML intenta dividir los conjuntos de entrenamiento, validación y prueba por valores especificados por el usuario, y esta columna se excluye automáticamente de las características de entrenamiento.

El tipo de columna aceptado es de cadena. El valor de cada entrada de esta columna debe ser uno de los siguientes: "train", "validate" o "test”.
sample_weight_col str Está disponible en Databricks Runtime 15.3 ML y versiones posteriores para flujos de trabajo de API de regresión.

Opcional. Nombre de columna del conjunto de datos que contiene los pesos de ejemplo de cada fila. Estos pesos ajustan la importancia de cada fila durante el entrenamiento del modelo. Los pesos deben ser valores decimales o enteros no negativos, que van de 0 a 10 000. Las filas con pesos de muestra más altos se consideran más importantes y tienen una mayor influencia en el algoritmo de aprendizaje. Si no se especifica esta columna, se supone que todas las filas tienen el mismo peso.
max_trials int Opcional. Número máximo de pruebas que se ejecutan. Este parámetro está disponible en Databricks Runtime 10.5 ML y versiones anteriores, pero está en desuso a partir de Databricks Runtime 10.3 ML. En Databricks Runtime 11.0 ML y versiones posteriores, este parámetro no es compatible.

Valor predeterminado: 20

Si timeout_minutes=None, AutoML ejecuta el número máximo de pruebas.
timeout_minutes int Opcional. Tiempo máximo para esperar a que se completen las pruebas de AutoML. Los tiempos de espera más largos permiten que AutoML ejecute más pruebas e identifique un modelo con mayor precisión.

Predeterminado: 120 minutos

Valor mínimo: 5 minutos

Se notifica un error si el tiempo de espera es demasiado corto como para permitir que se complete, al menos, una prueba.

Forecast

El método databricks.automl.forecast configura una ejecución de AutoML para entrenar un modelo de previsión. Este método devuelve un AutoMLSummary. Para usar Auto-ARIMA, la serie temporal debe tener una frecuencia regular (es decir, el intervalo entre dos puntos cualquiera debe ser el mismo a lo largo de la serie temporal). La frecuencia debe coincidir con la unidad de frecuencia especificada en la llamada API. AutoML controla los pasos de tiempo que faltan, rellenando esos valores con el valor anterior.

databricks.automl.forecast(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  time_col: str,
  primary_metric: str = "smape",
  country_code: str = "US",                                         # <DBR> 12.0 ML and above
  frequency: str = "D",
  horizon: int = 1,
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_frameworks: Optional[List[str]] = None,
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 12.2 LTS ML and above
  identity_col: Optional[Union[str, List[str]]] = None,
  sample_weight_col: Optional[str] = None,                          # <DBR> 16.0 ML and above
  output_database: Optional[str] = None,                            # <DBR> 10.5 ML and above
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Parámetros de previsión

Nombre de parámetro Type Descripción
dataset str, pandas.DataFrame, , pyspark.DataFrame, pyspark.sql.DataFrame Nombre de tabla de entrada o DataFrame que contiene características de entrenamiento y destino.

El nombre de la tabla puede tener el formato ".." o "." para tablas que no son de Unity Catalog
target_col str Nombre de columna de la etiqueta de destino.
time_col str Nombre de la columna de tiempo para la previsión.
primary_metric str Métrica usada para evaluar y clasificar el rendimiento del modelo.

Métricas admitidas: "smape" (valor predeterminado) "mse", "rmse", "mae" o "mdape".
country_code str Disponible en Databricks Runtime 12.0 ML y versiones posteriores. Solo es compatible con el modelo de previsión Prophet.

Opcional. Código de país de dos letras que indica los días festivos del país que debe usar el modelo de previsión. Para pasar por alto los días festivos, establezca este parámetro en una cadena vacía ("").

Países admitidos.

Valor predeterminado: EE. UU. (Días festivos de Estados Unidos).
frequency str Frecuencia de la serie temporal para la previsión. Este es el período con el que se espera que se produzcan eventos. El valor predeterminado es "D" o datos diarios. Asegúrese de cambiar la configuración si los datos tienen una frecuencia diferente.

Valores posibles:

"W" ("weeks" = semanas)

"D" / "days" / "day" (día/s)

"hours" / "hour" / "hr" / "h" (hora/s)

"m" / "minute" / "min" / "minutes" / "T" (minuto/s)

"S" / "seconds" / "sec" / "second" (segundo/s)

Los siguientes solo están disponibles con Databricks Runtime 12.0 ML y versiones posteriores:

“M” / “mes” / “meses”

“Q” / “trimestre” / “trimestres”

“Y” / “año” / “años”

Valor predeterminado: "D"
horizon int Número de períodos en el futuro para los que se deben devolver las previsiones.

Las unidades son la frecuencia de la serie temporal.

Valor predeterminado: 1
data_dir str de formato dbfs:/<folder-name> Opcional. Ruta de acceso de DBFS que se usa para almacenar el conjunto de datos de entrenamiento. Esta ruta de acceso es visible para los nodos de controlador y de trabajo.

Databricks recomienda dejar este campo vacío, por lo que AutoML puede guardar el conjunto de datos de entrenamiento como un artefacto de MLflow.

Si se especifica una ruta de acceso personalizada, el conjunto de datos no hereda los permisos de acceso del experimento de AutoML.
experiment_dir str Opcional. Ruta de acceso al directorio del área de trabajo para guardar los cuadernos y experimentos generados.

Opción predeterminada: /Users/<username>/databricks_automl/
experiment_name str Opcional. Nombre del experimento de MLflow que crea AutoML.

Valor predeterminado: el nombre se genera automáticamente.
exclude_frameworks List[str] Opcional. Lista de marcos de algoritmos que AutoML no debe tener en cuenta cuando desarrolla modelos. Valores posibles: lista vacía, o uno o varios entre "prophet" o "arima".

Valor predeterminado: [] (se tienen en cuenta todos los marcos)
feature_store_lookups List[Dict] Opcional. Lista de diccionarios que representan características del Almacén de características para el aumento de datos covariables. Las claves válidas de cada diccionario son:

- table_name (str): obligatorio. Nombre de la tabla de características.
- lookup_key (list o str): obligatorio. Nombres de columna que se usarán como clave al unir la tabla de características con los datos pasados en el parámetro dataset. El orden de los nombres de columna debe coincidir con el orden de las claves principales de la tabla de características.
- timestamp_lookup_key (str): se requiere si la tabla especificada es una tabla de características de serie temporal. Nombre de columna que se va a usar al realizar una búsqueda a un momento dado en la tabla de características con los datos pasados en el parámetro dataset.

Default: []
identity_col Union[str, list] Opcional. Columnas que identifican la serie temporal para la previsión de varias series. AutoML agrupa por esta/s columna/s y la columna de tiempo para la previsión.
sample_weight_col str Disponible en Databricks Runtime 16.0 ML y versiones posteriores. Solo para flujos de trabajo de serie temporal múltiple.

Opcional. Especifica la columna del conjunto de datos que contiene pesos de ejemplo. Estas ponderaciones indican la importancia relativa de cada serie temporal durante el entrenamiento y la evaluación del modelo.

Las series temporales con pesos más altos tienen una mayor influencia en el modelo. Si no se proporciona, todas las series temporales se tratan con el mismo peso.

Todas las filas que pertenecen a la misma serie temporal deben tener el mismo peso.

Los pesos deben ser valores no negativos, decimales o enteros, y tener entre 0 y 10 000.
output_database str Opcional. Si se proporciona, AutoML guarda las predicciones del mejor modelo en una nueva tabla de la base de datos especificada.

Valor predeterminado: las predicciones no se guardan.
timeout_minutes int Opcional. Tiempo máximo para esperar a que se completen las pruebas de AutoML. Los tiempos de espera más largos permiten que AutoML ejecute más pruebas e identifique un modelo con mayor precisión.

Predeterminado: 120 minutos

Valor mínimo: 5 minutos

Se notifica un error si el tiempo de espera es demasiado corto como para permitir que se complete, al menos, una prueba.

Importar cuaderno

El método databricks.automl.import_notebook importa un cuaderno que se ha guardado como un artefacto de MLflow. Este método devuelve importNotebookResult.

databricks.automl.import_notebook(
  artifact_uri: str,
  path: str,
  overwrite: bool = False
) -> ImportNotebookResult:
Parámetros Type Descripción
artifact_uri str Identificador URI del artefacto de MLflow que contiene el cuaderno de prueba.
path str Ruta de acceso del área de trabajo de Databricks en el que se debe importar el cuaderno. Debe ser una ruta de acceso absoluta. Si el directorio no existe, se creará.
overwrite bool Si se va a sobrescribir el cuaderno si ya existe. De forma predeterminada, su valor es False.

Ejemplo de importación de cuaderno

summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)

AutoMLSummary

Objeto de resumen de una ejecución de AutoML, que describe las métricas, los parámetros y otros detalles de cada una de las pruebas. También se usa este objeto para cargar el modelo entrenado por una prueba específica.

Propiedad Type Descripción
experiment mlflow.entities.Experiment El experimento de MLflow usado para registrar las pruebas.
trials List[TrialInfo] Una lista de objetos TrialInfo que contiene información sobre todas las pruebas que se ejecutaron.
best_trial TrialInfo Objeto TrialInfo que contiene información sobre la prueba que dio lugar a la mejor puntuación ponderada de la métrica principal.
metric_distribution str La distribución de puntuaciones ponderadas, para la métrica principal, en todas las pruebas.
output_table_name str Se usa solo con la previsión y solo si se proporciona output_database.

Nombre de la tabla en output_database que contiene las predicciones del modelo.

TrialInfo

Objeto de resumen para cada prueba individual.

Propiedad Type Descripción
notebook_path Optional[str] La ruta de acceso al cuaderno generado, para esta prueba, en el área de trabajo.

Para la clasificación y la regresión, este valor solo se establece para la mejor prueba, mientras que las demás pruebas tienen el valor establecido en None.

Para la previsión, este valor está presente para todas las pruebas.
notebook_url Optional[str] La URL del cuaderno generado para esta prueba.

Para la clasificación y la regresión, este valor solo se establece para la mejor prueba, mientras que las demás pruebas tienen el valor establecido en None.

Para la previsión, este valor está presente para todas las pruebas.
artifact_uri Optional[str] Identificador URI del artefacto de MLflow para el cuaderno generado.
mlflow_run_id str El Id. de ejecución de MLflow asociado a esta ejecución de prueba.
metrics Dict[str, float] Las métricas registradas en MLflow para esta prueba.
params Dict[str, str] Los parámetros registrados en MLflow que se usaron para esta prueba.
model_path str La URL del artefacto de MLflow del modelo entrenado en esta prueba.
model_description str Breve descripción del modelo y los hiperparámetros usados para entrenar este modelo.
duration str Duración del entrenamiento en minutos.
preprocessors str Descripción de los preprocesadores que se ejecutan antes de entrenar el modelo.
evaluation_metric_score float Puntuación de la métrica principal, evaluada para el conjunto de datos de validación.

TrialInfo tiene un método para cargar el modelo generado para la prueba.

Method Descripción
load_model() Cargue el modelo generado en esta prueba, registrado como un artefacto de MLflow.

ImportNotebookResult

Propiedad Type Descripción
path str Ruta de acceso del área de trabajo de Databricks en el que se debe importar el cuaderno. Debe ser una ruta de acceso absoluta. Si el directorio no existe, se creará.
url str Identificador URI del artefacto de MLflow que contiene el cuaderno de prueba.