Referencia de api de Python de Mosaic AutoML
En este artículo se describe la API de Python de Mosaic AutoML, que proporciona métodos para iniciar la clasificación, la regresión y la previsión de ejecuciones de AutoML. Cada llamada de método entrena un conjunto de modelos y genera un cuaderno de prueba para cada modelo.
Para obtener más información sobre Mosaic AutoML, incluida una opción de interfaz de usuario de poco código, consulte ¿Qué es Mosaic AutoML?.
Clasificar
El databricks.automl.classify
método configura una ejecución de AutoML de Mosaico para entrenar un modelo de clasificación.
Nota:
El parámetro max_trials
está en desuso en Databricks Runtime 10.4 ML y no es compatible con Databricks Runtime 11.0 ML y versiones posteriores. Use timeout_minutes
para controlar la duración de una ejecución de AutoML.
databricks.automl.classify(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
primary_metric: str = "f1",
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
pos_label: Optional[Union[int, bool, str]] = None, # <DBR> 11.1 ML and above
time_col: Optional[str] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None # <DBR> 15.4 ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Clasificación de parámetros
Nombre de parámetro | Type | Descripción |
---|---|---|
dataset |
str , pandas.DataFrame , , pyspark.DataFrame , pyspark.sql.DataFrame |
Nombre de tabla de entrada o DataFrame que contiene características de entrenamiento y destino. El nombre de la tabla puede tener el formato "<nombreBaseDeDatos>.<>nombreTabla" o "<nombreEsquema>.<>nombreTabla" para tablas que no son de Unity Catalog. |
target_col |
str |
Nombre de columna de la etiqueta de destino. |
primary_metric |
str |
Métrica usada para evaluar y clasificar el rendimiento del modelo. Métricas admitidas para la regresión: "r2" (valor predeterminado), "mae", "rmse", "mse" Métricas admitidas para la clasificación: "f1" (valor predeterminado), "log_loss", "precision", "accuracy", "roc_auc" |
data_dir |
str de formato dbfs:/<folder-name> |
Opcional. Ruta de acceso de DBFS que se usa para almacenar el conjunto de datos de entrenamiento. Esta ruta de acceso es visible para los nodos de controlador y de trabajo. Databricks recomienda dejar este campo vacío, por lo que AutoML puede guardar el conjunto de datos de entrenamiento como un artefacto de MLflow. Si se especifica una ruta de acceso personalizada, el conjunto de datos no hereda los permisos de acceso del experimento de AutoML. |
experiment_dir |
str |
Opcional. Ruta de acceso al directorio del área de trabajo para guardar los cuadernos y experimentos generados. Opción predeterminada: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Opcional. Nombre del experimento de MLflow que crea AutoML. Valor predeterminado: el nombre se genera automáticamente. |
exclude_cols |
List[str] |
Opcional. Lista de columnas que se omitirán durante los cálculos de AutoML. Default: [] |
exclude_frameworks |
List[str] |
Opcional. Lista de marcos de algoritmos que AutoML no debe tener en cuenta cuando desarrolla modelos. Valores posibles: lista vacía, o uno o varios entre "sklearn", "lightgbm", o "xgboost". Valor predeterminado: [] (se tienen en cuenta todos los marcos) |
feature_store_lookups |
List[Dict] |
Opcional. Lista de diccionarios que representan características del Almacén de características para el aumento de datos. Las claves válidas de cada diccionario son: - table_name (str): obligatorio. Nombre de la tabla de características.- lookup_key (list o str): obligatorio. Nombres de columna que se usarán como clave al unir la tabla de características con los datos pasados en el parámetro dataset . El orden de los nombres de columna debe coincidir con el orden de las claves principales de la tabla de características.- timestamp_lookup_key (str): se requiere si la tabla especificada es una tabla de características de serie temporal. Nombre de columna que se va a usar al realizar una búsqueda a un momento dado en la tabla de características con los datos pasados en el parámetro dataset .Default: [] |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
Opcional. Diccionario en el que cada clave es un nombre de columna y cada valor es una cadena o diccionario que describe la estrategia de imputación. Si se especifica como una cadena, el valor debe ser "mean", "median" o "most_frequent". Para imputar con un valor conocido, especifique el valor como un {"strategy": "constant", "fill_value": <desired value>} de diccionario. También puede especificar opciones de cadena como diccionarios, por ejemplo {"strategy": "mean"} .Si no se proporciona ninguna estrategia de imputación para una columna, AutoML selecciona una estrategia predeterminada basada en el tipo de columna y el contenido. Si elige un método de imputación distinto del predeterminado, AutoML no realiza la detección de tipos semánticos. Opción predeterminada: {} |
pos_label |
Union[int, bool, str] |
(Solo clasificación) La clase positiva. Esto es útil para calcular métricas como la precisión y la coincidencia. Solo se debe especificar para problemas de clasificación binaria. |
time_col |
str |
Disponible en Databricks Runtime 10.1 ML y versiones posteriores. Opcional. Nombre de columna de una columna de tiempo. Si se proporciona, AutoML intenta dividir el conjunto de datos en entrenamiento, validación y conjuntos de prueba cronológicamente, usando los puntos más antiguos como datos de entrenamiento y los puntos más recientes como conjunto de pruebas. Los tipos de columna aceptados son el de marca de tiempo y el entero. Con Databricks Runtime 10.2 ML y posteriores, también se admiten columnas de cadena. Si el tipo de columna es el de cadena, AutoML intenta convertirlo en el de marca de tiempo mediante la detección semántica. Si se produce un error en la conversión, se produce un error en la ejecución de AutoML. |
split_col |
str |
Opcional. Nombre de columna de una columna dividida. Solo está disponible en Databricks Runtime 15.3 ML y versiones posteriores para flujos de trabajo de API. Si se proporciona, AutoML intenta dividir los conjuntos de entrenamiento, validación y prueba por valores especificados por el usuario, y esta columna se excluye automáticamente de las características de entrenamiento. El tipo de columna aceptado es de cadena. El valor de cada entrada de esta columna debe ser uno de los siguientes: "train", "validate" o "test”. |
sample_weight_col |
str |
Disponible en Databricks Runtime 15.4 ML y versiones posteriores para flujos de trabajo de API de clasificación. Opcional. Nombre de columna del conjunto de datos que contiene los pesos de ejemplo de cada fila. La clasificación admite pesos de muestra por clase. Estos pesos ajustan la importancia de cada clase durante el entrenamiento del modelo. Cada muestra dentro de una clase debe tener el mismo peso de muestra y los pesos deben ser valores decimales o enteros no negativos, que van de 0 a 10 000. Las clases con pesos de muestra más altos se consideran más importantes y tienen una mayor influencia en el algoritmo de aprendizaje. Si no se especifica esta columna, se supone que todas las clases tienen el mismo peso. |
max_trials |
int |
Opcional. Número máximo de pruebas que se ejecutan. Este parámetro está disponible en Databricks Runtime 10.5 ML y versiones anteriores, pero está en desuso a partir de Databricks Runtime 10.3 ML. En Databricks Runtime 11.0 ML y versiones posteriores, este parámetro no es compatible. Valor predeterminado: 20 Si timeout_minutes=None, AutoML ejecuta el número máximo de pruebas. |
timeout_minutes |
int |
Opcional. Tiempo máximo para esperar a que se completen las pruebas de AutoML. Los tiempos de espera más largos permiten que AutoML ejecute más pruebas e identifique un modelo con mayor precisión. Predeterminado: 120 minutos Valor mínimo: 5 minutos Se notifica un error si el tiempo de espera es demasiado corto como para permitir que se complete, al menos, una prueba. |
Retroceder
El método databricks.automl.regress
configura una ejecución de AutoML para entrenar un modelo de regresión. Este método devuelve un AutoMLSummary.
Nota:
El parámetro max_trials
está en desuso en Databricks Runtime 10.4 ML y no es compatible con Databricks Runtime 11.0 ML y versiones posteriores. Use timeout_minutes
para controlar la duración de una ejecución de AutoML.
databricks.automl.regress(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
primary_metric: str = "r2",
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
time_col: Optional[str] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None, # <DBR> 15.3 ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Parámetros de regresión
Nombre de parámetro | Type | Descripción |
---|---|---|
dataset |
str , pandas.DataFrame , , pyspark.DataFrame , pyspark.sql.DataFrame |
Nombre de tabla de entrada o DataFrame que contiene características de entrenamiento y destino. El nombre de la tabla puede tener el formato "<nombreBaseDeDatos>.<>nombreTabla" o "<nombreEsquema>.<>nombreTabla" para tablas que no son de Unity Catalog. |
target_col |
str |
Nombre de columna de la etiqueta de destino. |
primary_metric |
str |
Métrica usada para evaluar y clasificar el rendimiento del modelo. Métricas admitidas para la regresión: "r2" (valor predeterminado), "mae", "rmse", "mse" Métricas admitidas para la clasificación: "f1" (valor predeterminado), "log_loss", "precision", "accuracy", "roc_auc" |
data_dir |
str de formato dbfs:/<folder-name> |
Opcional. Ruta de acceso de DBFS que se usa para almacenar el conjunto de datos de entrenamiento. Esta ruta de acceso es visible para los nodos de controlador y de trabajo. Databricks recomienda dejar este campo vacío, por lo que AutoML puede guardar el conjunto de datos de entrenamiento como un artefacto de MLflow. Si se especifica una ruta de acceso personalizada, el conjunto de datos no hereda los permisos de acceso del experimento de AutoML. |
experiment_dir |
str |
Opcional. Ruta de acceso al directorio del área de trabajo para guardar los cuadernos y experimentos generados. Opción predeterminada: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Opcional. Nombre del experimento de MLflow que crea AutoML. Valor predeterminado: el nombre se genera automáticamente. |
exclude_cols |
List[str] |
Opcional. Lista de columnas que se omitirán durante los cálculos de AutoML. Default: [] |
exclude_frameworks |
List[str] |
Opcional. Lista de marcos de algoritmos que AutoML no debe tener en cuenta cuando desarrolla modelos. Valores posibles: lista vacía, o uno o varios entre "sklearn", "lightgbm", o "xgboost". Valor predeterminado: [] (se tienen en cuenta todos los marcos) |
feature_store_lookups |
List[Dict] |
Opcional. Lista de diccionarios que representan características del Almacén de características para el aumento de datos. Las claves válidas de cada diccionario son: - table_name (str): obligatorio. Nombre de la tabla de características.- lookup_key (list o str): obligatorio. Nombres de columna que se usarán como clave al unir la tabla de características con los datos pasados en el parámetro dataset . El orden de los nombres de columna debe coincidir con el orden de las claves principales de la tabla de características.- timestamp_lookup_key (str): se requiere si la tabla especificada es una tabla de características de serie temporal. Nombre de columna que se va a usar al realizar una búsqueda a un momento dado en la tabla de características con los datos pasados en el parámetro dataset .Default: [] |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
Opcional. Diccionario en el que cada clave es un nombre de columna y cada valor es una cadena o diccionario que describe la estrategia de imputación. Si se especifica como una cadena, el valor debe ser "mean", "median" o "most_frequent". Para imputar con un valor conocido, especifique el valor como un {"strategy": "constant", "fill_value": <desired value>} de diccionario. También puede especificar opciones de cadena como diccionarios, por ejemplo {"strategy": "mean"} .Si no se proporciona ninguna estrategia de imputación para una columna, AutoML selecciona una estrategia predeterminada basada en el tipo de columna y el contenido. Si elige un método de imputación distinto del predeterminado, AutoML no realiza la detección de tipos semánticos. Opción predeterminada: {} |
time_col |
str |
Disponible en Databricks Runtime 10.1 ML y versiones posteriores. Opcional. Nombre de columna de una columna de tiempo. Si se proporciona, AutoML intenta dividir el conjunto de datos en entrenamiento, validación y conjuntos de prueba cronológicamente, usando los puntos más antiguos como datos de entrenamiento y los puntos más recientes como conjunto de pruebas. Los tipos de columna aceptados son el de marca de tiempo y el entero. Con Databricks Runtime 10.2 ML y posteriores, también se admiten columnas de cadena. Si el tipo de columna es el de cadena, AutoML intenta convertirlo en el de marca de tiempo mediante la detección semántica. Si se produce un error en la conversión, se produce un error en la ejecución de AutoML. |
split_col |
str |
Opcional. Nombre de columna de una columna dividida. Solo está disponible en Databricks Runtime 15.3 ML y versiones posteriores para flujos de trabajo de API. Si se proporciona, AutoML intenta dividir los conjuntos de entrenamiento, validación y prueba por valores especificados por el usuario, y esta columna se excluye automáticamente de las características de entrenamiento. El tipo de columna aceptado es de cadena. El valor de cada entrada de esta columna debe ser uno de los siguientes: "train", "validate" o "test”. |
sample_weight_col |
str |
Está disponible en Databricks Runtime 15.3 ML y versiones posteriores para flujos de trabajo de API de regresión. Opcional. Nombre de columna del conjunto de datos que contiene los pesos de ejemplo de cada fila. Estos pesos ajustan la importancia de cada fila durante el entrenamiento del modelo. Los pesos deben ser valores decimales o enteros no negativos, que van de 0 a 10 000. Las filas con pesos de muestra más altos se consideran más importantes y tienen una mayor influencia en el algoritmo de aprendizaje. Si no se especifica esta columna, se supone que todas las filas tienen el mismo peso. |
max_trials |
int |
Opcional. Número máximo de pruebas que se ejecutan. Este parámetro está disponible en Databricks Runtime 10.5 ML y versiones anteriores, pero está en desuso a partir de Databricks Runtime 10.3 ML. En Databricks Runtime 11.0 ML y versiones posteriores, este parámetro no es compatible. Valor predeterminado: 20 Si timeout_minutes=None, AutoML ejecuta el número máximo de pruebas. |
timeout_minutes |
int |
Opcional. Tiempo máximo para esperar a que se completen las pruebas de AutoML. Los tiempos de espera más largos permiten que AutoML ejecute más pruebas e identifique un modelo con mayor precisión. Predeterminado: 120 minutos Valor mínimo: 5 minutos Se notifica un error si el tiempo de espera es demasiado corto como para permitir que se complete, al menos, una prueba. |
Forecast
El método databricks.automl.forecast
configura una ejecución de AutoML para entrenar un modelo de previsión. Este método devuelve un AutoMLSummary.
Para usar Auto-ARIMA, la serie temporal debe tener una frecuencia regular (es decir, el intervalo entre dos puntos cualquiera debe ser el mismo a lo largo de la serie temporal). La frecuencia debe coincidir con la unidad de frecuencia especificada en la llamada API. AutoML controla los pasos de tiempo que faltan, rellenando esos valores con el valor anterior.
databricks.automl.forecast(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
time_col: str,
primary_metric: str = "smape",
country_code: str = "US", # <DBR> 12.0 ML and above
frequency: str = "D",
horizon: int = 1,
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None,
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_frameworks: Optional[List[str]] = None,
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 12.2 LTS ML and above
identity_col: Optional[Union[str, List[str]]] = None,
sample_weight_col: Optional[str] = None, # <DBR> 16.0 ML and above
output_database: Optional[str] = None, # <DBR> 10.5 ML and above
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Parámetros de previsión
Nombre de parámetro | Type | Descripción |
---|---|---|
dataset |
str , pandas.DataFrame , , pyspark.DataFrame , pyspark.sql.DataFrame |
Nombre de tabla de entrada o DataFrame que contiene características de entrenamiento y destino. El nombre de la tabla puede tener el formato ".." o "." para tablas que no son de Unity Catalog |
target_col |
str |
Nombre de columna de la etiqueta de destino. |
time_col |
str |
Nombre de la columna de tiempo para la previsión. |
primary_metric |
str |
Métrica usada para evaluar y clasificar el rendimiento del modelo. Métricas admitidas: "smape" (valor predeterminado) "mse", "rmse", "mae" o "mdape". |
country_code |
str |
Disponible en Databricks Runtime 12.0 ML y versiones posteriores. Solo es compatible con el modelo de previsión Prophet. Opcional. Código de país de dos letras que indica los días festivos del país que debe usar el modelo de previsión. Para pasar por alto los días festivos, establezca este parámetro en una cadena vacía (""). Países admitidos. Valor predeterminado: EE. UU. (Días festivos de Estados Unidos). |
frequency |
str |
Frecuencia de la serie temporal para la previsión. Este es el período con el que se espera que se produzcan eventos. El valor predeterminado es "D" o datos diarios. Asegúrese de cambiar la configuración si los datos tienen una frecuencia diferente. Valores posibles: "W" ("weeks" = semanas) "D" / "days" / "day" (día/s) "hours" / "hour" / "hr" / "h" (hora/s) "m" / "minute" / "min" / "minutes" / "T" (minuto/s) "S" / "seconds" / "sec" / "second" (segundo/s) Los siguientes solo están disponibles con Databricks Runtime 12.0 ML y versiones posteriores: “M” / “mes” / “meses” “Q” / “trimestre” / “trimestres” “Y” / “año” / “años” Valor predeterminado: "D" |
horizon |
int |
Número de períodos en el futuro para los que se deben devolver las previsiones. Las unidades son la frecuencia de la serie temporal. Valor predeterminado: 1 |
data_dir |
str de formato dbfs:/<folder-name> |
Opcional. Ruta de acceso de DBFS que se usa para almacenar el conjunto de datos de entrenamiento. Esta ruta de acceso es visible para los nodos de controlador y de trabajo. Databricks recomienda dejar este campo vacío, por lo que AutoML puede guardar el conjunto de datos de entrenamiento como un artefacto de MLflow. Si se especifica una ruta de acceso personalizada, el conjunto de datos no hereda los permisos de acceso del experimento de AutoML. |
experiment_dir |
str |
Opcional. Ruta de acceso al directorio del área de trabajo para guardar los cuadernos y experimentos generados. Opción predeterminada: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Opcional. Nombre del experimento de MLflow que crea AutoML. Valor predeterminado: el nombre se genera automáticamente. |
exclude_frameworks |
List[str] |
Opcional. Lista de marcos de algoritmos que AutoML no debe tener en cuenta cuando desarrolla modelos. Valores posibles: lista vacía, o uno o varios entre "prophet" o "arima". Valor predeterminado: [] (se tienen en cuenta todos los marcos) |
feature_store_lookups |
List[Dict] |
Opcional. Lista de diccionarios que representan características del Almacén de características para el aumento de datos covariables. Las claves válidas de cada diccionario son: - table_name (str): obligatorio. Nombre de la tabla de características.- lookup_key (list o str): obligatorio. Nombres de columna que se usarán como clave al unir la tabla de características con los datos pasados en el parámetro dataset . El orden de los nombres de columna debe coincidir con el orden de las claves principales de la tabla de características.- timestamp_lookup_key (str): se requiere si la tabla especificada es una tabla de características de serie temporal. Nombre de columna que se va a usar al realizar una búsqueda a un momento dado en la tabla de características con los datos pasados en el parámetro dataset .Default: [] |
identity_col |
Union[str, list] |
Opcional. Columnas que identifican la serie temporal para la previsión de varias series. AutoML agrupa por esta/s columna/s y la columna de tiempo para la previsión. |
sample_weight_col |
str |
Disponible en Databricks Runtime 16.0 ML y versiones posteriores. Solo para flujos de trabajo de serie temporal múltiple. Opcional. Especifica la columna del conjunto de datos que contiene pesos de ejemplo. Estas ponderaciones indican la importancia relativa de cada serie temporal durante el entrenamiento y la evaluación del modelo. Las series temporales con pesos más altos tienen una mayor influencia en el modelo. Si no se proporciona, todas las series temporales se tratan con el mismo peso. Todas las filas que pertenecen a la misma serie temporal deben tener el mismo peso. Los pesos deben ser valores no negativos, decimales o enteros, y tener entre 0 y 10 000. |
output_database |
str |
Opcional. Si se proporciona, AutoML guarda las predicciones del mejor modelo en una nueva tabla de la base de datos especificada. Valor predeterminado: las predicciones no se guardan. |
timeout_minutes |
int |
Opcional. Tiempo máximo para esperar a que se completen las pruebas de AutoML. Los tiempos de espera más largos permiten que AutoML ejecute más pruebas e identifique un modelo con mayor precisión. Predeterminado: 120 minutos Valor mínimo: 5 minutos Se notifica un error si el tiempo de espera es demasiado corto como para permitir que se complete, al menos, una prueba. |
Importar cuaderno
El método databricks.automl.import_notebook
importa un cuaderno que se ha guardado como un artefacto de MLflow. Este método devuelve importNotebookResult.
databricks.automl.import_notebook(
artifact_uri: str,
path: str,
overwrite: bool = False
) -> ImportNotebookResult:
Parámetros | Tipo | Descripción |
---|---|---|
artifact_uri |
str |
Identificador URI del artefacto de MLflow que contiene el cuaderno de prueba. |
path |
str |
Ruta de acceso del área de trabajo de Databricks en el que se debe importar el cuaderno. Debe ser una ruta de acceso absoluta. Si el directorio no existe, se creará. |
overwrite |
bool |
Si se va a sobrescribir el cuaderno si ya existe. De forma predeterminada, su valor es False . |
Ejemplo de importación de cuaderno
summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)
AutoMLSummary
Objeto de resumen de una ejecución de AutoML, que describe las métricas, los parámetros y otros detalles de cada una de las pruebas. También se usa este objeto para cargar el modelo entrenado por una prueba específica.
Propiedad | Tipo | Descripción |
---|---|---|
experiment |
mlflow.entities.Experiment |
El experimento de MLflow usado para registrar las pruebas. |
trials |
List[TrialInfo] |
Una lista de objetos TrialInfo que contiene información sobre todas las pruebas que se ejecutaron. |
best_trial |
TrialInfo |
Objeto TrialInfo que contiene información sobre la prueba que dio lugar a la mejor puntuación ponderada de la métrica principal. |
metric_distribution |
str |
La distribución de puntuaciones ponderadas, para la métrica principal, en todas las pruebas. |
output_table_name |
str |
Se usa solo con la previsión y solo si se proporciona output_database. Nombre de la tabla en output_database que contiene las predicciones del modelo. |
TrialInfo
Objeto de resumen para cada prueba individual.
Propiedad | Tipo | Descripción |
---|---|---|
notebook_path |
Optional[str] |
La ruta de acceso al cuaderno generado, para esta prueba, en el área de trabajo. Para la clasificación y la regresión, este valor solo se establece para la mejor prueba, mientras que las demás pruebas tienen el valor establecido en None .Para la previsión, este valor está presente para todas las pruebas. |
notebook_url |
Optional[str] |
La URL del cuaderno generado para esta prueba. Para la clasificación y la regresión, este valor solo se establece para la mejor prueba, mientras que las demás pruebas tienen el valor establecido en None .Para la previsión, este valor está presente para todas las pruebas. |
artifact_uri |
Optional[str] |
Identificador URI del artefacto de MLflow para el cuaderno generado. |
mlflow_run_id |
str |
El Id. de ejecución de MLflow asociado a esta ejecución de prueba. |
metrics |
Dict[str, float] |
Las métricas registradas en MLflow para esta prueba. |
params |
Dict[str, str] |
Los parámetros registrados en MLflow que se usaron para esta prueba. |
model_path |
str |
La URL del artefacto de MLflow del modelo entrenado en esta prueba. |
model_description |
str |
Breve descripción del modelo y los hiperparámetros usados para entrenar este modelo. |
duration |
str |
Duración del entrenamiento en minutos. |
preprocessors |
str |
Descripción de los preprocesadores que se ejecutan antes de entrenar el modelo. |
evaluation_metric_score |
float |
Puntuación de la métrica principal, evaluada para el conjunto de datos de validación. |
TrialInfo
tiene un método para cargar el modelo generado para la prueba.
Method | Descripción |
---|---|
load_model() |
Cargue el modelo generado en esta prueba, registrado como un artefacto de MLflow. |
ImportNotebookResult
Propiedad | Tipo | Descripción |
---|---|---|
path |
str |
Ruta de acceso del área de trabajo de Databricks en el que se debe importar el cuaderno. Debe ser una ruta de acceso absoluta. Si el directorio no existe, se creará. |
url |
str |
Identificador URI del artefacto de MLflow que contiene el cuaderno de prueba. |