Condividi tramite


Riferimento API Python AutoML

Questo articolo descrive l'API Python AutoML, che fornisce metodi per avviare le esecuzioni di classificazione, regressione e previsione di AutoML. Ogni chiamata di metodo esegue il training di un set di modelli e genera un notebook di prova per ogni modello.

Per altre informazioni su AutoML, inclusa un'opzione di interfaccia utente con poco codice, vedere Che cos'è AutoML?.

Classificazione

Il metodo databricks.automl.classify configura un'esecuzione AutoML per eseguire il training di un modello di classificazione.

Nota

Il parametro max_trials è deprecato in Databricks Runtime 10.4 ML e non è supportato in Databricks Runtime 11.0 ML e versioni successive. Usare timeout_minutes per controllare la durata di un'esecuzione autoML.

databricks.automl.classify(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "f1",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  pos_label: Optional[Union[int, bool, str]] = None,                 # <DBR> 11.1 ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None                           # <DBR> 15.4 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Classificare i parametri

Nome del parametro Tipo Descrizione
dataset str, pandas.DataFrame, pyspark.DataFramepyspark.sql.DataFrame Nome tabella di input o DataFrame che contiene funzionalità di training e destinazione. Il nome della tabella può essere in formato "<database_name>.<table_name>" o "<schema_name>.<table_name>" per le tabelle non del catalogo Unity.
target_col str Nome della colonna per l'etichetta di destinazione.
primary_metric str Metrica usata per valutare e classificare le prestazioni del modello.
Metriche supportate per la regressione: "r2" (impostazione predefinita), "mae", "rmse", "mse"
Metriche supportate per la classificazione: "f1" (impostazione predefinita), "log_loss", "precisione", "accuratezza", "roc_auc"
data_dir str di formato dbfs:/<folder-name> Facoltativo. Percorso DBFS usato per archiviare il set di dati di training. Questo percorso è visibile sia per i nodi driver che per i nodi di lavoro.
Databricks consiglia di lasciare vuoto questo campo, in modo che AutoML possa salvare il set di dati di training come artefatto MLflow.
Se viene specificato un percorso personalizzato, il set di dati non eredita le autorizzazioni di accesso dell'esperimento AutoML.
experiment_dir str Facoltativo. Percorso della directory nell'area di lavoro per salvare i notebook e gli esperimenti generati. Se si usa una risorsa di calcolo assegnata a un gruppo, impostarla su una cartella in cui il gruppo dispone dell'autorizzazione per la scrittura.
Impostazione predefinita: /Users/<username>/databricks_automl/
experiment_name str Facoltativo. Nome dell'esperimento MLflow creato da AutoML.
Impostazione predefinita: il nome viene generato automaticamente.
exclude_cols List[str] Facoltativo. Elenco di colonne da ignorare durante i calcoli AutoML.
Impostazione predefinita: []
exclude_frameworks List[str] Facoltativo. Framework di algoritmi che AutoML non deve considerare durante lo sviluppo di modelli. Valori possibili: elenco vuoto o uno o più di "sklearn", "lightgbm", "xgboost".
Impostazione predefinita: [] (tutti i framework sono considerati)
feature_store_lookups List[Dict] Facoltativo. Elenco di dizionari che rappresentano le funzionalità di Feature Store per l'aumento dei dati. Le chiavi valide in ogni dizionario sono:
  • table_name (str): obbligatorio. Nome della tabella delle caratteristiche.
  • lookup_key (elenco o str): obbligatorio. Nomi di colonna da usare come chiave durante l'unione della tabella delle funzionalità con i dati passati nel parametro dataset. L'ordine dei nomi delle colonne deve corrispondere all'ordine delle chiavi primarie della tabella delle funzionalità.
  • timestamp_lookup_key (str): obbligatorio se la tabella specificata è una tabella delle feature di serie temporali . Nome della colonna da utilizzare per eseguire una ricerca puntuale nella tabella delle caratteristiche con i dati forniti nel parametro dataset.

Impostazione predefinita: []
imputers Dict[str, Union[str, Dict[str, Any]]] Facoltativo. Dizionario in cui ogni chiave è un nome di colonna e ogni valore è una stringa o un dizionario che descrive la strategia di imputazione. Se specificato come stringa, il valore deve essere "mean", "median" o "most_frequent". Per imputare con un valore noto, specificare il valore come dizionario {"strategy": "constant", "fill_value": <desired value>}. È anche possibile specificare opzioni stringa come dizionari, ad esempio {"strategy": "mean"}.
Se non viene fornita alcuna strategia di imputazione per una colonna, AutoML seleziona una strategia predefinita in base al tipo di colonna e al contenuto. Se si specifica un metodo di imputazione non predefinito, AutoML non esegue il rilevamento dei tipi semantici.
Impostazione predefinita: {}
pos_label Union[int, bool, str] (Solo classificazione) Classe positiva. Ciò è utile per calcolare le metriche, ad esempio precisione e richiamo. Deve essere specificato solo per problemi di classificazione binaria.
time_col str Disponibile in Databricks Runtime 10.1 ML e versioni successive.
Facoltativo. Nome di una colonna di orario.
Se specificato, AutoML tenta di suddividere il set di dati in set di training, convalida e test cronologicamente, usando i primi punti come dati di training e i punti più recenti come set di test.
I tipi di colonna accettati sono timestamp e integer. Con Databricks Runtime 10.2 ML e versioni successive, sono supportate anche le colonne stringa.
Se il tipo di colonna è string, AutoML tenta di convertirlo in timestamp usando il rilevamento semantico. Se la conversione ha esito negativo, l'esecuzione di AutoML ha esito negativo.
split_col str Facoltativo. Nome della colonna per una colonna suddivisa. Disponibile solo in Databricks Runtime 15.3 ML e versioni successive per i flussi di lavoro API. Se specificato, AutoML tenta di dividere i set di training/convalida/test in base ai valori specificati dall'utente e questa colonna viene automaticamente esclusa dalle funzionalità di training.
Il tipo di colonna accettato è string. Il valore di ogni voce in questa colonna deve essere uno dei seguenti: "train", "validate" o "test".
sample_weight_col str Disponibile solo in Databricks Runtime 15.4 ML e versioni successive per la classificazione dei flussi di lavoro API.
Facoltativo. Nome della colonna nel set di dati che contiene i pesi di esempio per ogni riga. La classificazione supporta pesi di esempio per classe. Questi pesi regolano l'importanza di ogni classe durante l'addestramento del modello. Ogni campione all'interno di una classe deve avere lo stesso peso del campione e i pesi devono essere valori decimali o interi non negativi, compresi tra 0 e 10.000. Le classi con pesi di esempio più elevati sono considerate più importanti e hanno una maggiore influenza sull'algoritmo di apprendimento. Se questa colonna non viene specificata, si presuppone che tutte le classi abbiano un peso uguale.
max_trials int Facoltativo. Numero massimo di tentativi da eseguire. Questo parametro è disponibile in Databricks Runtime 10.5 ML e versioni successive, ma è deprecato a partire da Databricks Runtime 10.3 ML. In Databricks Runtime 11.0 ML e versioni successive questo parametro non è supportato.
Valore predefinito: 20
Qualora timeout_minutes=None, AutoML esegue il numero massimo di tentativi.
timeout_minutes int Facoltativo. Tempo massimo di attesa per il completamento delle prove di AutoML. I timeout più lunghi consentono a AutoML di eseguire più versioni di valutazione e identificare un modello con una maggiore precisione.
Impostazione predefinita: 120 minuti
Valore minimo: 5 minuti
Viene segnalato un errore se il timeout è troppo breve per consentire il completamento di almeno un tentativo.

Regredire

Il metodo databricks.automl.regress configura un'esecuzione AutoML per eseguire il training di un modello di regressione. Questo metodo restituisce un AutoMLSummary.

Nota

Il parametro max_trials è deprecato in Databricks Runtime 10.4 ML e non è supportato in Databricks Runtime 11.0 ML e versioni successive. Usare timeout_minutes per controllare la durata di un'esecuzione autoML.

databricks.automl.regress(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "r2",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None,                          # <DBR> 15.3 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Parametri della regressione

Nome del parametro Tipo Descrizione
dataset str, pandas.DataFrame, pyspark.DataFramepyspark.sql.DataFrame Nome della tabella o DataFrame di input che contiene le caratteristiche di training e la variabile obiettivo. Il nome della tabella può essere in formato "<database_name>.<table_name>" o "<schema_name>.<table_name>" per le tabelle non del catalogo Unity.
target_col str Nome della colonna per l'etichetta di destinazione.
primary_metric str Metrica usata per valutare e classificare le prestazioni del modello.
Metriche supportate per la regressione: "r2" (impostazione predefinita), "mae", "rmse", "mse"
Metriche supportate per la classificazione: "f1" (impostazione predefinita), "log_loss", "precisione", "accuratezza", "roc_auc"
data_dir str di formato dbfs:/<folder-name> Facoltativo. Percorso DBFS usato per archiviare il set di dati di training. Questo percorso è visibile sia per i nodi driver che per i nodi di lavoro.
Databricks consiglia di lasciare vuoto questo campo, in modo che AutoML possa salvare il set di dati di training come artefatto MLflow.
Se viene specificato un percorso personalizzato, il set di dati non eredita le autorizzazioni di accesso dell'esperimento AutoML.
experiment_dir str Facoltativo. Percorso della directory per salvare, nell'area di lavoro, i notebook e gli esperimenti generati.
Impostazione predefinita: /Users/<username>/databricks_automl/
experiment_name str Facoltativo. Nome dell'esperimento MLflow creato da AutoML.
Impostazione predefinita: il nome viene generato automaticamente.
exclude_cols List[str] Facoltativo. Elenco di colonne da ignorare durante i calcoli AutoML.
Impostazione predefinita: []
exclude_frameworks List[str] Facoltativo. Framework di algoritmi che AutoML non deve considerare durante lo sviluppo di modelli. Valori possibili: elenco vuoto o uno o più di "sklearn", "lightgbm", "xgboost".
Impostazione predefinita: [] (tutti i framework sono considerati)
feature_store_lookups List[Dict] Facoltativo. Elenco di dizionari che rappresentano le funzionalità di Feature Store per l'aumento dei dati. Le chiavi valide in ogni dizionario sono:
  • table_name (str): obbligatorio. Nome della tabella delle caratteristiche.
  • lookup_key (elenco o str): obbligatorio. Nomi di colonna da usare come chiave durante l'unione della tabella delle funzionalità con i dati passati nel parametro dataset. L'ordine dei nomi delle colonne deve corrispondere all'ordine delle chiavi primarie della tabella delle funzionalità.
  • timestamp_lookup_key (str): obbligatorio se la tabella specificata è una tabella delle serie temporali delle funzionalità . Nome della colonna da utilizzare quando si esegue una consultazione puntuale nella tabella delle funzionalità con i dati passati nel parametro dataset.

Impostazione predefinita: []
imputers Dict[str, Union[str, Dict[str, Any]]] Facoltativo. Dizionario in cui ogni chiave è un nome di colonna e ogni valore è una stringa o un dizionario che descrive la strategia di imputazione. Se specificato come stringa, il valore deve essere "mean", "median" o "most_frequent". Per imputare con un valore noto, specificare il valore come dizionario {"strategy": "constant", "fill_value": <desired value>}. È anche possibile specificare opzioni di stringa come dizionari, ad esempio {"strategy": "mean"}.
Se non viene fornita alcuna strategia di imputazione per una colonna, AutoML seleziona una strategia predefinita in base al tipo di colonna e al contenuto. Se si specifica un metodo di imputazione non predefinito, AutoML non esegue il rilevamento dei tipi semantici.
Impostazione predefinita: {}
time_col str Disponibile in Databricks Runtime 10.1 ML e versioni successive.
Facoltativo. Nome della colonna per una colonna di orario.
Se specificato, AutoML tenta di suddividere il set di dati in set di training, convalida e test cronologicamente, usando i primi punti come dati di training e i punti più recenti come set di test.
I tipi di colonna accettati sono timestamp e integer. Con Databricks Runtime 10.2 ML e versioni successive, sono supportate anche le colonne stringa.
Se il tipo di colonna è string, AutoML tenta di convertirlo in timestamp usando il rilevamento semantico. Se la conversione ha esito negativo, l'esecuzione di AutoML ha esito negativo.
split_col str Facoltativo. Nome della colonna per una colonna divisa. Disponibile solo in Databricks Runtime 15.3 ML e versioni successive per i flussi di lavoro API. Se specificato, AutoML tenta di dividere i set di training/convalida/test in base ai valori specificati dall'utente e questa colonna viene automaticamente esclusa dalle funzionalità di training.
Il tipo di colonna accettato è string. Il valore di ciascun elemento in questa colonna deve essere uno dei seguenti: "train", "validate" o "test".
sample_weight_col str Disponibile in Databricks Runtime 15.3 ML e versioni successive per i flussi di lavoro dell'API di regressione.
Facoltativo. Nome della colonna nel set di dati che contiene i pesi di esempio per ogni riga. Questi pesi regolano l'importanza di ogni riga durante il training del modello. I pesi devono essere valori decimali o interi non negativi, compresi tra 0 e 10.000. Le righe con pesi di esempio più elevati sono considerate più importanti e hanno una maggiore influenza sull'algoritmo di apprendimento. Se questa colonna non viene specificata, si presuppone che tutte le righe abbiano un peso uguale.
max_trials int Facoltativo. Numero massimo di tentativi da eseguire. Questo parametro è disponibile in Databricks Runtime 10.5 ML e versioni successive, ma è deprecato a partire da Databricks Runtime 10.3 ML. In Databricks Runtime 11.0 ML e versioni successive questo parametro non è supportato.
Valore predefinito: 20
Se timeout_minutes=None, AutoML esegue il numero massimo di prove.
timeout_minutes int Facoltativo. Tempo massimo di attesa per il completamento delle prove di AutoML. I timeout più lunghi consentono a AutoML di eseguire più versioni di valutazione e identificare un modello con una maggiore precisione.
Impostazione predefinita: 120 minuti
Valore minimo: 5 minuti
Viene segnalato un errore se il timeout è troppo breve per consentire il completamento di almeno un tentativo.

Previsione

Il metodo databricks.automl.forecast configura un'esecuzione AutoML per il training di un modello di previsione. Questo metodo restituisce un AutoMLSummary. Per usare Auto-ARIMA, la serie temporale deve avere una frequenza regolare, ovvero l'intervallo tra due punti deve essere lo stesso per tutta la serie temporale. La frequenza deve corrispondere all'unità di frequenza specificata nella chiamata API. AutoML gestisce i passaggi temporali mancanti compilando tali valori con il valore precedente.

databricks.automl.forecast(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  time_col: str,
  primary_metric: str = "smape",
  country_code: str = "US",                                         # <DBR> 12.0 ML and above
  frequency: str = "D",
  horizon: int = 1,
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_frameworks: Optional[List[str]] = None,
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 12.2 LTS ML and above
  identity_col: Optional[Union[str, List[str]]] = None,
  sample_weight_col: Optional[str] = None,                          # <DBR> 16.0 ML and above
  output_database: Optional[str] = None,                            # <DBR> 10.5 ML and above
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Parametri di previsione

Nome parametro Tipo Descrizione
dataset str, pandas.DataFrame, pyspark.DataFramepyspark.sql.DataFrame Nome della tabella di input o del DataFrame che contiene le caratteristiche di training e il bersaglio.
Il nome della tabella può essere in formato ".." o "." per le tabelle non appartenenti al catalogo Unity
target_col str Nome della colonna per l'etichetta di destinazione.
time_col str Nome della colonna temporale per la previsione.
primary_metric str Metrica usata per valutare e classificare le prestazioni del modello.
Metriche supportate: "smape" (impostazione predefinita), "mse", "rmse", "mae" o "mdape".
country_code str Disponibile in Databricks Runtime 12.0 ML e versioni successive. Supportato solo dal modello di previsione Prophet.
Facoltativo. Codice paese a due lettere che indica le festività del paese in cui deve essere usato il modello di previsione. Per ignorare le festività, impostare questo parametro su una stringa vuota ("").
Paesi supportati.
Impostazione predefinita: Stati Uniti (Stati Uniti festività).
frequency str Frequenza della serie temporale per la previsione. Questo è il periodo con cui si prevede che si verifichino eventi. L'impostazione predefinita è "D" o dati giornalieri. Assicurarsi di modificare l'impostazione se i dati hanno una frequenza diversa.
Valori possibili:
"W" (settimane)
"D" / "giorni" / "giorno"
"ore" / "ora" / "ore" / "ore"
"m" / "minuto" / "min" / "minuti" / "T"
"S" / "secondi" / "sec." / "secondo"
Quanto segue è disponibile solo in Databricks Runtime 12.0 ML e versioni successive:
“M” / “mese” / “mesi”
“Q” / “trimestre” / “trimestri”
“Y” / “anno” / “anni”
Impostazione predefinita: “D”
horizon int Numero di periodi nel futuro per i quali devono essere restituite le previsioni.
Le unità sono espresse in unità di frequenza delle serie temporali.
Predefinito: 1
data_dir str di formato dbfs:/<folder-name> Facoltativo. Percorso DBFS usato per archiviare il set di dati di training. Questo percorso è visibile sia per i nodi driver che per i nodi di lavoro.
Databricks consiglia di lasciare vuoto questo campo, in modo che AutoML possa salvare il set di dati di training come artefatto MLflow.
Se viene specificato un percorso personalizzato, il set di dati non eredita le autorizzazioni di accesso dell'esperimento AutoML.
experiment_dir str Facoltativo. Percorso della cartella nell'area di lavoro nella quale salvare i notebook e gli esperimenti generati.
Impostazione predefinita: /Users/<username>/databricks_automl/
experiment_name str Facoltativo. Nome dell'esperimento MLflow creato da AutoML.
Impostazione predefinita: il nome viene generato automaticamente.
exclude_frameworks List[str] Facoltativo. Framework di algoritmi che AutoML non deve considerare durante lo sviluppo di modelli. Valori possibili: elenco vuoto o uno o più di "profeta", "arima".
Impostazione predefinita: [] (tutti i framework sono considerati)
feature_store_lookups List[Dict] Facoltativo. Elenco di dizionari che rappresentano le funzionalità di Feature Store per l'aumento dei dati covariati. Le chiavi valide in ogni dizionario sono:
  • table_name (str): obbligatorio. Nome della tabella delle caratteristiche.
  • lookup_key (elenco o str): obbligatorio. Nomi di colonna da usare come chiave durante l'unione della tabella delle funzionalità con i dati passati nel parametro dataset. L'ordine dei nomi delle colonne deve corrispondere all'ordine delle chiavi primarie della tabella delle funzionalità.
  • timestamp_lookup_key (str): obbligatorio se la tabella specificata è una tabella delle serie temporali delle funzionalità . Nome della colonna da usare quando si esegue una ricerca temporizzata nella tabella delle caratteristiche con i dati passati nel parametro dataset.

Impostazione predefinita: []
identity_col Union[str, list] Facoltativo. Colonne che identificano la serie temporale per la previsione di più serie. AutoML raggruppa in base a queste colonne e alla colonna temporale per la previsione.
sample_weight_col str Disponibile in Databricks Runtime 16.0 ML e versioni successive. Solo per flussi di lavoro di serie temporali multiple.
Facoltativo. Specifica la colonna nel set di dati che contiene pesi di esempio. Questi pesi indicano l'importanza relativa di ogni serie temporale durante il training e la valutazione del modello.
Le serie temporali con pesi più elevati hanno un'influenza maggiore sul modello. Se non specificato, tutte le serie temporali vengono trattate con peso uguale.
Tutte le righe appartenenti alla stessa serie temporale devono avere lo stesso peso.
I pesi devono essere valori non negativi, decimali o interi, e devono essere compresi tra 0 e 10.000.
output_database str Facoltativo. Se specificato, AutoML salva le stime del modello migliore in una nuova tabella nel database specificato.
Impostazione predefinita: le stime non vengono salvate.
timeout_minutes int Facoltativo. Tempo di attesa massimo per il completamento delle prove di AutoML. I timeout più lunghi consentono a AutoML di eseguire più versioni di valutazione e identificare un modello con una maggiore precisione.
Impostazione predefinita: 120 minuti
Valore minimo: 5 minuti
Viene segnalato un errore se il timeout è troppo breve per consentire il completamento di almeno un tentativo.

Importa notebook

Il metodo databricks.automl.import_notebook importa un notebook salvato come artefatto MLflow. Questo metodo restituisce un ImportNotebookResult.

databricks.automl.import_notebook(
  artifact_uri: str,
  path: str,
  overwrite: bool = False
) -> ImportNotebookResult:
Parametri Tipo Descrizione
artifact_uri str L'URI dell'artefatto MLflow che contiene il notebook di prova.
path str Percorso nell'area di lavoro di Databricks in cui deve essere importato il notebook. Questo deve essere un percorso assoluto. Se la directory non esiste, viene creata.
overwrite bool Indica se sovrascrivere il notebook se esiste già. È False per impostazione predefinita.

Esempio di importazione del notebook

summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)

AutoMLSummary

Oggetto di riepilogo per un'esecuzione AutoML che descrive le metriche, i parametri e altri dettagli per ognuna delle prove. Questo oggetto viene utilizzato anche per caricare il modello addestrato da una prova specifica.

Proprietà Tipo Descrizione
experiment mlflow.entities.Experiment L'esperimento MLflow usato per registrare i tentativi.
trials List[TrialInfo] Elenco di oggetti TrialInfo contenenti informazioni su tutte le versioni di valutazione eseguite.
best_trial TrialInfo Oggetto TrialInfo contenente informazioni sulla versione di valutazione che ha generato il punteggio ponderato migliore per la metrica primaria.
metric_distribution str Distribuzione dei punteggi ponderati per la metrica primaria in tutte le versioni di valutazione.
output_table_name str Usato solo con le previsioni e solo se viene fornito output_database.
Nome della tabella in output_database contenente le previsioni del modello.

TrialInfo

Oggetto di riepilogo per ogni singola prova.

Proprietà Tipo Descrizione
notebook_path Optional[str] Percorso del notebook generato per questa prova nel workspace.
Per la classificazione e la regressione, questo valore viene impostato solo per la versione di valutazione migliore, mentre tutti gli altri test hanno il valore impostato su None.
Per le previsioni, questo valore è presente per tutti i tentativi.
notebook_url Optional[str] L'URL del notebook generato per questa prova.
Per la classificazione e la regressione, questo valore viene impostato solo per la versione di valutazione migliore, mentre tutti gli altri test hanno il valore impostato su None.
Per la previsione, questo valore è presente in tutte le prove.
artifact_uri Optional[str] URI dell'artefatto MLflow per il notebook generato.
mlflow_run_id str ID di esecuzione MLflow associato a questa prova.
metrics Dict[str, float] Le metriche registrate in MLflow per questo esperimento.
params Dict[str, str] I parametri registrati in MLflow che sono stati usati per questo esperimento.
model_path str URL dell'artefatto MLflow del modello addestrato in questa prova.
model_description str Breve descrizione del modello e degli iperparametri usati per il training di questo modello.
duration str Durata della formazione in minuti.
preprocessors str Descrizione dei preprocessori eseguiti prima del training del modello.
evaluation_metric_score float Punteggio della metrica primaria, valutato per il set di dati di convalida.

TrialInfo dispone di un metodo per caricare il modello generato per la prova.

metodo Descrizione
load_model() Carica il modello generato in questa prova, registrato come risorsa MLflow.

ImportNotebookResult

Proprietà Tipo Descrizione
path str Percorso nell'area di lavoro di Databricks in cui deve essere importato il notebook. Questo deve essere un percorso assoluto. Se la directory non esiste, viene creata.
url str URI dell'artefatto MLflow che contiene il notebook di prova.