Delen via


Naslaginformatie over de AutoML Python-API

In dit artikel wordt de AutoML Python-API beschreven, die methoden biedt voor het starten van classificatie, regressie en het voorspellen van AutoML-uitvoeringen. Elke methode roept een set modellen aan en genereert een proefnotitieblok voor elk model.

Zie Wat is AutoML?voor meer informatie over AutoML, inclusief een ui-optie met weinig code.

Classificeren

De databricks.automl.classify methode configureert een AutoML-uitvoering om een classificatiemodel te trainen.

Notitie

De max_trials parameter is afgeschaft in Databricks Runtime 10.4 ML en wordt niet ondersteund in Databricks Runtime 11.0 ML en hoger. Gebruik timeout_minutes dit om de duur van een AutoML-uitvoering te bepalen.

databricks.automl.classify(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "f1",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  pos_label: Optional[Union[int, bool, str]] = None,                 # <DBR> 11.1 ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None                           # <DBR> 15.4 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Parameters classificeren

Parameternaam Type Description
dataset str, , , pandas.DataFramepyspark.DataFramepyspark.sql.DataFrame Naam van invoertabel of DataFrame met trainingsfuncties en -doel. De tabelnaam kan de notatie '<database_name> hebben.<>table_name of schema_name<>.<>table_name' voor niet-Unity Catalog-tabellen.
target_col str Kolomnaam voor het doellabel.
primary_metric str Metrische gegevens die worden gebruikt om modelprestaties te evalueren en rangschikken.

Ondersteunde metrische gegevens voor regressie: "r2" (standaard), "mae", "rmse", "mse"

Ondersteunde metrische gegevens voor classificatie: 'f1' (standaard), 'log_loss', 'precisie', 'nauwkeurigheid', 'roc_auc'
data_dir str indeling dbfs:/<folder-name> Optioneel. DBFS-pad dat wordt gebruikt voor het opslaan van de trainingsgegevensset. Dit pad is zichtbaar voor zowel stuurprogramma- als werkknooppunten.

Databricks raadt aan dit veld leeg te laten, zodat AutoML de trainingsgegevensset kan opslaan als een MLflow-artefact.

Als er een aangepast pad is opgegeven, neemt de gegevensset de toegangsmachtigingen van het AutoML-experiment niet over.
experiment_dir str Optioneel. Pad naar de map in de werkruimte om de gegenereerde notebooks en experimenten op te slaan.

Standaardwaarde: /Users/<username>/databricks_automl/
experiment_name str Optioneel. Naam voor het MLflow-experiment dat door AutoML wordt gemaakt.

Standaard: De naam wordt automatisch gegenereerd.
exclude_cols List[str] Optioneel. Lijst met kolommen die moeten worden genegeerd tijdens AutoML-berekeningen.

Standaard: []
exclude_frameworks List[str] Optioneel. Lijst met algoritmeframeworks waarmee AutoML geen rekening moet houden bij het ontwikkelen van modellen. Mogelijke waarden: lege lijst of een of meer van 'sklearn', 'lightgbm', 'xgboost'.

Standaard: [] (alle frameworks worden overwogen)
feature_store_lookups List[Dict] Optioneel. Lijst met woordenlijsten die functies uit Feature Store vertegenwoordigen voor gegevensvergroting. Geldige sleutels in elke woordenlijst zijn:

- table_name (str): Vereist. Naam van de functietabel.
- lookup_key (lijst of str): Vereist. Kolomnamen die als sleutel moeten worden gebruikt bij het samenvoegen van de functietabel met de gegevens die zijn doorgegeven in de dataset parameter. De volgorde van de kolomnamen moet overeenkomen met de volgorde van de primaire sleutels van de functietabel.
- timestamp_lookup_key (str): Vereist als de opgegeven tabel een tijdreeksfunctietabel is. De kolomnaam die moet worden gebruikt bij het uitvoeren van een zoekactie naar een bepaald tijdstip in de functietabel met de gegevens die zijn doorgegeven in de dataset param.

Standaard: []
imputers Dict[str, Union[str, Dict[str, Any]]] Optioneel. Woordenlijst waarbij elke sleutel een kolomnaam is en elke waarde een tekenreeks of woordenlijst is die de imputatiestrategie beschrijft. Als deze is opgegeven als een tekenreeks, moet de waarde een van 'gemiddelde', 'mediaan' of 'most_frequent' zijn. Als u een bekende waarde wilt toepassen, geeft u de waarde op als een woordenlijst {"strategy": "constant", "fill_value": <desired value>}. U kunt ook tekenreeksopties opgeven als woordenlijsten, bijvoorbeeld {"strategy": "mean"}.

Als er geen imputatiestrategie is opgegeven voor een kolom, selecteert AutoML een standaardstrategie op basis van het kolomtype en de inhoud. Als u een niet-standaardimplicatiemethode opgeeft, voert AutoML geen semantische typedetectie uit.

Standaardwaarde: {}
pos_label Union[int, bool, str] (alleen classificatie) De positieve klasse. Dit is handig voor het berekenen van metrische gegevens, zoals precisie en relevante overeenkomsten. Mag alleen worden opgegeven voor binaire classificatieproblemen.
time_col str Beschikbaar in Databricks Runtime 10.1 ML en hoger.

Optioneel. Kolomnaam voor een tijdkolom.

Indien opgegeven, probeert AutoML de gegevensset op te splitsen in trainings-, validatie- en testsets chronologisch, met behulp van de vroegste punten als trainingsgegevens en de laatste punten als een testset.

Geaccepteerde kolomtypen zijn tijdstempel en geheel getal. Met Databricks Runtime 10.2 ML en hoger worden tekenreekskolommen ook ondersteund.

Als het kolomtype tekenreeks is, probeert AutoML het te converteren naar een tijdstempel met behulp van semantische detectie. Als de conversie mislukt, mislukt de AutoML-uitvoering.
split_col str Optioneel. Kolomnaam voor een gesplitste kolom. Alleen beschikbaar in Databricks Runtime 15.3 ML en hoger voor API-werkstromen. Indien opgegeven, probeert AutoML sets trainen/valideren/testen op door de gebruiker opgegeven waarden te splitsen en wordt deze kolom automatisch uitgesloten van trainingsfuncties.

Geaccepteerd kolomtype is tekenreeks. De waarde van elke vermelding in deze kolom moet een van de volgende zijn: 'train', 'validate' of 'test'.
sample_weight_col str Beschikbaar in Databricks Runtime 15.4 ML en hoger voor classificatie-API-werkstromen.

Optioneel. Kolomnaam in de gegevensset die de steekproefgewichten voor elke rij bevat. Classificatie ondersteunt steekproefgewichten per klasse. Met deze gewichten wordt het belang van elke klas tijdens het trainen van modellen aangepast. Elke steekproef in een klasse moet hetzelfde gewicht van de steekproef hebben en de gewichten moeten niet-negatieve decimale of gehele getallen zijn, variërend van 0 tot 10.000. Klassen met een hoger steekproefgewicht worden als belangrijker beschouwd en hebben een grotere invloed op het leeralgoritmen. Als deze kolom niet is opgegeven, wordt ervan uitgegaan dat alle klassen gelijk gewicht hebben.
max_trials int Optioneel. Maximum aantal tests dat moet worden uitgevoerd. Deze parameter is beschikbaar in Databricks Runtime 10.5 ML en lager, maar wordt afgeschaft vanaf Databricks Runtime 10.3 ML. In Databricks Runtime 11.0 ML en hoger wordt deze parameter niet ondersteund.

Standaardwaarde: 20

Als timeout_minutes=Geen, wordt met AutoML het maximum aantal experimenten uitgevoerd.
timeout_minutes int Optioneel. Maximale tijd om te wachten totdat de AutoML-proefversies zijn voltooid. Met langere time-outs kan AutoML meer proefversies uitvoeren en een model identificeren met een betere nauwkeurigheid.

Standaard: 120 minuten

Minimumwaarde: 5 minuten

Er wordt een fout gerapporteerd als de time-out te kort is om ten minste één proefversie te voltooien.

Teruggaan

De databricks.automl.regress methode configureert een AutoML-uitvoering om een regressiemodel te trainen. Deze methode retourneert een AutoMLSummary.

Notitie

De max_trials parameter is afgeschaft in Databricks Runtime 10.4 ML en wordt niet ondersteund in Databricks Runtime 11.0 ML en hoger. Gebruik timeout_minutes dit om de duur van een AutoML-uitvoering te bepalen.

databricks.automl.regress(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "r2",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None,                          # <DBR> 15.3 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Parameters regresseren

Parameternaam Type Description
dataset str, , , pandas.DataFramepyspark.DataFramepyspark.sql.DataFrame Naam van invoertabel of DataFrame met trainingsfuncties en -doel. De tabelnaam kan de notatie '<database_name> hebben.<>table_name of schema_name<>.<>table_name' voor niet-Unity Catalog-tabellen.
target_col str Kolomnaam voor het doellabel.
primary_metric str Metrische gegevens die worden gebruikt om modelprestaties te evalueren en rangschikken.

Ondersteunde metrische gegevens voor regressie: "r2" (standaard), "mae", "rmse", "mse"

Ondersteunde metrische gegevens voor classificatie: 'f1' (standaard), 'log_loss', 'precisie', 'nauwkeurigheid', 'roc_auc'
data_dir str indeling dbfs:/<folder-name> Optioneel. DBFS-pad dat wordt gebruikt voor het opslaan van de trainingsgegevensset. Dit pad is zichtbaar voor zowel stuurprogramma- als werkknooppunten.

Databricks raadt aan dit veld leeg te laten, zodat AutoML de trainingsgegevensset kan opslaan als een MLflow-artefact.

Als er een aangepast pad is opgegeven, neemt de gegevensset de toegangsmachtigingen van het AutoML-experiment niet over.
experiment_dir str Optioneel. Pad naar de map in de werkruimte om de gegenereerde notebooks en experimenten op te slaan.

Standaardwaarde: /Users/<username>/databricks_automl/
experiment_name str Optioneel. Naam voor het MLflow-experiment dat door AutoML wordt gemaakt.

Standaard: De naam wordt automatisch gegenereerd.
exclude_cols List[str] Optioneel. Lijst met kolommen die moeten worden genegeerd tijdens AutoML-berekeningen.

Standaard: []
exclude_frameworks List[str] Optioneel. Lijst met algoritmeframeworks waarmee AutoML geen rekening moet houden bij het ontwikkelen van modellen. Mogelijke waarden: lege lijst of een of meer van 'sklearn', 'lightgbm', 'xgboost'.

Standaard: [] (alle frameworks worden overwogen)
feature_store_lookups List[Dict] Optioneel. Lijst met woordenlijsten die functies uit Feature Store vertegenwoordigen voor gegevensvergroting. Geldige sleutels in elke woordenlijst zijn:

- table_name (str): Vereist. Naam van de functietabel.
- lookup_key (lijst of str): Vereist. Kolomnamen die als sleutel moeten worden gebruikt bij het samenvoegen van de functietabel met de gegevens die zijn doorgegeven in de dataset parameter. De volgorde van de kolomnamen moet overeenkomen met de volgorde van de primaire sleutels van de functietabel.
- timestamp_lookup_key (str): Vereist als de opgegeven tabel een tijdreeksfunctietabel is. De kolomnaam die moet worden gebruikt bij het uitvoeren van een zoekactie naar een bepaald tijdstip in de functietabel met de gegevens die zijn doorgegeven in de dataset param.

Standaard: []
imputers Dict[str, Union[str, Dict[str, Any]]] Optioneel. Woordenlijst waarbij elke sleutel een kolomnaam is en elke waarde een tekenreeks of woordenlijst is die de imputatiestrategie beschrijft. Als deze is opgegeven als een tekenreeks, moet de waarde een van 'gemiddelde', 'mediaan' of 'most_frequent' zijn. Als u een bekende waarde wilt toepassen, geeft u de waarde op als een woordenlijst {"strategy": "constant", "fill_value": <desired value>}. U kunt ook tekenreeksopties opgeven als woordenlijsten, bijvoorbeeld {"strategy": "mean"}.

Als er geen imputatiestrategie is opgegeven voor een kolom, selecteert AutoML een standaardstrategie op basis van het kolomtype en de inhoud. Als u een niet-standaardimplicatiemethode opgeeft, voert AutoML geen semantische typedetectie uit.

Standaardwaarde: {}
time_col str Beschikbaar in Databricks Runtime 10.1 ML en hoger.

Optioneel. Kolomnaam voor een tijdkolom.

Indien opgegeven, probeert AutoML de gegevensset op te splitsen in trainings-, validatie- en testsets chronologisch, met behulp van de vroegste punten als trainingsgegevens en de laatste punten als een testset.

Geaccepteerde kolomtypen zijn tijdstempel en geheel getal. Met Databricks Runtime 10.2 ML en hoger worden tekenreekskolommen ook ondersteund.

Als het kolomtype tekenreeks is, probeert AutoML het te converteren naar een tijdstempel met behulp van semantische detectie. Als de conversie mislukt, mislukt de AutoML-uitvoering.
split_col str Optioneel. Kolomnaam voor een gesplitste kolom. Alleen beschikbaar in Databricks Runtime 15.3 ML en hoger voor API-werkstromen. Indien opgegeven, probeert AutoML sets trainen/valideren/testen op door de gebruiker opgegeven waarden te splitsen en wordt deze kolom automatisch uitgesloten van trainingsfuncties.

Geaccepteerd kolomtype is tekenreeks. De waarde van elke vermelding in deze kolom moet een van de volgende zijn: 'train', 'validate' of 'test'.
sample_weight_col str Beschikbaar in Databricks Runtime 15.3 ML en hoger voor regressie-API-werkstromen.

Optioneel. Kolomnaam in de gegevensset die de steekproefgewichten voor elke rij bevat. Met deze gewichten wordt het belang van elke rij tijdens de modeltraining aangepast. Gewichten moeten niet-negatieve decimale of gehele getallen zijn, variërend van 0 tot 10.000. Rijen met een hogere steekproefgewicht worden als belangrijker beschouwd en hebben een grotere invloed op het leeralgoritmen. Als deze kolom niet is opgegeven, wordt ervan uitgegaan dat alle rijen gelijk zijn aan gewicht.
max_trials int Optioneel. Maximum aantal tests dat moet worden uitgevoerd. Deze parameter is beschikbaar in Databricks Runtime 10.5 ML en lager, maar wordt afgeschaft vanaf Databricks Runtime 10.3 ML. In Databricks Runtime 11.0 ML en hoger wordt deze parameter niet ondersteund.

Standaardwaarde: 20

Als timeout_minutes=Geen, wordt met AutoML het maximum aantal experimenten uitgevoerd.
timeout_minutes int Optioneel. Maximale tijd om te wachten totdat de AutoML-proefversies zijn voltooid. Met langere time-outs kan AutoML meer proefversies uitvoeren en een model identificeren met een betere nauwkeurigheid.

Standaard: 120 minuten

Minimumwaarde: 5 minuten

Er wordt een fout gerapporteerd als de time-out te kort is om ten minste één proefversie te voltooien.

Prognose

Met de databricks.automl.forecast methode configureert u een AutoML-uitvoering voor het trainen van een prognosemodel. Deze methode retourneert een AutoMLSummary. Als u Auto-ARIMA wilt gebruiken, moet de tijdreeks een normale frequentie hebben (dat wil gezegd, het interval tussen twee punten moet hetzelfde zijn gedurende de tijdreeks). De frequentie moet overeenkomen met de frequentie-eenheid die is opgegeven in de API-aanroep. AutoML verwerkt ontbrekende tijdstappen door deze waarden in te vullen met de vorige waarde.

databricks.automl.forecast(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  time_col: str,
  primary_metric: str = "smape",
  country_code: str = "US",                                         # <DBR> 12.0 ML and above
  frequency: str = "D",
  horizon: int = 1,
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_frameworks: Optional[List[str]] = None,
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 12.2 LTS ML and above
  identity_col: Optional[Union[str, List[str]]] = None,
  sample_weight_col: Optional[str] = None,                          # <DBR> 16.0 ML and above
  output_database: Optional[str] = None,                            # <DBR> 10.5 ML and above
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Parameters voor prognose

Parameternaam Type Description
dataset str, , , pandas.DataFramepyspark.DataFramepyspark.sql.DataFrame Naam van invoertabel of DataFrame met trainingsfuncties en -doel.

De tabelnaam kan de notatie '.' hebben. of "." voor niet-Unity Catalog-tabellen
target_col str Kolomnaam voor het doellabel.
time_col str Naam van de tijdkolom voor prognose.
primary_metric str Metrische gegevens die worden gebruikt om modelprestaties te evalueren en rangschikken.

Ondersteunde metrische gegevens: 'smape' (standaard), 'mse', 'rmse', 'mae' of 'mdape'.
country_code str Beschikbaar in Databricks Runtime 12.0 ML en hoger. Alleen ondersteund door het voorspellende model van prophet.

Optioneel. Landcode van twee letters die aangeeft welke feestdagen het prognosemodel moet gebruiken. Als u feestdagen wilt negeren, stelt u deze parameter in op een lege tekenreeks ("").

Ondersteunde landen.

Standaard: VS (Verenigde Staten feestdagen).
frequency str Frequentie van de tijdreeks voor prognoses. Dit is de periode waarmee gebeurtenissen naar verwachting plaatsvinden. De standaardinstelling is 'D' of dagelijkse gegevens. Zorg ervoor dat u de instelling wijzigt als uw gegevens een andere frequentie hebben.

Mogelijke waarden:

"W" (weken)

"D" / "dagen" / "dag"

"hours" / "hour" / "hr" / "h"

"m" / "minuut" / "min" / "minuten" / "T"

"S" / "seconds" / "sec" / "second"

De volgende zijn alleen beschikbaar met Databricks Runtime 12.0 ML en hoger:

"M" / "maand" / "maanden"

"Q" / "kwartaal" / "kwartalen"

"Y" / "year" / "years"

Standaard: "D"
horizon int Aantal perioden in de toekomst waarvoor prognoses moeten worden geretourneerd.

De eenheden zijn de tijdreeksfrequentie.

Standaard: 1
data_dir str indeling dbfs:/<folder-name> Optioneel. DBFS-pad dat wordt gebruikt voor het opslaan van de trainingsgegevensset. Dit pad is zichtbaar voor zowel stuurprogramma- als werkknooppunten.

Databricks raadt aan dit veld leeg te laten, zodat AutoML de trainingsgegevensset kan opslaan als een MLflow-artefact.

Als er een aangepast pad is opgegeven, neemt de gegevensset de toegangsmachtigingen van het AutoML-experiment niet over.
experiment_dir str Optioneel. Pad naar de map in de werkruimte om de gegenereerde notebooks en experimenten op te slaan.

Standaardwaarde: /Users/<username>/databricks_automl/
experiment_name str Optioneel. Naam voor het MLflow-experiment dat door AutoML wordt gemaakt.

Standaard: De naam wordt automatisch gegenereerd.
exclude_frameworks List[str] Optioneel. Lijst met algoritmeframeworks waarmee AutoML geen rekening moet houden bij het ontwikkelen van modellen. Mogelijke waarden: lege lijst of een of meer 'profeet', 'arima'.

Standaard: [] (alle frameworks worden overwogen)
feature_store_lookups List[Dict] Optioneel. Lijst met woordenlijsten die functies uit Feature Store vertegenwoordigen voor covariate gegevensvergroting. Geldige sleutels in elke woordenlijst zijn:

- table_name (str): Vereist. Naam van de functietabel.
- lookup_key (lijst of str): Vereist. Kolomnamen die als sleutel moeten worden gebruikt bij het samenvoegen van de functietabel met de gegevens die zijn doorgegeven in de dataset parameter. De volgorde van de kolomnamen moet overeenkomen met de volgorde van de primaire sleutels van de functietabel.
- timestamp_lookup_key (str): Vereist als de opgegeven tabel een tijdreeksfunctietabel is. De kolomnaam die moet worden gebruikt bij het uitvoeren van een zoekactie naar een bepaald tijdstip in de functietabel met de gegevens die zijn doorgegeven in de dataset param.

Standaard: []
identity_col Union[str, list] Optioneel. Kolom(en) die de tijdreeks voor prognoses van meerdere reeksen identificeren. AutoML groepeert op deze kolom(en) en de tijdkolom voor prognoses.
sample_weight_col str Beschikbaar in Databricks Runtime 16.0 ML en hoger. Alleen voor werkstromen met meerdere tijdreeksen.

Optioneel. Hiermee geeft u de kolom in de gegevensset die steekproefgewichten bevat. Deze gewichten geven het relatieve belang aan van elke tijdreeks tijdens het trainen en evalueren van modellen.

Tijdreeksen met een hoger gewicht hebben een grotere invloed op het model. Indien niet opgegeven, worden alle tijdreeksen behandeld met gelijke gewicht.

Alle rijen die tot dezelfde tijdreeks behoren, moeten hetzelfde gewicht hebben.

Gewichten moeten niet-negatieve waarden zijn, decimalen of gehele getallen, en tussen 0 en 10.000 zijn.
output_database str Optioneel. Indien opgegeven, worden voorspellingen van het beste model opgeslagen in een nieuwe tabel in de opgegeven database.

Standaard: Voorspellingen worden niet opgeslagen.
timeout_minutes int Optioneel. Maximale tijd om te wachten totdat de AutoML-proefversies zijn voltooid. Met langere time-outs kan AutoML meer proefversies uitvoeren en een model identificeren met een betere nauwkeurigheid.

Standaard: 120 minuten

Minimumwaarde: 5 minuten

Er wordt een fout gerapporteerd als de time-out te kort is om ten minste één proefversie te voltooien.

Notebook importeren

Met de databricks.automl.import_notebook methode wordt een notebook geïmporteerd dat is opgeslagen als een MLflow-artefact. Met deze methode wordt een ImportNotebookResult geretourneerd.

databricks.automl.import_notebook(
  artifact_uri: str,
  path: str,
  overwrite: bool = False
) -> ImportNotebookResult:
Parameters Type Description
artifact_uri str De URI van het MLflow-artefact dat het proefnotitieblok bevat.
path str Het pad in de Databricks-werkruimte waar het notebook moet worden geïmporteerd. Dit moet een absoluut pad zijn. De map wordt gemaakt als deze niet bestaat.
overwrite bool Of u het notitieblok wilt overschrijven als dit al bestaat. Dit is False standaard.

Voorbeeld van importnotitieblok

summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)

AutoMLSummary

Samenvattingsobject voor een AutoML-uitvoering die de metrische gegevens, parameters en andere details voor elk van de proefversies beschrijft. U gebruikt dit object ook om het model te laden dat is getraind door een specifieke proefversie.

Eigenschap Type Description
experiment mlflow.entities.Experiment Het MLflow-experiment dat wordt gebruikt om de experimenten te registreren.
trials List[TrialInfo] Een lijst met TrialInfo-objecten met informatie over alle uitgevoerde proefversies.
best_trial TrialInfo Een TrialInfo-object met informatie over de proefversie die heeft geresulteerd in de beste gewogen score voor de primaire metrische waarde.
metric_distribution str De verdeling van gewogen scores voor de primaire meetwaarde voor alle experimenten.
output_table_name str Wordt alleen gebruikt met prognoses en alleen als output_database is opgegeven.

Naam van de tabel in output_database met de voorspellingen van het model.

TrialInfo

Samenvattingsobject voor elke afzonderlijke proefversie.

Eigenschap Type Description
notebook_path Optional[str] Het pad naar het gegenereerde notebook voor deze proefversie in de werkruimte.

Voor classificatie en regressie is deze waarde alleen ingesteld voor de beste proefversie, terwijl alle andere experimenten de waarde hebben ingesteld op None.

Voor prognoses is deze waarde aanwezig voor alle proefversies.
notebook_url Optional[str] De URL van het gegenereerde notebook voor deze proefversie.

Voor classificatie en regressie is deze waarde alleen ingesteld voor de beste proefversie, terwijl alle andere experimenten de waarde hebben ingesteld op None.

Voor prognoses is deze waarde aanwezig voor alle proefversies.
artifact_uri Optional[str] De MLflow-artefact-URI voor het gegenereerde notebook.
mlflow_run_id str De MLflow-uitvoerings-id die is gekoppeld aan deze proefversie.
metrics Dict[str, float] De metrische gegevens die zijn vastgelegd in MLflow voor deze proefversie.
params Dict[str, str] De parameters die zijn vastgelegd in MLflow die zijn gebruikt voor deze proefversie.
model_path str De MLflow-artefact-URL van het model dat in deze proefversie is getraind.
model_description str Korte beschrijving van het model en de hyperparameters die worden gebruikt voor het trainen van dit model.
duration str Trainingsduur in minuten.
preprocessors str Beschrijving van de preprocessors die worden uitgevoerd voordat het model wordt getraind.
evaluation_metric_score float Score van primaire metrische gegevens, geëvalueerd voor de validatiegegevensset.

TrialInfo heeft een methode voor het laden van het model dat is gegenereerd voor de proefversie.

Wijze Description
load_model() Laad het model dat in deze proefversie is gegenereerd, geregistreerd als een MLflow-artefact.

ImportNotebookResult

Eigenschap Type Description
path str Het pad in de Databricks-werkruimte waar het notebook moet worden geïmporteerd. Dit moet een absoluut pad zijn. De map wordt gemaakt als deze niet bestaat.
url str De URI van het MLflow-artefact dat het proefnotitieblok bevat.