Naslaginformatie over de AutoML Python-API

Artikel
03/11/2025

In dit artikel wordt de AutoML Python-API beschreven, die methoden biedt voor het starten van classificatie, regressie en het voorspellen van AutoML-uitvoeringen. Elke methode roept een set modellen aan en genereert een proefnotitieblok voor elk model.

Zie Wat is AutoML?voor meer informatie over AutoML, inclusief een ui-optie met weinig code.

Classificeren

De databricks.automl.classify methode configureert een AutoML-uitvoering om een classificatiemodel te trainen.

Notitie

De max_trials parameter is afgeschaft in Databricks Runtime 10.4 ML en wordt niet ondersteund in Databricks Runtime 11.0 ML en hoger. Gebruik timeout_minutes dit om de duur van een AutoML-uitvoering te bepalen.

databricks.automl.classify(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "f1",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  pos_label: Optional[Union[int, bool, str]] = None,                 # <DBR> 11.1 ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None                           # <DBR> 15.4 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Parameters classificeren

Parameternaam	Type	Beschrijving
`dataset`	`str`, `pandas.DataFrame`, `pyspark.DataFrame`, `pyspark.sql.DataFrame`	Naam van invoertabel of DataFrame met trainingsfuncties en -doel. De tabelnaam kan de notatie "<database_name>.<table_name>" of "<schema_name>.<table_name>" hebben voor niet-Unity Catalog-tabellen.
`target_col`	`str`	Kolomnaam voor het doellabel.
`primary_metric`	`str`	Metrische gegevens die worden gebruikt om modelprestaties te evalueren en rangschikken. Ondersteunde metrische gegevens voor regressie: "r2" (standaard), "mae", "rmse", "mse" Ondersteunde metrische gegevens voor classificatie: 'f1' (standaard), 'log_loss', 'precisie', 'nauwkeurigheid', 'roc_auc'
`data_dir`	`str` formaat `dbfs:/<folder-name>`	Optioneel. DBFS-pad dat wordt gebruikt voor het opslaan van de trainingsgegevensset. Dit pad is zichtbaar voor zowel besturings- als werkknooppunten. Databricks raadt aan dit veld leeg te laten, zodat AutoML de trainingsgegevensset kan opslaan als een MLflow-artefact. Als er een aangepast pad is opgegeven, neemt de gegevensset de toegangsmachtigingen van het AutoML-experiment niet over.
`experiment_dir`	`str`	Optioneel. De locatie in de werkruimte waar de gegenereerde notebooks en experimenten worden opgeslagen. Als u een rekenresource gebruikt die is toegewezen aan een groep, stelt u deze in op een map waarnaar de groep gemachtigd is om naar te schrijven. Standaardwaarde: `/Users/<username>/databricks_automl/`
`experiment_name`	`str`	Optioneel. Naam voor het MLflow-experiment dat door AutoML wordt gemaakt. Standaard: De naam wordt automatisch gegenereerd.
`exclude_cols`	`List[str]`	Optioneel. Lijst met kolommen die moeten worden genegeerd tijdens AutoML-berekeningen. Standaard: []
`exclude_frameworks`	`List[str]`	Optioneel. Lijst met algoritmeframeworks waarmee AutoML geen rekening moet houden bij het ontwikkelen van modellen. Mogelijke waarden: lege lijst of een of meer van 'sklearn', 'lightgbm', 'xgboost'. Standaard: [] (alle frameworks worden overwogen)
`feature_store_lookups`	`List[Dict]`	Optioneel. Lijst met woordenboeken die functies uit Feature Store voorstellen voor data-augmentatie. Geldige sleutels in elke woordenlijst zijn: `table_name` (str): vereist. Naam van de functietabel. `lookup_key` (lijst of str): vereist. Kolomnamen die als sleutel moeten worden gebruikt bij het samenvoegen van de functietabel met de gegevens die zijn doorgegeven in de `dataset` parameter. De volgorde van de kolomnamen moet overeenkomen met de volgorde van de primaire sleutels van de functietabel. `timestamp_lookup_key` (str): Vereist als de opgegeven tabel een tijdreeksfunctietabel is. De kolomnaam die moet worden gebruikt bij het uitvoeren van een zoekactie naar een bepaald tijdstip in de functietabel met de gegevens die zijn doorgegeven in de `dataset` param. Standaard: []
`imputers`	`Dict[str, Union[str, Dict[str, Any]]]`	Optioneel. Woordenlijst waarbij elke sleutel een kolomnaam is en elke waarde een tekenreeks of woordenlijst is die de imputatiestrategie beschrijft. Als deze is opgegeven als een tekenreeks, moet de waarde een van 'gemiddelde', 'mediaan' of 'most_frequent' zijn. Om te imputeren met een bekende waarde, specificeer de waarde als een woordenboek `{"strategy": "constant", "fill_value": <desired value>}`. U kunt ook tekenreeksopties opgeven als woordenlijsten, bijvoorbeeld `{"strategy": "mean"}`. Als er geen imputatiestrategie is opgegeven voor een kolom, selecteert AutoML een standaardstrategie op basis van het kolomtype en de inhoud. Als u een niet-standaardimplicatiemethode opgeeft, voert AutoML geen semantische typedetectie uit. Standaardwaarde: {}
`pos_label`	`Union[int, bool, str]`	(Alleen Classificatie) De Positieve Klasse. Dit is handig voor het berekenen van metingen, zoals precisie en herinnering. Mag alleen worden opgegeven voor binaire classificatieproblemen.
`time_col`	`str`	Beschikbaar in Databricks Runtime 10.1 ML en hoger. Optioneel. Kolomnaam voor een tijdkolom. Indien opgegeven, probeert AutoML de gegevensset op te splitsen in trainings-, validatie- en testsets chronologisch, met behulp van de vroegste punten als trainingsgegevens en de laatste punten als een testset. Geaccepteerde kolomtypen zijn tijdstempel en geheel getal. Met Databricks Runtime 10.2 ML en hoger worden tekenreekskolommen ook ondersteund. Als het kolomtype tekenreeks is, probeert AutoML het te converteren naar een tijdstempel met behulp van semantische detectie. Als de conversie mislukt, mislukt de AutoML-uitvoering.
`split_col`	`str`	Optioneel. Kolomnaam voor een gesplitste kolom. Alleen beschikbaar in Databricks Runtime 15.3 ML en hoger voor API-werkstromen. Indien opgegeven, probeert AutoML de train-/validate-/testsets te splitsen volgens door de gebruiker opgegeven waarden, en wordt deze kolom automatisch uitgesloten van de trainingskenmerken. Geaccepteerd kolomtype is tekenreeks. De waarde van elke vermelding in deze kolom moet een van de volgende zijn: 'train', 'validate' of 'test'.
`sample_weight_col`	`str`	Beschikbaar in Databricks Runtime 15.4 ML en hoger voor classificatie-API-werkstromen. Optioneel. Kolomnaam in de gegevensset die de steekproefgewichten voor elke rij bevat. Classificatie ondersteunt steekproefgewichten per klasse. Met deze gewichten wordt het belang van elke klasse tijdens de modeltraining aangepast. Elke steekproef in een klasse moet hetzelfde gewicht van de steekproef hebben en de gewichten moeten niet-negatieve decimale of gehele getallen zijn, variërend van 0 tot 10.000. Klassen met een hoger steekproefgewicht worden als belangrijker beschouwd en hebben een grotere invloed op het leeralgoritmen. Als deze kolom niet is opgegeven, wordt ervan uitgegaan dat alle klassen gelijk gewicht hebben.
`max_trials`	`int`	Optioneel. Maximum aantal tests dat moet worden uitgevoerd. Deze parameter is beschikbaar in Databricks Runtime 10.5 ML en lager, maar wordt afgeschaft vanaf Databricks Runtime 10.3 ML. In Databricks Runtime 11.0 ML en hoger wordt deze parameter niet ondersteund. Standaardwaarde: 20 Als timeout_minutes=Geen, wordt met AutoML het maximum aantal experimenten uitgevoerd.
`timeout_minutes`	`int`	Optioneel. Maximale tijd om te wachten totdat de AutoML-proefversies zijn voltooid. Met langere time-outs kan AutoML meer proefversies uitvoeren en een model identificeren met een betere nauwkeurigheid. Standaard: 120 minuten Minimumwaarde: 5 minuten Er wordt een fout gerapporteerd als de time-out te kort is om ten minste één proefversie te voltooien.

Teruggaan

De databricks.automl.regress methode configureert een AutoML-uitvoering om een regressiemodel te trainen. Deze methode retourneert een AutoMLSummary.

Notitie

databricks.automl.regress(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "r2",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None,                          # <DBR> 15.3 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Parameters regresseren

Parameternaam	Typ	Beschrijving
`dataset`	`str`, `pandas.DataFrame`, `pyspark.DataFrame`, `pyspark.sql.DataFrame`	Naam van invoertabel of DataFrame met trainingsfuncties en -doel. De tabelnaam kan worden geschreven in de vorm "<database_name>.<table_name>" of "<schema_name>.<table_name>" voor tabellen buiten de Unity Catalog.
`target_col`	`str`	Kolomnaam voor het doellabel.
`primary_metric`	`str`	Metrische gegevens die worden gebruikt om modelprestaties te evalueren en rangschikken. Ondersteunde metrische gegevens voor regressie: "r2" (standaard), "mae", "rmse", "mse" Ondersteunde metrische gegevens voor classificatie: 'f1' (standaard), 'log_loss', 'precisie', 'nauwkeurigheid', 'roc_auc'
`data_dir`	`str` indeling `dbfs:/<folder-name>`	Optioneel. DBFS-pad dat wordt gebruikt voor het opslaan van de trainingsgegevensset. Dit pad is zichtbaar voor zowel bestuurders- als werkknooppunten. Databricks raadt aan dit veld leeg te laten, zodat AutoML de trainingsgegevensset kan opslaan als een MLflow-artefact. Als er een aangepast pad is opgegeven, neemt de gegevensset de toegangsmachtigingen van het AutoML-experiment niet over.
`experiment_dir`	`str`	Optioneel. Het pad naar de opslaglocatie in de werkruimte om de gegenereerde notebooks en experimenten op te slaan. Standaardwaarde: `/Users/<username>/databricks_automl/`
`experiment_name`	`str`	Optioneel. Naam voor het MLflow-experiment dat door AutoML wordt gemaakt. Standaard: De naam wordt automatisch gegenereerd.
`exclude_cols`	`List[str]`	Optioneel. Lijst met kolommen die moeten worden genegeerd tijdens AutoML-berekeningen. Standaard: []
`exclude_frameworks`	`List[str]`	Optioneel. Lijst met algoritmeframeworks waarmee AutoML geen rekening moet houden bij het ontwikkelen van modellen. Mogelijke waarden: lege lijst of een of meer van 'sklearn', 'lightgbm', 'xgboost'. Standaard: [] (alle frameworks worden overwogen)
`feature_store_lookups`	`List[Dict]`	Optioneel. Lijst met woordenlijsten die functies uit Feature Store vertegenwoordigen voor gegevensvergroting. Geldige sleutels in elke woordenlijst zijn: `table_name` (str): vereist. Naam van de functietabel. `lookup_key` (lijst of str): vereist. Kolomnamen die als sleutel moeten worden gebruikt bij het samenvoegen van de functietabel met de gegevens die zijn doorgegeven in de `dataset` parameter. De volgorde van de kolomnamen moet overeenkomen met de volgorde van de primaire sleutels van de functietabel. `timestamp_lookup_key` (str): Vereist als de opgegeven tabel een tijdreeksfunctietabel is. De kolomnaam die moet worden gebruikt bij het uitvoeren van een zoekactie naar een bepaald tijdstip in de functietabel met de gegevens die zijn doorgegeven in de `dataset` param. Standaard: []
`imputers`	`Dict[str, Union[str, Dict[str, Any]]]`	Optioneel. Woordenlijst waarbij elke sleutel een kolomnaam is en elke waarde een tekenreeks of woordenlijst is die de imputatiestrategie beschrijft. Als deze is opgegeven als een tekenreeks, moet de waarde een van 'gemiddelde', 'mediaan' of 'most_frequent' zijn. Als u een bekende waarde wilt toepassen, geeft u de waarde op als een woordenlijst `{"strategy": "constant", "fill_value": <desired value>}`. U kunt ook tekenreeksopties opgeven als woordenlijsten, bijvoorbeeld `{"strategy": "mean"}`. Als er geen imputatiestrategie is opgegeven voor een kolom, selecteert AutoML een standaardstrategie op basis van het kolomtype en de inhoud. Als u een niet-standaardimplicatiemethode opgeeft, voert AutoML geen semantische typedetectie uit. Standaardwaarde: {}
`time_col`	`str`	Beschikbaar in Databricks Runtime 10.1 ML en hoger. Optioneel. Kolomnaam voor een tijdkolom. Indien opgegeven, probeert AutoML de gegevensset op te splitsen in trainings-, validatie- en testsets chronologisch, met behulp van de vroegste punten als trainingsgegevens en de laatste punten als een testset. Geaccepteerde kolomtypen zijn tijdstempel en geheel getal. Met Databricks Runtime 10.2 ML en hoger worden tekenreekskolommen ook ondersteund. Als het kolomtype tekenreeks is, probeert AutoML het te converteren naar een tijdstempel met behulp van semantische detectie. Als de conversie mislukt, mislukt de AutoML-uitvoering.
`split_col`	`str`	Optioneel. Kolomnaam voor een gesplitste kolom. Alleen beschikbaar in Databricks Runtime 15.3 ML en hoger voor API-werkstromen. Indien opgegeven, probeert AutoML de sets voor trainen, valideren en testen te splitsen op door de gebruiker opgegeven waarden, en wordt deze kolom automatisch uitgesloten van de trainingskenmerken. Geaccepteerd kolomtype is tekenreeks. De waarde van elke vermelding in deze kolom moet een van de volgende zijn: 'train', 'validate' of 'test'.
`sample_weight_col`	`str`	Beschikbaar in Databricks Runtime 15.3 ML en hoger voor regressie-API-werkstromen. Optioneel. Kolomnaam in de gegevensset die de steekproefgewichten voor elke rij bevat. Met deze gewichten wordt het belang van elke rij tijdens de modeltraining aangepast. Gewichten moeten niet-negatieve decimale of gehele getallen zijn, variërend van 0 tot 10.000. Rijen met hogere steekproefgewichten worden als belangrijker beschouwd en hebben een grotere invloed op het leeralgoritme. Als deze kolom niet is opgegeven, wordt ervan uitgegaan dat alle rijen gelijk zijn aan gewicht.
`max_trials`	`int`	Optioneel. Maximum aantal tests dat moet worden uitgevoerd. Deze parameter is beschikbaar in Databricks Runtime 10.5 ML en lager, maar wordt afgeschaft vanaf Databricks Runtime 10.3 ML. In Databricks Runtime 11.0 ML en hoger wordt deze parameter niet ondersteund. Standaardwaarde: 20 Als timeout_minutes=Geen, wordt met AutoML het maximum aantal experimenten uitgevoerd.
`timeout_minutes`	`int`	Optioneel. Maximale tijd om te wachten totdat de AutoML-proefversies zijn voltooid. Met langere time-outs kan AutoML meer proefversies uitvoeren en een model identificeren met een betere nauwkeurigheid. Standaard: 120 minuten Minimumwaarde: 5 minuten Er wordt een fout gerapporteerd als de time-out te kort is om ten minste één proefversie te voltooien.

Prognose

Met de databricks.automl.forecast methode configureert u een AutoML-uitvoering voor het trainen van een prognosemodel. Deze methode retourneert een AutoMLSummary. Als u Auto-ARIMA wilt gebruiken, moet de tijdreeks een normale frequentie hebben (dat wil gezegd, het interval tussen twee punten moet hetzelfde zijn gedurende de tijdreeks). De frequentie moet overeenkomen met de frequentie-eenheid die is opgegeven in de API-aanroep. AutoML verwerkt ontbrekende tijdstappen door deze waarden in te vullen met de vorige waarde.

databricks.automl.forecast(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  time_col: str,
  primary_metric: str = "smape",
  country_code: str = "US",                                         # <DBR> 12.0 ML and above
  frequency: str = "D",
  horizon: int = 1,
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_frameworks: Optional[List[str]] = None,
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 12.2 LTS ML and above
  identity_col: Optional[Union[str, List[str]]] = None,
  sample_weight_col: Optional[str] = None,                          # <DBR> 16.0 ML and above
  output_database: Optional[str] = None,                            # <DBR> 10.5 ML and above
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Parameters voor prognose

Parameternaam	Type	Beschrijving
`dataset`	`str`, `pandas.DataFrame`, `pyspark.DataFrame`, `pyspark.sql.DataFrame`	Naam van invoertabel of DataFrame met trainingsfuncties en -doel. De tabelnaam kan in het formaat ".." zijn. of "." voor niet-Unity Catalog-tabellen
`target_col`	`str`	Kolomnaam voor het doellabel.
`time_col`	`str`	Naam van de tijdkolom voor prognose.
`primary_metric`	`str`	Metrische gegevens die worden gebruikt om modelprestaties te evalueren en rangschikken. Ondersteunde metrische gegevens: 'smape' (standaard), 'mse', 'rmse', 'mae' of 'mdape'.
`country_code`	`str`	Beschikbaar in Databricks Runtime 12.0 ML en hoger. Alleen ondersteund door het voorspellende model Prophet. Optioneel. Landcode van twee letters die aangeeft welke feestdagen het prognosemodel moet gebruiken. Als u feestdagen wilt negeren, stelt u deze parameter in op een lege tekenreeks (""). Ondersteunde landen. Standaard: VS (Verenigde Staten feestdagen).
`frequency`	`str`	Frequentie van de tijdreeks voor prognoses. Dit is de periode waarmee gebeurtenissen naar verwachting plaatsvinden. De standaardinstelling is 'D' of dagelijkse gegevens. Zorg ervoor dat u de instelling wijzigt als uw gegevens een andere frequentie hebben. Mogelijke waarden: "W" (weken) "D" / "dagen" / "dag" "uur" / "uur" / "u" / "u" "m" / "minuut" / "min" / "minuten" / "T" "S" / "seconden" / "sec" / "seconde" De volgende zijn alleen beschikbaar met Databricks Runtime 12.0 ML en hoger: "M" / "maand" / "maanden" "Q" / "kwartaal" / "kwartalen" "Y" / "jaar" / "jaren" Standaard: "D"
`horizon`	`int`	Aantal perioden in de toekomst waarvoor prognoses moeten worden geretourneerd. De eenheden zijn de tijdreeksfrequentie. Standaard: 1
`data_dir`	`str` indeling `dbfs:/<folder-name>`	Optioneel. DBFS-pad dat wordt gebruikt voor het opslaan van de trainingsgegevensset. Dit pad is zichtbaar voor zowel besturingsknooppunten als werkknooppunten. Databricks raadt aan dit veld leeg te laten, zodat AutoML de trainingsgegevensset kan opslaan als een MLflow-artefact. Als er een aangepast pad is opgegeven, neemt de gegevensset de toegangsmachtigingen van het AutoML-experiment niet over.
`experiment_dir`	`str`	Optioneel. Pad naar het directory in de werkruimte om de gegenereerde experimenten en notebooks op te slaan. Standaardwaarde: `/Users/<username>/databricks_automl/`
`experiment_name`	`str`	Optioneel. Naam voor het MLflow-experiment dat door AutoML wordt gemaakt. Standaard: De naam wordt automatisch gegenereerd.
`exclude_frameworks`	`List[str]`	Optioneel. Lijst met algoritmeframeworks waarmee AutoML geen rekening moet houden bij het ontwikkelen van modellen. Mogelijke waarden: lege lijst of een of meer 'profeet', 'arima'. Standaard: [] (alle frameworks worden overwogen)
`feature_store_lookups`	`List[Dict]`	Optioneel. Lijst met woordenlijsten die functies uit Feature Store vertegenwoordigen voor covariate gegevensvergroting. Geldige sleutels in elke woordenlijst zijn: `table_name` (str): vereist. Naam van de functietabel. `lookup_key` (lijst of string): verplicht. Kolomnamen die als sleutel moeten worden gebruikt bij het samenvoegen van de functietabel met de gegevens die zijn doorgegeven in de `dataset` parameter. De volgorde van de kolomnamen moet overeenkomen met de volgorde van de primaire sleutels van de functietabel. `timestamp_lookup_key` (str): Vereist als de opgegeven tabel een tijdreeksfunctietabel is. De kolomnaam die moet worden gebruikt bij het uitvoeren van een zoekactie naar een bepaald tijdstip in de functietabel met de gegevens die zijn doorgegeven in de `dataset` param. Standaard: []
`identity_col`	`Union[str, list]`	Optioneel. Kolom(en) die de tijdreeks voor prognoses van meerdere reeksen identificeren. AutoML groepeert op deze kolom(en) en de tijdkolom voor prognoses.
`sample_weight_col`	`str`	Beschikbaar in Databricks Runtime 16.0 ML en hoger. Alleen voor werkstromen met meerdere tijdreeksen. Optioneel. Specificeert de kolom in de gegevensset die steekproefgewichten bevat. Deze gewichten geven het relatieve belang aan van elke tijdreeks tijdens het trainen en evalueren van modellen. Tijdreeksen met een hoger gewicht hebben een grotere invloed op het model. Indien niet opgegeven, worden alle tijdreeksen behandeld met gelijke gewicht. Alle rijen die tot dezelfde tijdreeks behoren, moeten hetzelfde gewicht hebben. Gewichten moeten niet-negatieve waarden zijn, decimalen of gehele getallen, en tussen 0 en 10.000 zijn.
`output_database`	`str`	Optioneel. Indien opgegeven, worden voorspellingen van het beste model opgeslagen in een nieuwe tabel in de opgegeven database. Standaard: Voorspellingen worden niet opgeslagen.
`timeout_minutes`	`int`	Optioneel. Maximale tijd om te wachten totdat de AutoML-proefversies zijn voltooid. Met langere time-outs kan AutoML meer proefversies uitvoeren en een model identificeren met een betere nauwkeurigheid. Standaard: 120 minuten Minimumwaarde: 5 minuten Er wordt een fout gerapporteerd als de time-out te kort is om ten minste één proefversie te voltooien.

Notebook importeren

Met de databricks.automl.import_notebook methode wordt een notebook geïmporteerd dat is opgeslagen als een MLflow-artefact. Met deze methode wordt een ImportNotebookResult geretourneerd.

databricks.automl.import_notebook(
  artifact_uri: str,
  path: str,
  overwrite: bool = False
) -> ImportNotebookResult:

Parameters	Type	Beschrijving
`artifact_uri`	`str`	De URI van het MLflow-artefact dat het proefnotitieblok bevat.
`path`	`str`	Het pad in de Databricks-werkruimte waar het notebook moet worden geïmporteerd. Dit moet een absoluut pad zijn. Als de directory niet bestaat, wordt deze gemaakt.
`overwrite`	`bool`	Of u het notitieblok wilt overschrijven als dit al bestaat. Dit is `False` standaard.

Voorbeeld van een notebook importeren

summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)

`AutoMLSummary`

Samenvattingsobject voor een AutoML-uitvoering die de metrische gegevens, parameters en andere details voor elk van de proefversies beschrijft. U gebruikt dit object ook om het model te laden dat is getraind door een specifiek experiment.

Eigendom	Soort	Beschrijving
`experiment`	`mlflow.entities.Experiment`	Het MLflow-experiment dat wordt gebruikt om de experimenten te registreren.
`trials`	`List[TrialInfo]`	Een lijst met TrialInfo-objecten met informatie over alle uitgevoerde proefversies.
`best_trial`	`TrialInfo`	Een TrialInfo-object met informatie over de proefversie die heeft geresulteerd in de beste gewogen score voor de primaire metrische waarde.
`metric_distribution`	`str`	De verdeling van gewogen scores voor de primaire meetwaarde voor alle experimenten.
`output_table_name`	`str`	Wordt alleen gebruikt met prognoses en alleen als output_database is opgegeven. Naam van de tabel in output_database met de voorspellingen van het model.

`TrialInfo`

Samenvattingsobject voor elke afzonderlijke proef.

Eigenschap	Soort	Beschrijving
`notebook_path`	`Optional[str]`	Het pad naar het gegenereerde notebook voor deze proef in de werkruimte. Voor classificatie en regressie is deze waarde alleen ingesteld voor de beste proefversie, terwijl alle andere experimenten de waarde hebben ingesteld op `None`. Voor prognoses is deze waarde aanwezig voor alle proefversies.
`notebook_url`	`Optional[str]`	De URL van het gegenereerde notebook voor deze proefversie. Voor classificatie en regressie is deze waarde alleen ingesteld voor de beste proefversie, terwijl alle andere experimenten de waarde hebben ingesteld op `None`. Voor prognoses is deze waarde aanwezig voor alle proefversies.
`artifact_uri`	`Optional[str]`	De URI van het MLflow-artefact voor het gegenereerde notebook.
`mlflow_run_id`	`str`	De MLflow-uitvoerings-id die is gekoppeld aan deze proefversie.
`metrics`	`Dict[str, float]`	De metrische gegevens die zijn vastgelegd in MLflow voor deze proefversie.
`params`	`Dict[str, str]`	De parameters die zijn vastgelegd in MLflow die zijn gebruikt voor deze proefversie.
`model_path`	`str`	De MLflow-artefact-URL van het model dat in deze proefversie is getraind.
`model_description`	`str`	Korte beschrijving van het model en de hyperparameters die worden gebruikt voor het trainen van dit model.
`duration`	`str`	Trainingsduur in minuten.
`preprocessors`	`str`	Beschrijving van de preprocessors die worden uitgevoerd voordat het model wordt getraind.
`evaluation_metric_score`	`float`	Score van primaire metrische gegevens, geëvalueerd voor de validatiegegevensset.

TrialInfo heeft een methode voor het laden van het model dat is gegenereerd voor de proefversie.

Wijze	Beschrijving
`load_model()`	Laad het model dat in deze proefversie is gegenereerd, geregistreerd als een MLflow-artefact.

`ImportNotebookResult`

Eigenschap	Type	Beschrijving
`path`	`str`	Het pad in de Databricks-werkruimte waar het notebook moet worden geïmporteerd. Dit moet een absoluut pad zijn. De map wordt aangemaakt als deze niet bestaat.
`url`	`str`	De URI van het MLflow-artefact dat het proefnotitieblok bevat.

Delen via