Freigeben über


Python-API-Referenz für automatisiertes maschinelles Lernen

In diesem Artikel wird die AutoML-Python-API beschrieben, die Methoden zum Starten der Klassifizierung, Regression und Prognose von AutoML-Ausführung bereitstellt. Jeder Methodenaufruf trainiert eine Gruppe von Modellen und generiert ein Testnotebook für jedes Modell.

Weitere Informationen zum automatisierten maschinellen Lernen (einschließlich einer Low-Code-Benutzeroberflächenoption) finden Sie unter Was ist AutoML?.

Klassifizieren

Die databricks.automl.classify-Methode konfiguriert eine Ausführung des automatisierten maschinellen Lernens zum Trainieren eines Klassifizierungsmodells.

Hinweis

Der Parameter max_trials ist in Databricks Runtime 10.4 ML veraltet und wird in Databricks Runtime 11.0 ML und höher nicht unterstützt. Verwenden Sie timeout_minutes, um die Dauer einer AutoML-Ausführung zu steuern.

databricks.automl.classify(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "f1",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  pos_label: Optional[Union[int, bool, str]] = None,                 # <DBR> 11.1 ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None                           # <DBR> 15.4 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Klassifizierungsparameter

Parametername Type Beschreibung
dataset str, , pandas.DataFramepyspark.DataFramepyspark.sql.DataFrame Eingabetabellenname oder DataFrame, der Trainingsfeatures und das Ziel enthält. Für den Tabellennamen kann das Format „<Datenbankname>.<Tabellenname>“ oder das Format „<Schemaname>.<Tabellenname>“ für Unity Catalog-fremde Tabellen verwendet werden.
target_col str Spaltenname für die Zielbezeichnung.
primary_metric str Metrik zum Auswerten und Bewerten der Modellleistung.

Unterstützte Metriken für die Regression: “r2” (Standard), “mae”, “rmse”, “mse”

Unterstützte Metriken für die Klassifizierung: “f1” (Standard), “log_loss”, “precision”, “accuracy”, “roc_auc”
data_dir str im Format dbfs:/<folder-name> Optional. DBFS-Pfad zum Speichern des Trainingsdatasets. Dieser Pfad ist sowohl für Treiber- als auch für Workerknoten sichtbar.

Databricks empfiehlt, dieses Feld leer zu lassen, damit automatisiertes ML das Trainingsdataset als MLflow-Artefakt speichern kann.

Wenn ein benutzerdefinierter Pfad angegeben ist, erbt das Dataset die Zugriffsberechtigungen des AutoML-Experiments nicht.
experiment_dir str Optional. Pfad zu dem Verzeichnis im Arbeitsbereich, in dem die generierten Notebooks und Experimente gespeichert werden sollen.

Standard: /Users/<username>/databricks_automl/
experiment_name str Optional. Name des MLflow-Experiments, das durch das automatisierte maschinelle Lernen erstellt wird.

Standard: Der Name wird automatisch generiert.
exclude_cols List[str] Optional. Liste der Spalten, die bei Berechnungen des automatisierten maschinellen Lernens ignoriert werden sollen.

Standardwert: []
exclude_frameworks List[str] Optional. Liste der Algorithmusframeworks, die das automatisierte maschinelle Lernen bei der Entwicklung von Modellen nicht berücksichtigen soll. Mögliche Werte: leere Liste oder mindestens eine der folgenden Werte: “sklearn”, “lightgbm”, “xgboost”.

Standardwert: [] (alle Frameworks werden berücksichtigt)
feature_store_lookups List[Dict] Optional. Liste der Wörterbücher, die Features aus dem Featurespeicher für die Datenerweiterung darstellen. Es folgen gültige Schlüssel in den einzelnen Verzeichnissen:

- table_name (str): Erforderlich. Name der Featuretabelle.
- lookup_key („list“ oder „str“): Erforderlich. Spaltennamen, die als Schlüssel für die Verknüpfung der Tabelle mit den im Parameter dataset übergebenen Daten verwendet werden sollen. Die Reihenfolge der Spaltennamen muss der Reihenfolge der Primärschlüssel der Featuretabelle entsprechen.
- timestamp_lookup_key (str): Erforderlich, wenn die angegebene Tabelle eine Zeitreihen-Featuretabelle ist. Der Spaltenname, der beim Ausführen einer Zeitpunktsuche in der Featuretabelle mit den im Parameter dataset übergebenen Daten verwendet werden soll.

Standardwert: []
imputers Dict[str, Union[str, Dict[str, Any]]] Optional. Wörterbuch, in dem jeder Schlüssel ein Spaltenname und jeder Wert eine Zeichenfolge oder ein Wörterbuch ist, die bzw. das die Imputationsstrategie beschreibt. Bei Angabe als Zeichenfolge muss der Wert “mean”, “median” oder “most_frequent”. Um einen bekannten Wert zu imputieren, geben Sie den Wert als Wörterbuch {"strategy": "constant", "fill_value": <desired value>} an. Sie können auch Zeichenfolgenoptionen als Wörterbücher angeben (z. B. {"strategy": "mean"}).

Wenn für eine Spalte keine Imputationsstrategie angegeben wird, wählt AutoML basierend auf Spaltentyp und Inhalt eine Standardstrategie aus. Wenn Sie eine nicht standardmäßige Imputationsmethode angeben, führt AutoML keine semantische Typerkennung durch.

Standard: {}
pos_label Union[int, bool, str] (Nur Klassifizierung) Die positive Klasse. Dies ist nützlich für die Berechnung von Metriken wie Genauigkeit und Abruf. Dies sollte nur für binäre Klassifizierungsprobleme angegeben werden.
time_col str Verfügbar in Databricks Runtime 10.1 ML und höheren Versionen.

Optional. Spaltenname für eine Zeitspalte.

Falls angegeben, versucht AutoML, das Dataset chronologisch in Trainings-, Validierungs- und Testmengen aufzuteilen, wobei die frühesten Punkte als Trainingsdaten und die neuesten Punkte als Testmenge verwendet werden.

Akzeptierte Spaltentypen sind Zeitstempel und Integer. Mit Databricks Runtime 10.2 ML und höher werden auch Zeichenfolgenspalten unterstützt.

Wenn der Spaltentyp eine Zeichenfolge ist, versucht AutoML, sie mithilfe der semantischen Erkennung in einen Zeitstempel zu konvertieren. Wenn die Konvertierung fehlschlägt, schlägt auch die AutoML-Ausführung fehl.
split_col str Optional. Spaltenname für eine geteilte Spalte. Nur in Databricks Runtime 15.3 ML und höher für API-Workflows verfügbar. Wenn angegeben, versucht AutoML, Trainings-/Überprüfungs-/Testsätze durch von Benutzer*innen angegebene Werte aufzuteilen, und diese Spalte wird automatisch von Trainingsfeatures ausgeschlossen.

Der akzeptierte Spaltentyp ist eine Zeichenfolge. Die Werte der Einträge in dieser Spalte müssen jeweils einem der folgenden Typen entsprechen: „train“, „validate“ oder „test“.
sample_weight_col str In Databricks Runtime 15.4 ML und höher für API-Klassifizierungsworkflows verfügbar.

Optional. Name der Spalte im Dataset, die die Stichprobengewichtung für die jeweilige Zeile enthält. Die Klassifizierung unterstützt Stichprobengewichtung pro Klasse. Diese Gewichtungen passen während des Modelltrainings die Wichtigkeit jeder Klasse an. Jede Stichprobe in einer Klasse muss dieselbe Stichprobengewichtung aufweisen, und die Gewichtungen müssen nicht negative Dezimal- oder ganzzahlige Werte sein, von 0 bis 10.000. Klassen mit höheren Stichprobengewichtungen werden als wichtiger angesehen und haben einen größeren Einfluss auf den Lernalgorithmus. Wenn diese Spalte nicht angegeben wird, wird davon ausgegangen, dass alle Klassen gleich gewichtet sind.
max_trials int Optional. Maximale Anzahl auszuführender Testversionen. Dieser Parameter ist in Databricks Runtime 10.5 ML und niedriger verfügbar, ist jedoch ab Databricks Runtime 10.3 ML veraltet. In Databricks Runtime 11.0 ML und höher wird dieser Parameter nicht unterstützt.

Standard: 20

Wenn timeout_minutes=None ist, führt AutoML die maximale Anzahl von Testversionen aus.
timeout_minutes int Optional. Maximale Wartezeit bis zum Abschluss der Tests des automatisierten maschinellen Lernens. Längere Timeouts ermöglichen es AutoML, mehr Testversionen auszuführen und ein Modell mit besserer Genauigkeit zu identifizieren.

Standardwert: 120 Minuten

Mindestwert: 5 Minuten

Ein Fehler wird gemeldet, wenn das Timeout zu kurz ist, um mindestens eine Testversion abzuschließen.

Regression

Die databricks.automl.regress-Methode konfiguriert eine Ausführung des automatisierten maschinellen Lernens zum Trainieren eines Regressionsmodells. Diese Methode gibt ein Element vom Typ AutoMLSummary zurück.

Hinweis

Der Parameter max_trials ist in Databricks Runtime 10.4 ML veraltet und wird in Databricks Runtime 11.0 ML und höher nicht unterstützt. Verwenden Sie timeout_minutes, um die Dauer einer AutoML-Ausführung zu steuern.

databricks.automl.regress(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "r2",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None,                          # <DBR> 15.3 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Regressionsparameter

Parametername Type Beschreibung
dataset str, , pandas.DataFramepyspark.DataFramepyspark.sql.DataFrame Eingabetabellenname oder DataFrame, der Trainingsfeatures und das Ziel enthält. Für den Tabellennamen kann das Format „<Datenbankname>.<Tabellenname>“ oder das Format „<Schemaname>.<Tabellenname>“ für Unity Catalog-fremde Tabellen verwendet werden.
target_col str Spaltenname für die Zielbezeichnung.
primary_metric str Metrik zum Auswerten und Bewerten der Modellleistung.

Unterstützte Metriken für die Regression: “r2” (Standard), “mae”, “rmse”, “mse”

Unterstützte Metriken für die Klassifizierung: “f1” (Standard), “log_loss”, “precision”, “accuracy”, “roc_auc”
data_dir str im Format dbfs:/<folder-name> Optional. DBFS-Pfad zum Speichern des Trainingsdatasets. Dieser Pfad ist sowohl für Treiber- als auch für Workerknoten sichtbar.

Databricks empfiehlt, dieses Feld leer zu lassen, damit automatisiertes ML das Trainingsdataset als MLflow-Artefakt speichern kann.

Wenn ein benutzerdefinierter Pfad angegeben ist, erbt das Dataset die Zugriffsberechtigungen des AutoML-Experiments nicht.
experiment_dir str Optional. Pfad zu dem Verzeichnis im Arbeitsbereich, in dem die generierten Notebooks und Experimente gespeichert werden sollen.

Standard: /Users/<username>/databricks_automl/
experiment_name str Optional. Name des MLflow-Experiments, das durch das automatisierte maschinelle Lernen erstellt wird.

Standard: Der Name wird automatisch generiert.
exclude_cols List[str] Optional. Liste der Spalten, die bei Berechnungen des automatisierten maschinellen Lernens ignoriert werden sollen.

Standardwert: []
exclude_frameworks List[str] Optional. Liste der Algorithmusframeworks, die das automatisierte maschinelle Lernen bei der Entwicklung von Modellen nicht berücksichtigen soll. Mögliche Werte: leere Liste oder mindestens eine der folgenden Werte: “sklearn”, “lightgbm”, “xgboost”.

Standardwert: [] (alle Frameworks werden berücksichtigt)
feature_store_lookups List[Dict] Optional. Liste der Wörterbücher, die Features aus dem Featurespeicher für die Datenerweiterung darstellen. Es folgen gültige Schlüssel in den einzelnen Verzeichnissen:

- table_name (str): Erforderlich. Name der Featuretabelle.
- lookup_key („list“ oder „str“): Erforderlich. Spaltennamen, die als Schlüssel für die Verknüpfung der Tabelle mit den im Parameter dataset übergebenen Daten verwendet werden sollen. Die Reihenfolge der Spaltennamen muss der Reihenfolge der Primärschlüssel der Featuretabelle entsprechen.
- timestamp_lookup_key (str): Erforderlich, wenn die angegebene Tabelle eine Zeitreihen-Featuretabelle ist. Der Spaltenname, der beim Ausführen einer Zeitpunktsuche in der Featuretabelle mit den im Parameter dataset übergebenen Daten verwendet werden soll.

Standardwert: []
imputers Dict[str, Union[str, Dict[str, Any]]] Optional. Wörterbuch, in dem jeder Schlüssel ein Spaltenname und jeder Wert eine Zeichenfolge oder ein Wörterbuch ist, die bzw. das die Imputationsstrategie beschreibt. Bei Angabe als Zeichenfolge muss der Wert “mean”, “median” oder “most_frequent”. Um einen bekannten Wert zu imputieren, geben Sie den Wert als Wörterbuch {"strategy": "constant", "fill_value": <desired value>} an. Sie können auch Zeichenfolgenoptionen als Wörterbücher angeben (z. B. {"strategy": "mean"}).

Wenn für eine Spalte keine Imputationsstrategie angegeben wird, wählt AutoML basierend auf Spaltentyp und Inhalt eine Standardstrategie aus. Wenn Sie eine nicht standardmäßige Imputationsmethode angeben, führt AutoML keine semantische Typerkennung durch.

Standard: {}
time_col str Verfügbar in Databricks Runtime 10.1 ML und höheren Versionen.

Optional. Spaltenname für eine Zeitspalte.

Falls angegeben, versucht AutoML, das Dataset chronologisch in Trainings-, Validierungs- und Testmengen aufzuteilen, wobei die frühesten Punkte als Trainingsdaten und die neuesten Punkte als Testmenge verwendet werden.

Akzeptierte Spaltentypen sind Zeitstempel und Integer. Mit Databricks Runtime 10.2 ML und höher werden auch Zeichenfolgenspalten unterstützt.

Wenn der Spaltentyp eine Zeichenfolge ist, versucht AutoML, sie mithilfe der semantischen Erkennung in einen Zeitstempel zu konvertieren. Wenn die Konvertierung fehlschlägt, schlägt auch die AutoML-Ausführung fehl.
split_col str Optional. Spaltenname für eine geteilte Spalte. Nur in Databricks Runtime 15.3 ML und höher für API-Workflows verfügbar. Wenn angegeben, versucht AutoML, Trainings-/Überprüfungs-/Testsätze durch von Benutzer*innen angegebene Werte aufzuteilen, und diese Spalte wird automatisch von Trainingsfeatures ausgeschlossen.

Der akzeptierte Spaltentyp ist eine Zeichenfolge. Die Werte der Einträge in dieser Spalte müssen jeweils einem der folgenden Typen entsprechen: „train“, „validate“ oder „test“.
sample_weight_col str In Databricks Runtime 15.3 ML und höher für API-Regressionsworkflows verfügbar.

Optional. Name der Spalte im Dataset, die die Stichprobengewichtung für die jeweilige Zeile enthält. Diese Gewichtungen passen während des Modelltrainings die Wichtigkeit jeder Zeile an. Gewichtungen müssen nicht-negative dezimale oder ganzzahlige Werte sein, die zwischen 0 und 10.000 liegen. Zeilen mit höheren Stichprobengewichtungen werden als wichtiger angesehen und haben einen größeren Einfluss auf den Lernalgorithmus. Wenn diese Spalte nicht angegeben wird, wird davon ausgegangen, dass alle Zeilen gleich gewichtet sind.
max_trials int Optional. Maximale Anzahl auszuführender Testversionen. Dieser Parameter ist in Databricks Runtime 10.5 ML und niedriger verfügbar, ist jedoch ab Databricks Runtime 10.3 ML veraltet. In Databricks Runtime 11.0 ML und höher wird dieser Parameter nicht unterstützt.

Standard: 20

Wenn timeout_minutes=None ist, führt AutoML die maximale Anzahl von Testversionen aus.
timeout_minutes int Optional. Maximale Wartezeit bis zum Abschluss der Tests des automatisierten maschinellen Lernens. Längere Timeouts ermöglichen es AutoML, mehr Testversionen auszuführen und ein Modell mit besserer Genauigkeit zu identifizieren.

Standardwert: 120 Minuten

Mindestwert: 5 Minuten

Ein Fehler wird gemeldet, wenn das Timeout zu kurz ist, um mindestens eine Testversion abzuschließen.

Forecast

Die databricks.automl.forecast-Methode konfiguriert eine Ausführung des automatisierten maschinellen Lernens zum Trainieren eines Vorhersagemodells. Diese Methode gibt ein Element vom Typ AutoMLSummary zurück. Um Auto-ARIMA verwenden zu können, muss die Zeitreihe eine reguläre Häufigkeit haben (d. h., das Intervall zwischen zwei beliebigen Punkten muss während der gesamten Zeitreihe identisch sein). Die Häufigkeit muss mit der im API-Aufruf angegebenen Einheit für Häufigkeit übereinstimmen. AutoML behandelt fehlende Zeitschritte, indem diese Werte mit dem vorherigen Wert aufgefüllt werden.

databricks.automl.forecast(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  time_col: str,
  primary_metric: str = "smape",
  country_code: str = "US",                                         # <DBR> 12.0 ML and above
  frequency: str = "D",
  horizon: int = 1,
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_frameworks: Optional[List[str]] = None,
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 12.2 LTS ML and above
  identity_col: Optional[Union[str, List[str]]] = None,
  sample_weight_col: Optional[str] = None,                          # <DBR> 16.0 ML and above
  output_database: Optional[str] = None,                            # <DBR> 10.5 ML and above
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Prognoseparameter

Parametername Type Beschreibung
dataset str, , pandas.DataFramepyspark.DataFramepyspark.sql.DataFrame Eingabetabellenname oder DataFrame, der Trainingsfeatures und das Ziel enthält.

Der Tabellenname kann im Format „..“ oder „.“ vorliegen bei anderen Tabellen als Unity Catalog-Tabellen
target_col str Spaltenname für die Zielbezeichnung.
time_col str Name der Zeitspalte für die Vorhersage.
primary_metric str Metrik zum Auswerten und Bewerten der Modellleistung.

Unterstützte Metriken: „smape“(Standardwert) „mse“, „rmse“, „mae“ oder „mdape“.
country_code str Verfügbar in Databricks Runtime 12.0 ML und höher. Wird nur vom Vorhersagemodell Prophet unterstützt.

Optional. (Optional) Die zweistellige Landeskennzahl, die angibt, welche Feiertage des Landes im Vorhersagemodell berücksichtigt werden sollen. Um Feiertage zu ignorieren, legen Sie diesen Parameter auf eine leere Zeichenfolge ("") fest.

Unterstützte Länder.

Standardeinstellung: USA (Feiertage in den USA).
frequency str Häufigkeit der Zeitreihe für Vorhersagen. Dies ist der Zeitraum, in dem Ereignisse erwartet werden. Die Standardeinstellung ist „D“ oder tägliche Daten. Achten Sie darauf, die Einstellung zu ändern, wenn Ihre Daten eine andere Häufigkeit aufweisen.

Mögliche Werte:

“W” (weeks)

“D” / “days” / “day”

“hours” / “hour” / “hr” / “h”

“m” / “minute” / “min” / “minutes” / “T”

“S” / “seconds” / “sec” / “second”

Folgendes ist nur mit Databricks Runtime 12.0 ML und höher verfügbar:

„M“/„Monat“/“Monate“

„Q“/„Quartal“/„Quartale“

„Y“/„Jahr”/„Jahre”

Standard: “D”
horizon int Anzahl der Zeiträume in der Zukunft, für die Vorhersagen zurückgegeben werden sollen.

Die Einheiten sind die Zeitreihenhäufigkeit.

Standardwert: 1
data_dir str im Format dbfs:/<folder-name> Optional. DBFS-Pfad zum Speichern des Trainingsdatasets. Dieser Pfad ist sowohl für Treiber- als auch für Workerknoten sichtbar.

Databricks empfiehlt, dieses Feld leer zu lassen, damit automatisiertes ML das Trainingsdataset als MLflow-Artefakt speichern kann.

Wenn ein benutzerdefinierter Pfad angegeben ist, erbt das Dataset die Zugriffsberechtigungen des AutoML-Experiments nicht.
experiment_dir str Optional. Pfad zu dem Verzeichnis im Arbeitsbereich, in dem die generierten Notebooks und Experimente gespeichert werden sollen.

Standard: /Users/<username>/databricks_automl/
experiment_name str Optional. Name des MLflow-Experiments, das durch das automatisierte maschinelle Lernen erstellt wird.

Standard: Der Name wird automatisch generiert.
exclude_frameworks List[str] Optional. Liste der Algorithmusframeworks, die das automatisierte maschinelle Lernen bei der Entwicklung von Modellen nicht berücksichtigen soll. Mögliche Werte: leere Liste oder mindestens eine der folgenden Werte: “prophet”, “arima”.

Standardwert: [] (alle Frameworks werden berücksichtigt)
feature_store_lookups List[Dict] Optional. Liste der Wörterbücher, die Features aus dem Feature-Speicher für die kovariante Datenerweiterung darstellen. Es folgen gültige Schlüssel in den einzelnen Verzeichnissen:

- table_name (str): Erforderlich. Name der Featuretabelle.
- lookup_key („list“ oder „str“): Erforderlich. Spaltennamen, die als Schlüssel für die Verknüpfung der Tabelle mit den im Parameter dataset übergebenen Daten verwendet werden sollen. Die Reihenfolge der Spaltennamen muss der Reihenfolge der Primärschlüssel der Featuretabelle entsprechen.
- timestamp_lookup_key (str): Erforderlich, wenn die angegebene Tabelle eine Zeitreihen-Featuretabelle ist. Der Spaltenname, der beim Ausführen einer Zeitpunktsuche in der Featuretabelle mit den im Parameter dataset übergebenen Daten verwendet werden soll.

Standardwert: []
identity_col Union[str, list] Optional. Spalten zur Identifizierung von Mehrreihen-Vorhersagen. AutoML gruppiert diese Spalte(n) und die Zeitspalte für die Vorhersage.
sample_weight_col str Verfügbar in Databricks Runtime 16.0 ML und höher. Nur für Workflows mit mehreren Zeitreihen.

Optional. Gibt die Spalte im Dataset an, die Beispielgewichte enthält. Diese Gewichtungen geben die relative Bedeutung jeder Zeitreihe während der Modellschulung und -auswertung an.

Zeitreihen mit höheren Gewichten haben einen größeren Einfluss auf das Modell. Wenn nicht angegeben, werden alle Zeitreihen mit gleicher Gewichtung behandelt.

Alle Zeilen, die zur gleichen Zeitreihe gehören, müssen dieselbe Gewichtung aufweisen.

Gewichtungen müssen nicht negative Werte sein, entweder Dezimalstellen oder ganze Zahlen und zwischen 0 und 10.000.
output_database str Optional. Falls angegeben, speichert das automatisierte maschinelle Lernen die Vorhersagen des besten Modells in einer neuen Tabelle in der angegebenen Datenbank.

Standard: Vorhersagen werden nicht gespeichert.
timeout_minutes int Optional. Maximale Wartezeit bis zum Abschluss der Tests des automatisierten maschinellen Lernens. Längere Timeouts ermöglichen es AutoML, mehr Testversionen auszuführen und ein Modell mit besserer Genauigkeit zu identifizieren.

Standardwert: 120 Minuten

Mindestwert: 5 Minuten

Ein Fehler wird gemeldet, wenn das Timeout zu kurz ist, um mindestens eine Testversion abzuschließen.

Notebook importieren

Die databricks.automl.import_notebook-Methode importiert ein Notebook, das als MLflow-Artefakt gespeichert wurde. Diese Methode gibt ein Element vom Typ ImportNotebookResult zurück.

databricks.automl.import_notebook(
  artifact_uri: str,
  path: str,
  overwrite: bool = False
) -> ImportNotebookResult:
Parameter Typ Beschreibung
artifact_uri str Der URI des MLflow-Artefakts, das das Testnotebook enthält.
path str Der Pfad im Databricks-Arbeitsbereich, unter dem das Notebook importiert werden soll. Hierbei muss es sich um einen absoluten Pfad handeln. Falls das Verzeichnis noch nicht vorhanden ist, wird es erstellt.
overwrite bool Gibt an, ob das Notebook überschrieben werden soll, wenn es bereits vorhanden ist. Die Standardeinstellung ist False.

Beispiel für das Importieren eines Notebooks

summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)

AutoMLSummary

Zusammenfassungsobjekt für eine AutoML-Ausführung, die die Metriken, Parameter und andere Details für die einzelnen Testversionen beschreibt. Sie verwenden dieses Objekt auch, um das von einer bestimmten Testversion trainierte Modell zu laden.

Eigenschaft Typ Beschreibung
experiment mlflow.entities.Experiment Das MLflow-Experiment, das zum Protokollieren der Testversionen verwendet wird.
trials List[TrialInfo] Eine Liste mit Objekten vom Typ TrialInfo, die Informationen zu allen ausgeführten Testversionen enthalten.
best_trial TrialInfo Ein Objekt vom Typ TrialInfo, das Informationen zu der Testversion enthält, die zur besten gewichteten Bewertung für die primäre Metrik geführt hat.
metric_distribution str Die Verteilung der gewichteten Bewertungen für die primäre Metrik über Testversionen hinweg.
output_table_name str Wird nur bei Vorhersagen verwendet und nur, wenn output_database bereitgestellt wird.

Name der Tabelle in output_database, die die Vorhersagen des Modells enthält.

TrialInfo

Zusammenfassungsobjekt für jede einzelne Testversion.

Eigenschaft Typ Beschreibung
notebook_path Optional[str] Der Pfad zum generierten Notebook für diese Testversion im Arbeitsbereich.

Bei der Klassifizierung und Regression wird dieser Wert nur für den besten Testlauf festgelegt, während bei allen anderen Testläufen der Wert auf None festgelegt wird.

Bei Vorhersagen ist dieser Wert für alle Tests vorhanden.
notebook_url Optional[str] Die URL des generierten Notebooks für diese Testversion.

Bei der Klassifizierung und Regression wird dieser Wert nur für den besten Testlauf festgelegt, während bei allen anderen Testläufen der Wert auf None festgelegt wird.

Bei Vorhersagen ist dieser Wert für alle Tests vorhanden.
artifact_uri Optional[str] Der MLflow-Artefakt-URI für das generierte Notebook.
mlflow_run_id str Die MLflow-Ausführungs-ID, die dieser Testversion zugeordnet ist.
metrics Dict[str, float] Die in MLflow für diese Testversion protokollierten Metriken.
params Dict[str, str] Die in MLflow protokollierten Parameter, die für diese Testversion verwendet wurden.
model_path str Die MLflow-Artefakt-URL des Modells, das in dieser Testversion trainiert wurde.
model_description str Kurze Beschreibung des Modells und der Hyperparameter, die zum Trainieren dieses Modells verwendet werden.
duration str Dauer des Trainings in Minuten.
preprocessors str Beschreibung der vor dem Trainieren des Modells ausgeführten Präprozessoren.
evaluation_metric_score float Score der primären Metrik, ausgewertet für das Validierungs-Dataset.

TrialInfo verfügt über eine Methode zum Laden des Modells, das für den Test generiert wurde.

Methode Beschreibung
load_model() Laden Sie das in dieser Testversion generierte Modell, das als MLflow-Artefakt protokolliert wird.

ImportNotebookResult

Eigenschaft Typ Beschreibung
path str Der Pfad im Databricks-Arbeitsbereich, unter dem das Notebook importiert werden soll. Hierbei muss es sich um einen absoluten Pfad handeln. Falls das Verzeichnis noch nicht vorhanden ist, wird es erstellt.
url str Der URI des MLflow-Artefakts, das das Testnotebook enthält.