Python-API-Referenz für automatisiertes maschinelles Lernen
In diesem Artikel wird die AutoML-Python-API beschrieben, die Methoden zum Starten der Klassifizierung, Regression und Prognose von AutoML-Ausführung bereitstellt. Jeder Methodenaufruf trainiert eine Gruppe von Modellen und generiert ein Testnotebook für jedes Modell.
Weitere Informationen zum automatisierten maschinellen Lernen (einschließlich einer Low-Code-Benutzeroberflächenoption) finden Sie unter Was ist AutoML?.
Klassifizieren
Die databricks.automl.classify
-Methode konfiguriert eine Ausführung des automatisierten maschinellen Lernens zum Trainieren eines Klassifizierungsmodells.
Hinweis
Der Parameter max_trials
ist in Databricks Runtime 10.4 ML veraltet und wird in Databricks Runtime 11.0 ML und höher nicht unterstützt. Verwenden Sie timeout_minutes
, um die Dauer einer AutoML-Ausführung zu steuern.
databricks.automl.classify(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
primary_metric: str = "f1",
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
pos_label: Optional[Union[int, bool, str]] = None, # <DBR> 11.1 ML and above
time_col: Optional[str] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None # <DBR> 15.4 ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Klassifizierungsparameter
Parametername | Type | Beschreibung |
---|---|---|
dataset |
str , , pandas.DataFrame pyspark.DataFrame pyspark.sql.DataFrame |
Eingabetabellenname oder DataFrame, der Trainingsfeatures und das Ziel enthält. Für den Tabellennamen kann das Format „<Datenbankname>.<Tabellenname>“ oder das Format „<Schemaname>.<Tabellenname>“ für Unity Catalog-fremde Tabellen verwendet werden. |
target_col |
str |
Spaltenname für die Zielbezeichnung. |
primary_metric |
str |
Metrik zum Auswerten und Bewerten der Modellleistung. Unterstützte Metriken für die Regression: “r2” (Standard), “mae”, “rmse”, “mse” Unterstützte Metriken für die Klassifizierung: “f1” (Standard), “log_loss”, “precision”, “accuracy”, “roc_auc” |
data_dir |
str im Format dbfs:/<folder-name> |
Optional. DBFS-Pfad zum Speichern des Trainingsdatasets. Dieser Pfad ist sowohl für Treiber- als auch für Workerknoten sichtbar. Databricks empfiehlt, dieses Feld leer zu lassen, damit automatisiertes ML das Trainingsdataset als MLflow-Artefakt speichern kann. Wenn ein benutzerdefinierter Pfad angegeben ist, erbt das Dataset die Zugriffsberechtigungen des AutoML-Experiments nicht. |
experiment_dir |
str |
Optional. Pfad zu dem Verzeichnis im Arbeitsbereich, in dem die generierten Notebooks und Experimente gespeichert werden sollen. Standard: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Optional. Name des MLflow-Experiments, das durch das automatisierte maschinelle Lernen erstellt wird. Standard: Der Name wird automatisch generiert. |
exclude_cols |
List[str] |
Optional. Liste der Spalten, die bei Berechnungen des automatisierten maschinellen Lernens ignoriert werden sollen. Standardwert: [] |
exclude_frameworks |
List[str] |
Optional. Liste der Algorithmusframeworks, die das automatisierte maschinelle Lernen bei der Entwicklung von Modellen nicht berücksichtigen soll. Mögliche Werte: leere Liste oder mindestens eine der folgenden Werte: “sklearn”, “lightgbm”, “xgboost”. Standardwert: [] (alle Frameworks werden berücksichtigt) |
feature_store_lookups |
List[Dict] |
Optional. Liste der Wörterbücher, die Features aus dem Featurespeicher für die Datenerweiterung darstellen. Es folgen gültige Schlüssel in den einzelnen Verzeichnissen: - table_name (str): Erforderlich. Name der Featuretabelle.- lookup_key („list“ oder „str“): Erforderlich. Spaltennamen, die als Schlüssel für die Verknüpfung der Tabelle mit den im Parameter dataset übergebenen Daten verwendet werden sollen. Die Reihenfolge der Spaltennamen muss der Reihenfolge der Primärschlüssel der Featuretabelle entsprechen.- timestamp_lookup_key (str): Erforderlich, wenn die angegebene Tabelle eine Zeitreihen-Featuretabelle ist. Der Spaltenname, der beim Ausführen einer Zeitpunktsuche in der Featuretabelle mit den im Parameter dataset übergebenen Daten verwendet werden soll.Standardwert: [] |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
Optional. Wörterbuch, in dem jeder Schlüssel ein Spaltenname und jeder Wert eine Zeichenfolge oder ein Wörterbuch ist, die bzw. das die Imputationsstrategie beschreibt. Bei Angabe als Zeichenfolge muss der Wert “mean”, “median” oder “most_frequent”. Um einen bekannten Wert zu imputieren, geben Sie den Wert als Wörterbuch {"strategy": "constant", "fill_value": <desired value>} an. Sie können auch Zeichenfolgenoptionen als Wörterbücher angeben (z. B. {"strategy": "mean"} ).Wenn für eine Spalte keine Imputationsstrategie angegeben wird, wählt AutoML basierend auf Spaltentyp und Inhalt eine Standardstrategie aus. Wenn Sie eine nicht standardmäßige Imputationsmethode angeben, führt AutoML keine semantische Typerkennung durch. Standard: {} |
pos_label |
Union[int, bool, str] |
(Nur Klassifizierung) Die positive Klasse. Dies ist nützlich für die Berechnung von Metriken wie Genauigkeit und Abruf. Dies sollte nur für binäre Klassifizierungsprobleme angegeben werden. |
time_col |
str |
Verfügbar in Databricks Runtime 10.1 ML und höheren Versionen. Optional. Spaltenname für eine Zeitspalte. Falls angegeben, versucht AutoML, das Dataset chronologisch in Trainings-, Validierungs- und Testmengen aufzuteilen, wobei die frühesten Punkte als Trainingsdaten und die neuesten Punkte als Testmenge verwendet werden. Akzeptierte Spaltentypen sind Zeitstempel und Integer. Mit Databricks Runtime 10.2 ML und höher werden auch Zeichenfolgenspalten unterstützt. Wenn der Spaltentyp eine Zeichenfolge ist, versucht AutoML, sie mithilfe der semantischen Erkennung in einen Zeitstempel zu konvertieren. Wenn die Konvertierung fehlschlägt, schlägt auch die AutoML-Ausführung fehl. |
split_col |
str |
Optional. Spaltenname für eine geteilte Spalte. Nur in Databricks Runtime 15.3 ML und höher für API-Workflows verfügbar. Wenn angegeben, versucht AutoML, Trainings-/Überprüfungs-/Testsätze durch von Benutzer*innen angegebene Werte aufzuteilen, und diese Spalte wird automatisch von Trainingsfeatures ausgeschlossen. Der akzeptierte Spaltentyp ist eine Zeichenfolge. Die Werte der Einträge in dieser Spalte müssen jeweils einem der folgenden Typen entsprechen: „train“, „validate“ oder „test“. |
sample_weight_col |
str |
In Databricks Runtime 15.4 ML und höher für API-Klassifizierungsworkflows verfügbar. Optional. Name der Spalte im Dataset, die die Stichprobengewichtung für die jeweilige Zeile enthält. Die Klassifizierung unterstützt Stichprobengewichtung pro Klasse. Diese Gewichtungen passen während des Modelltrainings die Wichtigkeit jeder Klasse an. Jede Stichprobe in einer Klasse muss dieselbe Stichprobengewichtung aufweisen, und die Gewichtungen müssen nicht negative Dezimal- oder ganzzahlige Werte sein, von 0 bis 10.000. Klassen mit höheren Stichprobengewichtungen werden als wichtiger angesehen und haben einen größeren Einfluss auf den Lernalgorithmus. Wenn diese Spalte nicht angegeben wird, wird davon ausgegangen, dass alle Klassen gleich gewichtet sind. |
max_trials |
int |
Optional. Maximale Anzahl auszuführender Testversionen. Dieser Parameter ist in Databricks Runtime 10.5 ML und niedriger verfügbar, ist jedoch ab Databricks Runtime 10.3 ML veraltet. In Databricks Runtime 11.0 ML und höher wird dieser Parameter nicht unterstützt. Standard: 20 Wenn timeout_minutes=None ist, führt AutoML die maximale Anzahl von Testversionen aus. |
timeout_minutes |
int |
Optional. Maximale Wartezeit bis zum Abschluss der Tests des automatisierten maschinellen Lernens. Längere Timeouts ermöglichen es AutoML, mehr Testversionen auszuführen und ein Modell mit besserer Genauigkeit zu identifizieren. Standardwert: 120 Minuten Mindestwert: 5 Minuten Ein Fehler wird gemeldet, wenn das Timeout zu kurz ist, um mindestens eine Testversion abzuschließen. |
Regression
Die databricks.automl.regress
-Methode konfiguriert eine Ausführung des automatisierten maschinellen Lernens zum Trainieren eines Regressionsmodells. Diese Methode gibt ein Element vom Typ AutoMLSummary zurück.
Hinweis
Der Parameter max_trials
ist in Databricks Runtime 10.4 ML veraltet und wird in Databricks Runtime 11.0 ML und höher nicht unterstützt. Verwenden Sie timeout_minutes
, um die Dauer einer AutoML-Ausführung zu steuern.
databricks.automl.regress(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
primary_metric: str = "r2",
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
time_col: Optional[str] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None, # <DBR> 15.3 ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Regressionsparameter
Parametername | Type | Beschreibung |
---|---|---|
dataset |
str , , pandas.DataFrame pyspark.DataFrame pyspark.sql.DataFrame |
Eingabetabellenname oder DataFrame, der Trainingsfeatures und das Ziel enthält. Für den Tabellennamen kann das Format „<Datenbankname>.<Tabellenname>“ oder das Format „<Schemaname>.<Tabellenname>“ für Unity Catalog-fremde Tabellen verwendet werden. |
target_col |
str |
Spaltenname für die Zielbezeichnung. |
primary_metric |
str |
Metrik zum Auswerten und Bewerten der Modellleistung. Unterstützte Metriken für die Regression: “r2” (Standard), “mae”, “rmse”, “mse” Unterstützte Metriken für die Klassifizierung: “f1” (Standard), “log_loss”, “precision”, “accuracy”, “roc_auc” |
data_dir |
str im Format dbfs:/<folder-name> |
Optional. DBFS-Pfad zum Speichern des Trainingsdatasets. Dieser Pfad ist sowohl für Treiber- als auch für Workerknoten sichtbar. Databricks empfiehlt, dieses Feld leer zu lassen, damit automatisiertes ML das Trainingsdataset als MLflow-Artefakt speichern kann. Wenn ein benutzerdefinierter Pfad angegeben ist, erbt das Dataset die Zugriffsberechtigungen des AutoML-Experiments nicht. |
experiment_dir |
str |
Optional. Pfad zu dem Verzeichnis im Arbeitsbereich, in dem die generierten Notebooks und Experimente gespeichert werden sollen. Standard: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Optional. Name des MLflow-Experiments, das durch das automatisierte maschinelle Lernen erstellt wird. Standard: Der Name wird automatisch generiert. |
exclude_cols |
List[str] |
Optional. Liste der Spalten, die bei Berechnungen des automatisierten maschinellen Lernens ignoriert werden sollen. Standardwert: [] |
exclude_frameworks |
List[str] |
Optional. Liste der Algorithmusframeworks, die das automatisierte maschinelle Lernen bei der Entwicklung von Modellen nicht berücksichtigen soll. Mögliche Werte: leere Liste oder mindestens eine der folgenden Werte: “sklearn”, “lightgbm”, “xgboost”. Standardwert: [] (alle Frameworks werden berücksichtigt) |
feature_store_lookups |
List[Dict] |
Optional. Liste der Wörterbücher, die Features aus dem Featurespeicher für die Datenerweiterung darstellen. Es folgen gültige Schlüssel in den einzelnen Verzeichnissen: - table_name (str): Erforderlich. Name der Featuretabelle.- lookup_key („list“ oder „str“): Erforderlich. Spaltennamen, die als Schlüssel für die Verknüpfung der Tabelle mit den im Parameter dataset übergebenen Daten verwendet werden sollen. Die Reihenfolge der Spaltennamen muss der Reihenfolge der Primärschlüssel der Featuretabelle entsprechen.- timestamp_lookup_key (str): Erforderlich, wenn die angegebene Tabelle eine Zeitreihen-Featuretabelle ist. Der Spaltenname, der beim Ausführen einer Zeitpunktsuche in der Featuretabelle mit den im Parameter dataset übergebenen Daten verwendet werden soll.Standardwert: [] |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
Optional. Wörterbuch, in dem jeder Schlüssel ein Spaltenname und jeder Wert eine Zeichenfolge oder ein Wörterbuch ist, die bzw. das die Imputationsstrategie beschreibt. Bei Angabe als Zeichenfolge muss der Wert “mean”, “median” oder “most_frequent”. Um einen bekannten Wert zu imputieren, geben Sie den Wert als Wörterbuch {"strategy": "constant", "fill_value": <desired value>} an. Sie können auch Zeichenfolgenoptionen als Wörterbücher angeben (z. B. {"strategy": "mean"} ).Wenn für eine Spalte keine Imputationsstrategie angegeben wird, wählt AutoML basierend auf Spaltentyp und Inhalt eine Standardstrategie aus. Wenn Sie eine nicht standardmäßige Imputationsmethode angeben, führt AutoML keine semantische Typerkennung durch. Standard: {} |
time_col |
str |
Verfügbar in Databricks Runtime 10.1 ML und höheren Versionen. Optional. Spaltenname für eine Zeitspalte. Falls angegeben, versucht AutoML, das Dataset chronologisch in Trainings-, Validierungs- und Testmengen aufzuteilen, wobei die frühesten Punkte als Trainingsdaten und die neuesten Punkte als Testmenge verwendet werden. Akzeptierte Spaltentypen sind Zeitstempel und Integer. Mit Databricks Runtime 10.2 ML und höher werden auch Zeichenfolgenspalten unterstützt. Wenn der Spaltentyp eine Zeichenfolge ist, versucht AutoML, sie mithilfe der semantischen Erkennung in einen Zeitstempel zu konvertieren. Wenn die Konvertierung fehlschlägt, schlägt auch die AutoML-Ausführung fehl. |
split_col |
str |
Optional. Spaltenname für eine geteilte Spalte. Nur in Databricks Runtime 15.3 ML und höher für API-Workflows verfügbar. Wenn angegeben, versucht AutoML, Trainings-/Überprüfungs-/Testsätze durch von Benutzer*innen angegebene Werte aufzuteilen, und diese Spalte wird automatisch von Trainingsfeatures ausgeschlossen. Der akzeptierte Spaltentyp ist eine Zeichenfolge. Die Werte der Einträge in dieser Spalte müssen jeweils einem der folgenden Typen entsprechen: „train“, „validate“ oder „test“. |
sample_weight_col |
str |
In Databricks Runtime 15.3 ML und höher für API-Regressionsworkflows verfügbar. Optional. Name der Spalte im Dataset, die die Stichprobengewichtung für die jeweilige Zeile enthält. Diese Gewichtungen passen während des Modelltrainings die Wichtigkeit jeder Zeile an. Gewichtungen müssen nicht-negative dezimale oder ganzzahlige Werte sein, die zwischen 0 und 10.000 liegen. Zeilen mit höheren Stichprobengewichtungen werden als wichtiger angesehen und haben einen größeren Einfluss auf den Lernalgorithmus. Wenn diese Spalte nicht angegeben wird, wird davon ausgegangen, dass alle Zeilen gleich gewichtet sind. |
max_trials |
int |
Optional. Maximale Anzahl auszuführender Testversionen. Dieser Parameter ist in Databricks Runtime 10.5 ML und niedriger verfügbar, ist jedoch ab Databricks Runtime 10.3 ML veraltet. In Databricks Runtime 11.0 ML und höher wird dieser Parameter nicht unterstützt. Standard: 20 Wenn timeout_minutes=None ist, führt AutoML die maximale Anzahl von Testversionen aus. |
timeout_minutes |
int |
Optional. Maximale Wartezeit bis zum Abschluss der Tests des automatisierten maschinellen Lernens. Längere Timeouts ermöglichen es AutoML, mehr Testversionen auszuführen und ein Modell mit besserer Genauigkeit zu identifizieren. Standardwert: 120 Minuten Mindestwert: 5 Minuten Ein Fehler wird gemeldet, wenn das Timeout zu kurz ist, um mindestens eine Testversion abzuschließen. |
Forecast
Die databricks.automl.forecast
-Methode konfiguriert eine Ausführung des automatisierten maschinellen Lernens zum Trainieren eines Vorhersagemodells. Diese Methode gibt ein Element vom Typ AutoMLSummary zurück.
Um Auto-ARIMA verwenden zu können, muss die Zeitreihe eine reguläre Häufigkeit haben (d. h., das Intervall zwischen zwei beliebigen Punkten muss während der gesamten Zeitreihe identisch sein). Die Häufigkeit muss mit der im API-Aufruf angegebenen Einheit für Häufigkeit übereinstimmen. AutoML behandelt fehlende Zeitschritte, indem diese Werte mit dem vorherigen Wert aufgefüllt werden.
databricks.automl.forecast(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
time_col: str,
primary_metric: str = "smape",
country_code: str = "US", # <DBR> 12.0 ML and above
frequency: str = "D",
horizon: int = 1,
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None,
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_frameworks: Optional[List[str]] = None,
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 12.2 LTS ML and above
identity_col: Optional[Union[str, List[str]]] = None,
sample_weight_col: Optional[str] = None, # <DBR> 16.0 ML and above
output_database: Optional[str] = None, # <DBR> 10.5 ML and above
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Prognoseparameter
Parametername | Type | Beschreibung |
---|---|---|
dataset |
str , , pandas.DataFrame pyspark.DataFrame pyspark.sql.DataFrame |
Eingabetabellenname oder DataFrame, der Trainingsfeatures und das Ziel enthält. Der Tabellenname kann im Format „..“ oder „.“ vorliegen bei anderen Tabellen als Unity Catalog-Tabellen |
target_col |
str |
Spaltenname für die Zielbezeichnung. |
time_col |
str |
Name der Zeitspalte für die Vorhersage. |
primary_metric |
str |
Metrik zum Auswerten und Bewerten der Modellleistung. Unterstützte Metriken: „smape“(Standardwert) „mse“, „rmse“, „mae“ oder „mdape“. |
country_code |
str |
Verfügbar in Databricks Runtime 12.0 ML und höher. Wird nur vom Vorhersagemodell Prophet unterstützt. Optional. (Optional) Die zweistellige Landeskennzahl, die angibt, welche Feiertage des Landes im Vorhersagemodell berücksichtigt werden sollen. Um Feiertage zu ignorieren, legen Sie diesen Parameter auf eine leere Zeichenfolge ("") fest. Unterstützte Länder. Standardeinstellung: USA (Feiertage in den USA). |
frequency |
str |
Häufigkeit der Zeitreihe für Vorhersagen. Dies ist der Zeitraum, in dem Ereignisse erwartet werden. Die Standardeinstellung ist „D“ oder tägliche Daten. Achten Sie darauf, die Einstellung zu ändern, wenn Ihre Daten eine andere Häufigkeit aufweisen. Mögliche Werte: “W” (weeks) “D” / “days” / “day” “hours” / “hour” / “hr” / “h” “m” / “minute” / “min” / “minutes” / “T” “S” / “seconds” / “sec” / “second” Folgendes ist nur mit Databricks Runtime 12.0 ML und höher verfügbar: „M“/„Monat“/“Monate“ „Q“/„Quartal“/„Quartale“ „Y“/„Jahr”/„Jahre” Standard: “D” |
horizon |
int |
Anzahl der Zeiträume in der Zukunft, für die Vorhersagen zurückgegeben werden sollen. Die Einheiten sind die Zeitreihenhäufigkeit. Standardwert: 1 |
data_dir |
str im Format dbfs:/<folder-name> |
Optional. DBFS-Pfad zum Speichern des Trainingsdatasets. Dieser Pfad ist sowohl für Treiber- als auch für Workerknoten sichtbar. Databricks empfiehlt, dieses Feld leer zu lassen, damit automatisiertes ML das Trainingsdataset als MLflow-Artefakt speichern kann. Wenn ein benutzerdefinierter Pfad angegeben ist, erbt das Dataset die Zugriffsberechtigungen des AutoML-Experiments nicht. |
experiment_dir |
str |
Optional. Pfad zu dem Verzeichnis im Arbeitsbereich, in dem die generierten Notebooks und Experimente gespeichert werden sollen. Standard: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Optional. Name des MLflow-Experiments, das durch das automatisierte maschinelle Lernen erstellt wird. Standard: Der Name wird automatisch generiert. |
exclude_frameworks |
List[str] |
Optional. Liste der Algorithmusframeworks, die das automatisierte maschinelle Lernen bei der Entwicklung von Modellen nicht berücksichtigen soll. Mögliche Werte: leere Liste oder mindestens eine der folgenden Werte: “prophet”, “arima”. Standardwert: [] (alle Frameworks werden berücksichtigt) |
feature_store_lookups |
List[Dict] |
Optional. Liste der Wörterbücher, die Features aus dem Feature-Speicher für die kovariante Datenerweiterung darstellen. Es folgen gültige Schlüssel in den einzelnen Verzeichnissen: - table_name (str): Erforderlich. Name der Featuretabelle.- lookup_key („list“ oder „str“): Erforderlich. Spaltennamen, die als Schlüssel für die Verknüpfung der Tabelle mit den im Parameter dataset übergebenen Daten verwendet werden sollen. Die Reihenfolge der Spaltennamen muss der Reihenfolge der Primärschlüssel der Featuretabelle entsprechen.- timestamp_lookup_key (str): Erforderlich, wenn die angegebene Tabelle eine Zeitreihen-Featuretabelle ist. Der Spaltenname, der beim Ausführen einer Zeitpunktsuche in der Featuretabelle mit den im Parameter dataset übergebenen Daten verwendet werden soll.Standardwert: [] |
identity_col |
Union[str, list] |
Optional. Spalten zur Identifizierung von Mehrreihen-Vorhersagen. AutoML gruppiert diese Spalte(n) und die Zeitspalte für die Vorhersage. |
sample_weight_col |
str |
Verfügbar in Databricks Runtime 16.0 ML und höher. Nur für Workflows mit mehreren Zeitreihen. Optional. Gibt die Spalte im Dataset an, die Beispielgewichte enthält. Diese Gewichtungen geben die relative Bedeutung jeder Zeitreihe während der Modellschulung und -auswertung an. Zeitreihen mit höheren Gewichten haben einen größeren Einfluss auf das Modell. Wenn nicht angegeben, werden alle Zeitreihen mit gleicher Gewichtung behandelt. Alle Zeilen, die zur gleichen Zeitreihe gehören, müssen dieselbe Gewichtung aufweisen. Gewichtungen müssen nicht negative Werte sein, entweder Dezimalstellen oder ganze Zahlen und zwischen 0 und 10.000. |
output_database |
str |
Optional. Falls angegeben, speichert das automatisierte maschinelle Lernen die Vorhersagen des besten Modells in einer neuen Tabelle in der angegebenen Datenbank. Standard: Vorhersagen werden nicht gespeichert. |
timeout_minutes |
int |
Optional. Maximale Wartezeit bis zum Abschluss der Tests des automatisierten maschinellen Lernens. Längere Timeouts ermöglichen es AutoML, mehr Testversionen auszuführen und ein Modell mit besserer Genauigkeit zu identifizieren. Standardwert: 120 Minuten Mindestwert: 5 Minuten Ein Fehler wird gemeldet, wenn das Timeout zu kurz ist, um mindestens eine Testversion abzuschließen. |
Notebook importieren
Die databricks.automl.import_notebook
-Methode importiert ein Notebook, das als MLflow-Artefakt gespeichert wurde. Diese Methode gibt ein Element vom Typ ImportNotebookResult zurück.
databricks.automl.import_notebook(
artifact_uri: str,
path: str,
overwrite: bool = False
) -> ImportNotebookResult:
Parameter | Typ | Beschreibung |
---|---|---|
artifact_uri |
str |
Der URI des MLflow-Artefakts, das das Testnotebook enthält. |
path |
str |
Der Pfad im Databricks-Arbeitsbereich, unter dem das Notebook importiert werden soll. Hierbei muss es sich um einen absoluten Pfad handeln. Falls das Verzeichnis noch nicht vorhanden ist, wird es erstellt. |
overwrite |
bool |
Gibt an, ob das Notebook überschrieben werden soll, wenn es bereits vorhanden ist. Die Standardeinstellung ist False . |
Beispiel für das Importieren eines Notebooks
summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)
AutoMLSummary
Zusammenfassungsobjekt für eine AutoML-Ausführung, die die Metriken, Parameter und andere Details für die einzelnen Testversionen beschreibt. Sie verwenden dieses Objekt auch, um das von einer bestimmten Testversion trainierte Modell zu laden.
Eigenschaft | Typ | Beschreibung |
---|---|---|
experiment |
mlflow.entities.Experiment |
Das MLflow-Experiment, das zum Protokollieren der Testversionen verwendet wird. |
trials |
List[TrialInfo] |
Eine Liste mit Objekten vom Typ TrialInfo, die Informationen zu allen ausgeführten Testversionen enthalten. |
best_trial |
TrialInfo |
Ein Objekt vom Typ TrialInfo, das Informationen zu der Testversion enthält, die zur besten gewichteten Bewertung für die primäre Metrik geführt hat. |
metric_distribution |
str |
Die Verteilung der gewichteten Bewertungen für die primäre Metrik über Testversionen hinweg. |
output_table_name |
str |
Wird nur bei Vorhersagen verwendet und nur, wenn output_database bereitgestellt wird. Name der Tabelle in output_database, die die Vorhersagen des Modells enthält. |
TrialInfo
Zusammenfassungsobjekt für jede einzelne Testversion.
Eigenschaft | Typ | Beschreibung |
---|---|---|
notebook_path |
Optional[str] |
Der Pfad zum generierten Notebook für diese Testversion im Arbeitsbereich. Bei der Klassifizierung und Regression wird dieser Wert nur für den besten Testlauf festgelegt, während bei allen anderen Testläufen der Wert auf None festgelegt wird.Bei Vorhersagen ist dieser Wert für alle Tests vorhanden. |
notebook_url |
Optional[str] |
Die URL des generierten Notebooks für diese Testversion. Bei der Klassifizierung und Regression wird dieser Wert nur für den besten Testlauf festgelegt, während bei allen anderen Testläufen der Wert auf None festgelegt wird.Bei Vorhersagen ist dieser Wert für alle Tests vorhanden. |
artifact_uri |
Optional[str] |
Der MLflow-Artefakt-URI für das generierte Notebook. |
mlflow_run_id |
str |
Die MLflow-Ausführungs-ID, die dieser Testversion zugeordnet ist. |
metrics |
Dict[str, float] |
Die in MLflow für diese Testversion protokollierten Metriken. |
params |
Dict[str, str] |
Die in MLflow protokollierten Parameter, die für diese Testversion verwendet wurden. |
model_path |
str |
Die MLflow-Artefakt-URL des Modells, das in dieser Testversion trainiert wurde. |
model_description |
str |
Kurze Beschreibung des Modells und der Hyperparameter, die zum Trainieren dieses Modells verwendet werden. |
duration |
str |
Dauer des Trainings in Minuten. |
preprocessors |
str |
Beschreibung der vor dem Trainieren des Modells ausgeführten Präprozessoren. |
evaluation_metric_score |
float |
Score der primären Metrik, ausgewertet für das Validierungs-Dataset. |
TrialInfo
verfügt über eine Methode zum Laden des Modells, das für den Test generiert wurde.
Methode | Beschreibung |
---|---|
load_model() |
Laden Sie das in dieser Testversion generierte Modell, das als MLflow-Artefakt protokolliert wird. |
ImportNotebookResult
Eigenschaft | Typ | Beschreibung |
---|---|---|
path |
str |
Der Pfad im Databricks-Arbeitsbereich, unter dem das Notebook importiert werden soll. Hierbei muss es sich um einen absoluten Pfad handeln. Falls das Verzeichnis noch nicht vorhanden ist, wird es erstellt. |
url |
str |
Der URI des MLflow-Artefakts, das das Testnotebook enthält. |