Sdílet prostřednictvím


Referenční informace k rozhraní Python API pro AutoML

Tento článek popisuje rozhraní Python API AutoML, které poskytuje metody pro spuštění klasifikace, regrese a prognózování spuštění AutoML. Každé volání metody trénuje sadu modelů a vygeneruje zkušební poznámkový blok pro každý model.

Další informace o AutoML, včetně možnosti uživatelského rozhraní s nízkým kódem, najdete v tématu Co je AutoML?.

Klasifikace

Tato databricks.automl.classify metoda nakonfiguruje spuštění AutoML pro trénování klasifikačního modelu.

Poznámka:

Parametr max_trials je zastaralý v Databricks Runtime 10.4 ML a není podporován v Databricks Runtime 11.0 ML a vyšší. Slouží timeout_minutes k řízení doby trvání spuštění AutoML.

databricks.automl.classify(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "f1",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  pos_label: Optional[Union[int, bool, str]] = None,                 # <DBR> 11.1 ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None                           # <DBR> 15.4 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Klasifikace parametrů

Název parametru Typ Popis
dataset str, pandas.DataFrame, , pyspark.DataFramepyspark.sql.DataFrame Název vstupní tabulky nebo datový rámec, který obsahuje trénovací funkce a cíl Název tabulky může být ve formátu database_name<>.<>table_name" nebo "<schema_name>"<>table_name" pro tabulky, které nejsou katalogem Unity.
target_col str Název sloupce pro cílový popisek
primary_metric str Metrika použitá k vyhodnocení a hodnocení výkonu modelu

Podporované metriky pro regresi: "r2" (výchozí), "mae", "rmse", "mse"

Podporované metriky pro klasifikaci: "f1" (výchozí), "log_loss", "přesnost", "přesnost", "přesnost", "roc_auc"
data_dir str formát dbfs:/<folder-name> Nepovinné. Cesta DBFS použitá k uložení trénovací datové sady Tato cesta je viditelná pro ovladače i pracovní uzly.

Databricks doporučuje ponechat toto pole prázdné, takže AutoML může trénovací datovou sadu uložit jako artefakt MLflow.

Pokud je zadána vlastní cesta, datová sada nedědí přístupová oprávnění experimentu AutoML.
experiment_dir str Nepovinné. Cesta k adresáři v pracovním prostoru pro uložení vygenerovaných poznámkových bloků a experimentů

Výchozí: /Users/<username>/databricks_automl/
experiment_name str Nepovinné. Název experimentu MLflow, který autoML vytvoří.

Výchozí hodnota: Název se automaticky vygeneruje.
exclude_cols List[str] Nepovinné. Seznam sloupců, které se mají při výpočtech AutoML ignorovat

Výchozí hodnota: []
exclude_frameworks List[str] Nepovinné. Seznam architektur algoritmů, které By AutoML nemělo brát v úvahu při vývoji modelů. Možné hodnoty: prázdný seznam nebo jeden nebo více "sklearn", "lightgbm", "xgboost".

Výchozí hodnota: [] (považují se za všechny architektury)
feature_store_lookups List[Dict] Nepovinné. Seznamslovníkch Platné klíče v každém slovníku jsou:

- table_name (str): Povinné. Název tabulky funkcí
- lookup_key (seznam nebo str): Povinný argument. Názvy sloupců, které se použijí jako klíč při připojování tabulky funkcí s daty předanými v parametru dataset . Pořadí názvů sloupců musí odpovídat pořadí primárních klíčů tabulky funkcí.
- timestamp_lookup_key (str): Vyžaduje se, pokud je zadaná tabulka funkcí časové řady. Název sloupce, který se má použít při vyhledávání v tabulce funkcí k určitému bodu v čase s daty předanými v parametru dataset .

Výchozí hodnota: []
imputers Dict[str, Union[str, Dict[str, Any]]] Nepovinné. Slovník, kde každý klíč je název sloupce a každá hodnota je řetězec nebo slovník popisující strategii imputace. Pokud je hodnota zadaná jako řetězec, musí být jednou z "střední", "medián" nebo "most_frequent". Chcete-li napsat známou hodnotu, zadejte hodnotu jako slovník {"strategy": "constant", "fill_value": <desired value>}. Můžete také zadat možnosti řetězce jako slovníky, například {"strategy": "mean"}.

Pokud sloupec neobsahuje žádnou strategii imputace, AutoML vybere výchozí strategii na základě typu a obsahu sloupce. Pokud zadáte metodu bez výchozí imputace, AutoML neprovádí detekci sémantických typů.

Výchozí: {}
pos_label Union[int, bool, str] (Pouze klasifikace) Kladná třída. To je užitečné pro výpočet metrik, jako je přesnost a úplnost. Měla by být zadána pouze pro problémy s binární klasifikací.
time_col str K dispozici ve službě Databricks Runtime 10.1 ML a novějších.

Nepovinné. Název sloupce pro sloupec času

Pokud je k dispozici, AutoML se pokusí datovou sadu rozdělit na trénovací, ověřovací a testovací sady chronologicky, přičemž nejstarší body jako trénovací data a nejnovější body se pokusí rozdělit jako testovací sadu.

Akceptované typy sloupců jsou časové razítko a celé číslo. S Modulem Databricks Runtime 10.2 ML a novějším jsou podporovány také řetězcové sloupce.

Pokud je typ sloupce řetězec, AutoML se ho pokusí převést na časové razítko pomocí sémantické detekce. Pokud převod selže, spuštění AutoML selže.
split_col str Nepovinné. Název sloupce pro rozdělený sloupec Pro pracovní postupy rozhraní API je k dispozici pouze databricks Runtime 15.3 ML a novější. Pokud je k dispozici, AutoML se pokusí rozdělit trénovací/ověřit/testovací sady podle uživatelem zadaných hodnot a tento sloupec se automaticky vyloučí z trénovacích funkcí.

Akceptovaným typem sloupce je řetězec. Hodnota každé položky v tomto sloupci musí být jedna z následujících položek: "train", "validate" nebo "test".
sample_weight_col str K dispozici ve službě Databricks Runtime 15.4 ML a vyšší pro pracovní postupy rozhraní API klasifikace.

Nepovinné. Název sloupce v datové sadě, která obsahuje ukázkové váhy pro každý řádek. Klasifikace podporuje váhy vzorku pro každou třídu. Tyto váhy upravují důležitost každé třídy během trénování modelu. Každý vzorek v rámci třídy musí mít stejnou hmotnost vzorku a váhy musí být nezáporné desetinné číslo nebo celočíselné hodnoty v rozsahu od 0 do 10 000. Třídy s vyšší váhou vzorků jsou považovány za důležitější a mají větší vliv na algoritmus učení. Pokud tento sloupec není zadán, předpokládá se, že všechny třídy mají stejnou váhu.
max_trials int Nepovinné. Maximální počet pokusů, které se mají spustit. Tento parametr je k dispozici v Databricks Runtime 10.5 ML a níže, ale je zastaralý od databricks Runtime 10.3 ML. Ve službě Databricks Runtime 11.0 ML a vyšší není tento parametr podporován.

Výchozí hodnota: 20

Pokud timeout_minutes=None, autoML spustí maximální počet pokusů.
timeout_minutes int Nepovinné. Maximální doba čekání na dokončení zkušebních verzí AutoML Delší časové limity umožňují službě AutoML spouštět více pokusů a identifikovat model s vyšší přesností.

Výchozí hodnota: 120 minut

Minimální hodnota: 5 minut

Pokud je časový limit příliš krátký, aby bylo možné dokončit aspoň jednu zkušební verzi, zobrazí se chyba.

Regrese

Tato databricks.automl.regress metoda nakonfiguruje spuštění AutoML pro trénování regresního modelu. Tato metoda vrátí autoMLSummary.

Poznámka:

Parametr max_trials je zastaralý v Databricks Runtime 10.4 ML a není podporován v Databricks Runtime 11.0 ML a vyšší. Slouží timeout_minutes k řízení doby trvání spuštění AutoML.

databricks.automl.regress(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "r2",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None,                          # <DBR> 15.3 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Parametry regrese

Název parametru Typ Popis
dataset str, pandas.DataFrame, , pyspark.DataFramepyspark.sql.DataFrame Název vstupní tabulky nebo datový rámec, který obsahuje trénovací funkce a cíl Název tabulky může být ve formátu database_name<>.<>table_name" nebo "<schema_name>"<>table_name" pro tabulky, které nejsou katalogem Unity.
target_col str Název sloupce pro cílový popisek
primary_metric str Metrika použitá k vyhodnocení a hodnocení výkonu modelu

Podporované metriky pro regresi: "r2" (výchozí), "mae", "rmse", "mse"

Podporované metriky pro klasifikaci: "f1" (výchozí), "log_loss", "přesnost", "přesnost", "přesnost", "roc_auc"
data_dir str formát dbfs:/<folder-name> Nepovinné. Cesta DBFS použitá k uložení trénovací datové sady Tato cesta je viditelná pro ovladače i pracovní uzly.

Databricks doporučuje ponechat toto pole prázdné, takže AutoML může trénovací datovou sadu uložit jako artefakt MLflow.

Pokud je zadána vlastní cesta, datová sada nedědí přístupová oprávnění experimentu AutoML.
experiment_dir str Nepovinné. Cesta k adresáři v pracovním prostoru pro uložení vygenerovaných poznámkových bloků a experimentů

Výchozí: /Users/<username>/databricks_automl/
experiment_name str Nepovinné. Název experimentu MLflow, který autoML vytvoří.

Výchozí hodnota: Název se automaticky vygeneruje.
exclude_cols List[str] Nepovinné. Seznam sloupců, které se mají při výpočtech AutoML ignorovat

Výchozí hodnota: []
exclude_frameworks List[str] Nepovinné. Seznam architektur algoritmů, které By AutoML nemělo brát v úvahu při vývoji modelů. Možné hodnoty: prázdný seznam nebo jeden nebo více "sklearn", "lightgbm", "xgboost".

Výchozí hodnota: [] (považují se za všechny architektury)
feature_store_lookups List[Dict] Nepovinné. Seznamslovníkch Platné klíče v každém slovníku jsou:

- table_name (str): Povinné. Název tabulky funkcí
- lookup_key (seznam nebo str): Povinný argument. Názvy sloupců, které se použijí jako klíč při připojování tabulky funkcí s daty předanými v parametru dataset . Pořadí názvů sloupců musí odpovídat pořadí primárních klíčů tabulky funkcí.
- timestamp_lookup_key (str): Vyžaduje se, pokud je zadaná tabulka funkcí časové řady. Název sloupce, který se má použít při vyhledávání v tabulce funkcí k určitému bodu v čase s daty předanými v parametru dataset .

Výchozí hodnota: []
imputers Dict[str, Union[str, Dict[str, Any]]] Nepovinné. Slovník, kde každý klíč je název sloupce a každá hodnota je řetězec nebo slovník popisující strategii imputace. Pokud je hodnota zadaná jako řetězec, musí být jednou z "střední", "medián" nebo "most_frequent". Chcete-li napsat známou hodnotu, zadejte hodnotu jako slovník {"strategy": "constant", "fill_value": <desired value>}. Můžete také zadat možnosti řetězce jako slovníky, například {"strategy": "mean"}.

Pokud sloupec neobsahuje žádnou strategii imputace, AutoML vybere výchozí strategii na základě typu a obsahu sloupce. Pokud zadáte metodu bez výchozí imputace, AutoML neprovádí detekci sémantických typů.

Výchozí: {}
time_col str K dispozici ve službě Databricks Runtime 10.1 ML a novějších.

Nepovinné. Název sloupce pro sloupec času

Pokud je k dispozici, AutoML se pokusí datovou sadu rozdělit na trénovací, ověřovací a testovací sady chronologicky, přičemž nejstarší body jako trénovací data a nejnovější body se pokusí rozdělit jako testovací sadu.

Akceptované typy sloupců jsou časové razítko a celé číslo. S Modulem Databricks Runtime 10.2 ML a novějším jsou podporovány také řetězcové sloupce.

Pokud je typ sloupce řetězec, AutoML se ho pokusí převést na časové razítko pomocí sémantické detekce. Pokud převod selže, spuštění AutoML selže.
split_col str Nepovinné. Název sloupce pro rozdělený sloupec Pro pracovní postupy rozhraní API je k dispozici pouze databricks Runtime 15.3 ML a novější. Pokud je k dispozici, AutoML se pokusí rozdělit trénovací/ověřit/testovací sady podle uživatelem zadaných hodnot a tento sloupec se automaticky vyloučí z trénovacích funkcí.

Akceptovaným typem sloupce je řetězec. Hodnota každé položky v tomto sloupci musí být jedna z následujících položek: "train", "validate" nebo "test".
sample_weight_col str K dispozici ve službě Databricks Runtime 15.3 ML a vyšší pro pracovní postupy regresního rozhraní API.

Nepovinné. Název sloupce v datové sadě, která obsahuje ukázkové váhy pro každý řádek. Tyto váhy upravují důležitost jednotlivých řádků během trénování modelu. Váhy musí být nezáporné desetinné číslo nebo celočíselné hodnoty v rozsahu od 0 do 10 000. Řádky s vyšší váhou vzorků jsou považovány za důležitější a mají větší vliv na algoritmus učení. Pokud tento sloupec není zadaný, předpokládá se, že všechny řádky mají stejnou váhu.
max_trials int Nepovinné. Maximální počet pokusů, které se mají spustit. Tento parametr je k dispozici v Databricks Runtime 10.5 ML a níže, ale je zastaralý od databricks Runtime 10.3 ML. Ve službě Databricks Runtime 11.0 ML a vyšší není tento parametr podporován.

Výchozí hodnota: 20

Pokud timeout_minutes=None, autoML spustí maximální počet pokusů.
timeout_minutes int Nepovinné. Maximální doba čekání na dokončení zkušebních verzí AutoML Delší časové limity umožňují službě AutoML spouštět více pokusů a identifikovat model s vyšší přesností.

Výchozí hodnota: 120 minut

Minimální hodnota: 5 minut

Pokud je časový limit příliš krátký, aby bylo možné dokončit aspoň jednu zkušební verzi, zobrazí se chyba.

Prognóza

Tato databricks.automl.forecast metoda nakonfiguruje spuštění AutoML pro trénování modelu prognózování. Tato metoda vrátí autoMLSummary. Aby bylo možné použít funkci Auto-ARIMA, musí mít časová řada běžnou frekvenci (to znamená, že interval mezi všemi dvěma body musí být stejný v průběhu časové řady). Frekvence se musí shodovat s jednotkou frekvence zadanou ve volání rozhraní API. AutoML zpracovává chybějící kroky času vyplněním těchto hodnot předchozí hodnotou.

databricks.automl.forecast(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  time_col: str,
  primary_metric: str = "smape",
  country_code: str = "US",                                         # <DBR> 12.0 ML and above
  frequency: str = "D",
  horizon: int = 1,
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_frameworks: Optional[List[str]] = None,
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 12.2 LTS ML and above
  identity_col: Optional[Union[str, List[str]]] = None,
  sample_weight_col: Optional[str] = None,                          # <DBR> 16.0 ML and above
  output_database: Optional[str] = None,                            # <DBR> 10.5 ML and above
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Parametry prognózování

Název parametru Typ Popis
dataset str, pandas.DataFrame, , pyspark.DataFramepyspark.sql.DataFrame Název vstupní tabulky nebo datový rámec, který obsahuje trénovací funkce a cíl

Název tabulky může být ve formátu .. nebo "." pro tabulky jiného katalogu než Unity
target_col str Název sloupce pro cílový popisek
time_col str Název sloupce času pro prognózování
primary_metric str Metrika použitá k vyhodnocení a hodnocení výkonu modelu

Podporované metriky: "smape" (výchozí), "mse", "rmse", "mae" nebo "mdape".
country_code str K dispozici ve službě Databricks Runtime 12.0 ML a vyšší. Podporuje pouze model prognózování Proroka.

Nepovinné. Dvoupísmenný kód země označující svátky země, které má model prognózy použít. Pokud chcete ignorovat svátky, nastavte tento parametr na prázdný řetězec ("").

Podporované země.

Výchozí hodnota: USA (USA svátky).
frequency str Frekvence časových řad pro prognózování Jedná se o období, ve kterém se očekávají události. Výchozí nastavení je D nebo denní data. Pokud data mají jinou frekvenci, nezapomeňte nastavení změnit.

Možné hodnoty:

"W" (týdny)

"D" / "days" / "day"

"hours" / "hour" / "hr" / "h"

"m" / "minute" / "min" / "minutes" / "T"

"S" / "seconds" / "sec" / "second"

Následující informace jsou k dispozici pouze pro Databricks Runtime 12.0 ML a vyšší:

"M" / "month" / "months"

"Q" / "quarter" / "quarters"

"Y" / "year" / "years"

Výchozí hodnota: "D"
horizon int Počet období do budoucnosti, pro která se mají vrátit prognózy.

Jednotky jsou frekvence časových řad.

Výchozí hodnota: 1
data_dir str formát dbfs:/<folder-name> Nepovinné. Cesta DBFS použitá k uložení trénovací datové sady Tato cesta je viditelná pro ovladače i pracovní uzly.

Databricks doporučuje ponechat toto pole prázdné, takže AutoML může trénovací datovou sadu uložit jako artefakt MLflow.

Pokud je zadána vlastní cesta, datová sada nedědí přístupová oprávnění experimentu AutoML.
experiment_dir str Nepovinné. Cesta k adresáři v pracovním prostoru pro uložení vygenerovaných poznámkových bloků a experimentů

Výchozí: /Users/<username>/databricks_automl/
experiment_name str Nepovinné. Název experimentu MLflow, který autoML vytvoří.

Výchozí hodnota: Název se automaticky vygeneruje.
exclude_frameworks List[str] Nepovinné. Seznam architektur algoritmů, které By AutoML nemělo brát v úvahu při vývoji modelů. Možné hodnoty: prázdný seznam nebo jeden nebo více "proroků", "arima".

Výchozí hodnota: [] (považují se za všechny architektury)
feature_store_lookups List[Dict] Nepovinné. Seznam slovníků, které představují funkce z úložiště funkcí pro kovarianci rozšíření dat Platné klíče v každém slovníku jsou:

- table_name (str): Povinné. Název tabulky funkcí
- lookup_key (seznam nebo str): Povinný argument. Názvy sloupců, které se použijí jako klíč při připojování tabulky funkcí s daty předanými v parametru dataset . Pořadí názvů sloupců musí odpovídat pořadí primárních klíčů tabulky funkcí.
- timestamp_lookup_key (str): Vyžaduje se, pokud je zadaná tabulka funkcí časové řady. Název sloupce, který se má použít při vyhledávání v tabulce funkcí k určitému bodu v čase s daty předanými v parametru dataset .

Výchozí hodnota: []
identity_col Union[str, list] Nepovinné. Sloupce, které identifikují časovou řadu pro prognózování s více řadami AutoML seskupí podle těchto sloupců a sloupce času pro prognózování.
sample_weight_col str K dispozici ve službě Databricks Runtime 16.0 ML a vyšší. Pouze pro pracovní postupy s více časovými řadami.

Nepovinné. Určuje sloupec v datové sadě, který obsahuje ukázkové váhy. Tyto váhy označují relativní důležitost každé časové řady během trénování a vyhodnocování modelu.

Časové řady s vyšší hmotností mají větší vliv na model. Pokud není k dispozici, zachází se všemi časovými řadami se stejnou hmotností.

Všechny řádky patřící do stejné časové řady musí mít stejnou váhu.

Váhy musí být nezáporné hodnoty, desetinná čísla nebo celá čísla a musí být v rozmezí od 0 do 10 000.
output_database str Nepovinné. Pokud je k dispozici, AutoML ukládá předpovědi nejlepšího modelu do nové tabulky v zadané databázi.

Výchozí: Předpovědi se neuloží.
timeout_minutes int Nepovinné. Maximální doba čekání na dokončení zkušebních verzí AutoML Delší časové limity umožňují službě AutoML spouštět více pokusů a identifikovat model s vyšší přesností.

Výchozí hodnota: 120 minut

Minimální hodnota: 5 minut

Pokud je časový limit příliš krátký, aby bylo možné dokončit aspoň jednu zkušební verzi, zobrazí se chyba.

Import poznámkového bloku

Metoda databricks.automl.import_notebook importuje poznámkový blok uložený jako artefakt MLflow. Tato metoda vrátí ImportNotebookResult.

databricks.automl.import_notebook(
  artifact_uri: str,
  path: str,
  overwrite: bool = False
) -> ImportNotebookResult:
Parametry Typ Popis
artifact_uri str Identifikátor URI artefaktu MLflow, který obsahuje poznámkový blok zkušební verze.
path str Cesta v pracovním prostoru Databricks, ve kterém se má poznámkový blok importovat. Musí to být absolutní cesta. Adresář se vytvoří, pokud neexistuje.
overwrite bool Jestli chcete poznámkový blok přepsat, pokud už existuje. False Je to ve výchozím nastavení.

Příklad importu poznámkového bloku

summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)

AutoMLSummary

Souhrnný objekt pro spuštění AutoML, který popisuje metriky, parametry a další podrobnosti pro každou zkušební verzi. Tento objekt také použijete k načtení modelu natrénovaného konkrétní zkušební verzí.

Vlastnost Type Popis
experiment mlflow.entities.Experiment Experiment MLflow použitý k protokolování pokusů.
trials List[TrialInfo] Seznam objektů TrialInfo obsahujících informace o všech spuštěných pokusech.
best_trial TrialInfo Objekt TrialInfo obsahující informace o zkušební verzi, která způsobila nejlepší vážené skóre pro primární metriku.
metric_distribution str Rozdělení vážených skóre pro primární metriku napříč všemi pokusy
output_table_name str Používá se pouze s prognózováním a pouze v případě, že je k dispozici output_database.

Název tabulky v output_database obsahující předpovědi modelu

TrialInfo

Souhrnný objekt pro každou jednotlivou zkušební verzi

Vlastnost Type Popis
notebook_path Optional[str] Cesta k vygenerovanému poznámkovému bloku pro tuto zkušební verzi v pracovním prostoru.

Pro klasifikaci a regresi je tato hodnota nastavena pouze pro nejlepší zkušební verzi, zatímco všechny ostatní pokusy mají hodnotu nastavenou na None.

Pro prognózování je tato hodnota k dispozici pro všechny pokusy.
notebook_url Optional[str] Adresa URL vygenerovaného poznámkového bloku pro tuto zkušební verzi

Pro klasifikaci a regresi je tato hodnota nastavena pouze pro nejlepší zkušební verzi, zatímco všechny ostatní pokusy mají hodnotu nastavenou na None.

Pro prognózování je tato hodnota k dispozici pro všechny pokusy.
artifact_uri Optional[str] Identifikátor URI artefaktu MLflow pro vygenerovaný poznámkový blok.
mlflow_run_id str ID spuštění MLflow přidružené k tomuto zkušebnímu spuštění.
metrics Dict[str, float] Metriky zaprotokolované v MLflow pro tuto zkušební verzi.
params Dict[str, str] Parametry protokolované v MLflow, které byly použity pro tuto zkušební verzi.
model_path str Adresa URL artefaktu MLflow modelu natrénovaného v této zkušební verzi.
model_description str Stručný popis modelu a hyperparametrů použitých pro trénování tohoto modelu.
duration str Doba trénování v minutách.
preprocessors str Popis předzpracovačů spuštěných před trénováním modelu
evaluation_metric_score float Skóre primární metriky vyhodnocené pro ověřovací datovou sadu

TrialInfo má metodu načtení modelu vygenerovaného pro zkušební verzi.

metoda Popis
load_model() Načtěte model vygenerovaný v této zkušební verzi a zaprotokolujte jako artefakt MLflow.

ImportNotebookResult

Vlastnost Type Popis
path str Cesta v pracovním prostoru Databricks, ve kterém se má poznámkový blok importovat. Musí to být absolutní cesta. Adresář se vytvoří, pokud neexistuje.
url str Identifikátor URI artefaktu MLflow, který obsahuje poznámkový blok zkušební verze.