Referenční informace k rozhraní Python API pro AutoML
Tento článek popisuje rozhraní Python API AutoML, které poskytuje metody pro spuštění klasifikace, regrese a prognózování spuštění AutoML. Každé volání metody trénuje sadu modelů a vygeneruje zkušební poznámkový blok pro každý model.
Další informace o AutoML, včetně možnosti uživatelského rozhraní s nízkým kódem, najdete v tématu Co je AutoML?.
Klasifikace
Tato databricks.automl.classify
metoda nakonfiguruje spuštění AutoML pro trénování klasifikačního modelu.
Poznámka:
Parametr max_trials
je zastaralý v Databricks Runtime 10.4 ML a není podporován v Databricks Runtime 11.0 ML a vyšší. Slouží timeout_minutes
k řízení doby trvání spuštění AutoML.
databricks.automl.classify(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
primary_metric: str = "f1",
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
pos_label: Optional[Union[int, bool, str]] = None, # <DBR> 11.1 ML and above
time_col: Optional[str] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None # <DBR> 15.4 ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Klasifikace parametrů
Název parametru | Typ | Popis |
---|---|---|
dataset |
str , pandas.DataFrame , , pyspark.DataFrame pyspark.sql.DataFrame |
Název vstupní tabulky nebo datový rámec, který obsahuje trénovací funkce a cíl Název tabulky může být ve formátu database_name<>.<>table_name" nebo "<schema_name>"<>table_name" pro tabulky, které nejsou katalogem Unity. |
target_col |
str |
Název sloupce pro cílový popisek |
primary_metric |
str |
Metrika použitá k vyhodnocení a hodnocení výkonu modelu Podporované metriky pro regresi: "r2" (výchozí), "mae", "rmse", "mse" Podporované metriky pro klasifikaci: "f1" (výchozí), "log_loss", "přesnost", "přesnost", "přesnost", "roc_auc" |
data_dir |
str formát dbfs:/<folder-name> |
Nepovinné. Cesta DBFS použitá k uložení trénovací datové sady Tato cesta je viditelná pro ovladače i pracovní uzly. Databricks doporučuje ponechat toto pole prázdné, takže AutoML může trénovací datovou sadu uložit jako artefakt MLflow. Pokud je zadána vlastní cesta, datová sada nedědí přístupová oprávnění experimentu AutoML. |
experiment_dir |
str |
Nepovinné. Cesta k adresáři v pracovním prostoru pro uložení vygenerovaných poznámkových bloků a experimentů Výchozí: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Nepovinné. Název experimentu MLflow, který autoML vytvoří. Výchozí hodnota: Název se automaticky vygeneruje. |
exclude_cols |
List[str] |
Nepovinné. Seznam sloupců, které se mají při výpočtech AutoML ignorovat Výchozí hodnota: [] |
exclude_frameworks |
List[str] |
Nepovinné. Seznam architektur algoritmů, které By AutoML nemělo brát v úvahu při vývoji modelů. Možné hodnoty: prázdný seznam nebo jeden nebo více "sklearn", "lightgbm", "xgboost". Výchozí hodnota: [] (považují se za všechny architektury) |
feature_store_lookups |
List[Dict] |
Nepovinné. Seznamslovníkch Platné klíče v každém slovníku jsou: - table_name (str): Povinné. Název tabulky funkcí- lookup_key (seznam nebo str): Povinný argument. Názvy sloupců, které se použijí jako klíč při připojování tabulky funkcí s daty předanými v parametru dataset . Pořadí názvů sloupců musí odpovídat pořadí primárních klíčů tabulky funkcí.- timestamp_lookup_key (str): Vyžaduje se, pokud je zadaná tabulka funkcí časové řady. Název sloupce, který se má použít při vyhledávání v tabulce funkcí k určitému bodu v čase s daty předanými v parametru dataset .Výchozí hodnota: [] |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
Nepovinné. Slovník, kde každý klíč je název sloupce a každá hodnota je řetězec nebo slovník popisující strategii imputace. Pokud je hodnota zadaná jako řetězec, musí být jednou z "střední", "medián" nebo "most_frequent". Chcete-li napsat známou hodnotu, zadejte hodnotu jako slovník {"strategy": "constant", "fill_value": <desired value>} . Můžete také zadat možnosti řetězce jako slovníky, například {"strategy": "mean"} .Pokud sloupec neobsahuje žádnou strategii imputace, AutoML vybere výchozí strategii na základě typu a obsahu sloupce. Pokud zadáte metodu bez výchozí imputace, AutoML neprovádí detekci sémantických typů. Výchozí: {} |
pos_label |
Union[int, bool, str] |
(Pouze klasifikace) Kladná třída. To je užitečné pro výpočet metrik, jako je přesnost a úplnost. Měla by být zadána pouze pro problémy s binární klasifikací. |
time_col |
str |
K dispozici ve službě Databricks Runtime 10.1 ML a novějších. Nepovinné. Název sloupce pro sloupec času Pokud je k dispozici, AutoML se pokusí datovou sadu rozdělit na trénovací, ověřovací a testovací sady chronologicky, přičemž nejstarší body jako trénovací data a nejnovější body se pokusí rozdělit jako testovací sadu. Akceptované typy sloupců jsou časové razítko a celé číslo. S Modulem Databricks Runtime 10.2 ML a novějším jsou podporovány také řetězcové sloupce. Pokud je typ sloupce řetězec, AutoML se ho pokusí převést na časové razítko pomocí sémantické detekce. Pokud převod selže, spuštění AutoML selže. |
split_col |
str |
Nepovinné. Název sloupce pro rozdělený sloupec Pro pracovní postupy rozhraní API je k dispozici pouze databricks Runtime 15.3 ML a novější. Pokud je k dispozici, AutoML se pokusí rozdělit trénovací/ověřit/testovací sady podle uživatelem zadaných hodnot a tento sloupec se automaticky vyloučí z trénovacích funkcí. Akceptovaným typem sloupce je řetězec. Hodnota každé položky v tomto sloupci musí být jedna z následujících položek: "train", "validate" nebo "test". |
sample_weight_col |
str |
K dispozici ve službě Databricks Runtime 15.4 ML a vyšší pro pracovní postupy rozhraní API klasifikace. Nepovinné. Název sloupce v datové sadě, která obsahuje ukázkové váhy pro každý řádek. Klasifikace podporuje váhy vzorku pro každou třídu. Tyto váhy upravují důležitost každé třídy během trénování modelu. Každý vzorek v rámci třídy musí mít stejnou hmotnost vzorku a váhy musí být nezáporné desetinné číslo nebo celočíselné hodnoty v rozsahu od 0 do 10 000. Třídy s vyšší váhou vzorků jsou považovány za důležitější a mají větší vliv na algoritmus učení. Pokud tento sloupec není zadán, předpokládá se, že všechny třídy mají stejnou váhu. |
max_trials |
int |
Nepovinné. Maximální počet pokusů, které se mají spustit. Tento parametr je k dispozici v Databricks Runtime 10.5 ML a níže, ale je zastaralý od databricks Runtime 10.3 ML. Ve službě Databricks Runtime 11.0 ML a vyšší není tento parametr podporován. Výchozí hodnota: 20 Pokud timeout_minutes=None, autoML spustí maximální počet pokusů. |
timeout_minutes |
int |
Nepovinné. Maximální doba čekání na dokončení zkušebních verzí AutoML Delší časové limity umožňují službě AutoML spouštět více pokusů a identifikovat model s vyšší přesností. Výchozí hodnota: 120 minut Minimální hodnota: 5 minut Pokud je časový limit příliš krátký, aby bylo možné dokončit aspoň jednu zkušební verzi, zobrazí se chyba. |
Regrese
Tato databricks.automl.regress
metoda nakonfiguruje spuštění AutoML pro trénování regresního modelu. Tato metoda vrátí autoMLSummary.
Poznámka:
Parametr max_trials
je zastaralý v Databricks Runtime 10.4 ML a není podporován v Databricks Runtime 11.0 ML a vyšší. Slouží timeout_minutes
k řízení doby trvání spuštění AutoML.
databricks.automl.regress(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
primary_metric: str = "r2",
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
time_col: Optional[str] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None, # <DBR> 15.3 ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Parametry regrese
Název parametru | Typ | Popis |
---|---|---|
dataset |
str , pandas.DataFrame , , pyspark.DataFrame pyspark.sql.DataFrame |
Název vstupní tabulky nebo datový rámec, který obsahuje trénovací funkce a cíl Název tabulky může být ve formátu database_name<>.<>table_name" nebo "<schema_name>"<>table_name" pro tabulky, které nejsou katalogem Unity. |
target_col |
str |
Název sloupce pro cílový popisek |
primary_metric |
str |
Metrika použitá k vyhodnocení a hodnocení výkonu modelu Podporované metriky pro regresi: "r2" (výchozí), "mae", "rmse", "mse" Podporované metriky pro klasifikaci: "f1" (výchozí), "log_loss", "přesnost", "přesnost", "přesnost", "roc_auc" |
data_dir |
str formát dbfs:/<folder-name> |
Nepovinné. Cesta DBFS použitá k uložení trénovací datové sady Tato cesta je viditelná pro ovladače i pracovní uzly. Databricks doporučuje ponechat toto pole prázdné, takže AutoML může trénovací datovou sadu uložit jako artefakt MLflow. Pokud je zadána vlastní cesta, datová sada nedědí přístupová oprávnění experimentu AutoML. |
experiment_dir |
str |
Nepovinné. Cesta k adresáři v pracovním prostoru pro uložení vygenerovaných poznámkových bloků a experimentů Výchozí: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Nepovinné. Název experimentu MLflow, který autoML vytvoří. Výchozí hodnota: Název se automaticky vygeneruje. |
exclude_cols |
List[str] |
Nepovinné. Seznam sloupců, které se mají při výpočtech AutoML ignorovat Výchozí hodnota: [] |
exclude_frameworks |
List[str] |
Nepovinné. Seznam architektur algoritmů, které By AutoML nemělo brát v úvahu při vývoji modelů. Možné hodnoty: prázdný seznam nebo jeden nebo více "sklearn", "lightgbm", "xgboost". Výchozí hodnota: [] (považují se za všechny architektury) |
feature_store_lookups |
List[Dict] |
Nepovinné. Seznamslovníkch Platné klíče v každém slovníku jsou: - table_name (str): Povinné. Název tabulky funkcí- lookup_key (seznam nebo str): Povinný argument. Názvy sloupců, které se použijí jako klíč při připojování tabulky funkcí s daty předanými v parametru dataset . Pořadí názvů sloupců musí odpovídat pořadí primárních klíčů tabulky funkcí.- timestamp_lookup_key (str): Vyžaduje se, pokud je zadaná tabulka funkcí časové řady. Název sloupce, který se má použít při vyhledávání v tabulce funkcí k určitému bodu v čase s daty předanými v parametru dataset .Výchozí hodnota: [] |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
Nepovinné. Slovník, kde každý klíč je název sloupce a každá hodnota je řetězec nebo slovník popisující strategii imputace. Pokud je hodnota zadaná jako řetězec, musí být jednou z "střední", "medián" nebo "most_frequent". Chcete-li napsat známou hodnotu, zadejte hodnotu jako slovník {"strategy": "constant", "fill_value": <desired value>} . Můžete také zadat možnosti řetězce jako slovníky, například {"strategy": "mean"} .Pokud sloupec neobsahuje žádnou strategii imputace, AutoML vybere výchozí strategii na základě typu a obsahu sloupce. Pokud zadáte metodu bez výchozí imputace, AutoML neprovádí detekci sémantických typů. Výchozí: {} |
time_col |
str |
K dispozici ve službě Databricks Runtime 10.1 ML a novějších. Nepovinné. Název sloupce pro sloupec času Pokud je k dispozici, AutoML se pokusí datovou sadu rozdělit na trénovací, ověřovací a testovací sady chronologicky, přičemž nejstarší body jako trénovací data a nejnovější body se pokusí rozdělit jako testovací sadu. Akceptované typy sloupců jsou časové razítko a celé číslo. S Modulem Databricks Runtime 10.2 ML a novějším jsou podporovány také řetězcové sloupce. Pokud je typ sloupce řetězec, AutoML se ho pokusí převést na časové razítko pomocí sémantické detekce. Pokud převod selže, spuštění AutoML selže. |
split_col |
str |
Nepovinné. Název sloupce pro rozdělený sloupec Pro pracovní postupy rozhraní API je k dispozici pouze databricks Runtime 15.3 ML a novější. Pokud je k dispozici, AutoML se pokusí rozdělit trénovací/ověřit/testovací sady podle uživatelem zadaných hodnot a tento sloupec se automaticky vyloučí z trénovacích funkcí. Akceptovaným typem sloupce je řetězec. Hodnota každé položky v tomto sloupci musí být jedna z následujících položek: "train", "validate" nebo "test". |
sample_weight_col |
str |
K dispozici ve službě Databricks Runtime 15.3 ML a vyšší pro pracovní postupy regresního rozhraní API. Nepovinné. Název sloupce v datové sadě, která obsahuje ukázkové váhy pro každý řádek. Tyto váhy upravují důležitost jednotlivých řádků během trénování modelu. Váhy musí být nezáporné desetinné číslo nebo celočíselné hodnoty v rozsahu od 0 do 10 000. Řádky s vyšší váhou vzorků jsou považovány za důležitější a mají větší vliv na algoritmus učení. Pokud tento sloupec není zadaný, předpokládá se, že všechny řádky mají stejnou váhu. |
max_trials |
int |
Nepovinné. Maximální počet pokusů, které se mají spustit. Tento parametr je k dispozici v Databricks Runtime 10.5 ML a níže, ale je zastaralý od databricks Runtime 10.3 ML. Ve službě Databricks Runtime 11.0 ML a vyšší není tento parametr podporován. Výchozí hodnota: 20 Pokud timeout_minutes=None, autoML spustí maximální počet pokusů. |
timeout_minutes |
int |
Nepovinné. Maximální doba čekání na dokončení zkušebních verzí AutoML Delší časové limity umožňují službě AutoML spouštět více pokusů a identifikovat model s vyšší přesností. Výchozí hodnota: 120 minut Minimální hodnota: 5 minut Pokud je časový limit příliš krátký, aby bylo možné dokončit aspoň jednu zkušební verzi, zobrazí se chyba. |
Prognóza
Tato databricks.automl.forecast
metoda nakonfiguruje spuštění AutoML pro trénování modelu prognózování. Tato metoda vrátí autoMLSummary.
Aby bylo možné použít funkci Auto-ARIMA, musí mít časová řada běžnou frekvenci (to znamená, že interval mezi všemi dvěma body musí být stejný v průběhu časové řady). Frekvence se musí shodovat s jednotkou frekvence zadanou ve volání rozhraní API. AutoML zpracovává chybějící kroky času vyplněním těchto hodnot předchozí hodnotou.
databricks.automl.forecast(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
time_col: str,
primary_metric: str = "smape",
country_code: str = "US", # <DBR> 12.0 ML and above
frequency: str = "D",
horizon: int = 1,
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None,
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_frameworks: Optional[List[str]] = None,
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 12.2 LTS ML and above
identity_col: Optional[Union[str, List[str]]] = None,
sample_weight_col: Optional[str] = None, # <DBR> 16.0 ML and above
output_database: Optional[str] = None, # <DBR> 10.5 ML and above
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Parametry prognózování
Název parametru | Typ | Popis |
---|---|---|
dataset |
str , pandas.DataFrame , , pyspark.DataFrame pyspark.sql.DataFrame |
Název vstupní tabulky nebo datový rámec, který obsahuje trénovací funkce a cíl Název tabulky může být ve formátu .. nebo "." pro tabulky jiného katalogu než Unity |
target_col |
str |
Název sloupce pro cílový popisek |
time_col |
str |
Název sloupce času pro prognózování |
primary_metric |
str |
Metrika použitá k vyhodnocení a hodnocení výkonu modelu Podporované metriky: "smape" (výchozí), "mse", "rmse", "mae" nebo "mdape". |
country_code |
str |
K dispozici ve službě Databricks Runtime 12.0 ML a vyšší. Podporuje pouze model prognózování Proroka. Nepovinné. Dvoupísmenný kód země označující svátky země, které má model prognózy použít. Pokud chcete ignorovat svátky, nastavte tento parametr na prázdný řetězec (""). Podporované země. Výchozí hodnota: USA (USA svátky). |
frequency |
str |
Frekvence časových řad pro prognózování Jedná se o období, ve kterém se očekávají události. Výchozí nastavení je D nebo denní data. Pokud data mají jinou frekvenci, nezapomeňte nastavení změnit. Možné hodnoty: "W" (týdny) "D" / "days" / "day" "hours" / "hour" / "hr" / "h" "m" / "minute" / "min" / "minutes" / "T" "S" / "seconds" / "sec" / "second" Následující informace jsou k dispozici pouze pro Databricks Runtime 12.0 ML a vyšší: "M" / "month" / "months" "Q" / "quarter" / "quarters" "Y" / "year" / "years" Výchozí hodnota: "D" |
horizon |
int |
Počet období do budoucnosti, pro která se mají vrátit prognózy. Jednotky jsou frekvence časových řad. Výchozí hodnota: 1 |
data_dir |
str formát dbfs:/<folder-name> |
Nepovinné. Cesta DBFS použitá k uložení trénovací datové sady Tato cesta je viditelná pro ovladače i pracovní uzly. Databricks doporučuje ponechat toto pole prázdné, takže AutoML může trénovací datovou sadu uložit jako artefakt MLflow. Pokud je zadána vlastní cesta, datová sada nedědí přístupová oprávnění experimentu AutoML. |
experiment_dir |
str |
Nepovinné. Cesta k adresáři v pracovním prostoru pro uložení vygenerovaných poznámkových bloků a experimentů Výchozí: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Nepovinné. Název experimentu MLflow, který autoML vytvoří. Výchozí hodnota: Název se automaticky vygeneruje. |
exclude_frameworks |
List[str] |
Nepovinné. Seznam architektur algoritmů, které By AutoML nemělo brát v úvahu při vývoji modelů. Možné hodnoty: prázdný seznam nebo jeden nebo více "proroků", "arima". Výchozí hodnota: [] (považují se za všechny architektury) |
feature_store_lookups |
List[Dict] |
Nepovinné. Seznam slovníků, které představují funkce z úložiště funkcí pro kovarianci rozšíření dat Platné klíče v každém slovníku jsou: - table_name (str): Povinné. Název tabulky funkcí- lookup_key (seznam nebo str): Povinný argument. Názvy sloupců, které se použijí jako klíč při připojování tabulky funkcí s daty předanými v parametru dataset . Pořadí názvů sloupců musí odpovídat pořadí primárních klíčů tabulky funkcí.- timestamp_lookup_key (str): Vyžaduje se, pokud je zadaná tabulka funkcí časové řady. Název sloupce, který se má použít při vyhledávání v tabulce funkcí k určitému bodu v čase s daty předanými v parametru dataset .Výchozí hodnota: [] |
identity_col |
Union[str, list] |
Nepovinné. Sloupce, které identifikují časovou řadu pro prognózování s více řadami AutoML seskupí podle těchto sloupců a sloupce času pro prognózování. |
sample_weight_col |
str |
K dispozici ve službě Databricks Runtime 16.0 ML a vyšší. Pouze pro pracovní postupy s více časovými řadami. Nepovinné. Určuje sloupec v datové sadě, který obsahuje ukázkové váhy. Tyto váhy označují relativní důležitost každé časové řady během trénování a vyhodnocování modelu. Časové řady s vyšší hmotností mají větší vliv na model. Pokud není k dispozici, zachází se všemi časovými řadami se stejnou hmotností. Všechny řádky patřící do stejné časové řady musí mít stejnou váhu. Váhy musí být nezáporné hodnoty, desetinná čísla nebo celá čísla a musí být v rozmezí od 0 do 10 000. |
output_database |
str |
Nepovinné. Pokud je k dispozici, AutoML ukládá předpovědi nejlepšího modelu do nové tabulky v zadané databázi. Výchozí: Předpovědi se neuloží. |
timeout_minutes |
int |
Nepovinné. Maximální doba čekání na dokončení zkušebních verzí AutoML Delší časové limity umožňují službě AutoML spouštět více pokusů a identifikovat model s vyšší přesností. Výchozí hodnota: 120 minut Minimální hodnota: 5 minut Pokud je časový limit příliš krátký, aby bylo možné dokončit aspoň jednu zkušební verzi, zobrazí se chyba. |
Import poznámkového bloku
Metoda databricks.automl.import_notebook
importuje poznámkový blok uložený jako artefakt MLflow. Tato metoda vrátí ImportNotebookResult.
databricks.automl.import_notebook(
artifact_uri: str,
path: str,
overwrite: bool = False
) -> ImportNotebookResult:
Parametry | Typ | Popis |
---|---|---|
artifact_uri |
str |
Identifikátor URI artefaktu MLflow, který obsahuje poznámkový blok zkušební verze. |
path |
str |
Cesta v pracovním prostoru Databricks, ve kterém se má poznámkový blok importovat. Musí to být absolutní cesta. Adresář se vytvoří, pokud neexistuje. |
overwrite |
bool |
Jestli chcete poznámkový blok přepsat, pokud už existuje. False Je to ve výchozím nastavení. |
Příklad importu poznámkového bloku
summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)
AutoMLSummary
Souhrnný objekt pro spuštění AutoML, který popisuje metriky, parametry a další podrobnosti pro každou zkušební verzi. Tento objekt také použijete k načtení modelu natrénovaného konkrétní zkušební verzí.
Vlastnost | Type | Popis |
---|---|---|
experiment |
mlflow.entities.Experiment |
Experiment MLflow použitý k protokolování pokusů. |
trials |
List[TrialInfo] |
Seznam objektů TrialInfo obsahujících informace o všech spuštěných pokusech. |
best_trial |
TrialInfo |
Objekt TrialInfo obsahující informace o zkušební verzi, která způsobila nejlepší vážené skóre pro primární metriku. |
metric_distribution |
str |
Rozdělení vážených skóre pro primární metriku napříč všemi pokusy |
output_table_name |
str |
Používá se pouze s prognózováním a pouze v případě, že je k dispozici output_database. Název tabulky v output_database obsahující předpovědi modelu |
TrialInfo
Souhrnný objekt pro každou jednotlivou zkušební verzi
Vlastnost | Type | Popis |
---|---|---|
notebook_path |
Optional[str] |
Cesta k vygenerovanému poznámkovému bloku pro tuto zkušební verzi v pracovním prostoru. Pro klasifikaci a regresi je tato hodnota nastavena pouze pro nejlepší zkušební verzi, zatímco všechny ostatní pokusy mají hodnotu nastavenou na None .Pro prognózování je tato hodnota k dispozici pro všechny pokusy. |
notebook_url |
Optional[str] |
Adresa URL vygenerovaného poznámkového bloku pro tuto zkušební verzi Pro klasifikaci a regresi je tato hodnota nastavena pouze pro nejlepší zkušební verzi, zatímco všechny ostatní pokusy mají hodnotu nastavenou na None .Pro prognózování je tato hodnota k dispozici pro všechny pokusy. |
artifact_uri |
Optional[str] |
Identifikátor URI artefaktu MLflow pro vygenerovaný poznámkový blok. |
mlflow_run_id |
str |
ID spuštění MLflow přidružené k tomuto zkušebnímu spuštění. |
metrics |
Dict[str, float] |
Metriky zaprotokolované v MLflow pro tuto zkušební verzi. |
params |
Dict[str, str] |
Parametry protokolované v MLflow, které byly použity pro tuto zkušební verzi. |
model_path |
str |
Adresa URL artefaktu MLflow modelu natrénovaného v této zkušební verzi. |
model_description |
str |
Stručný popis modelu a hyperparametrů použitých pro trénování tohoto modelu. |
duration |
str |
Doba trénování v minutách. |
preprocessors |
str |
Popis předzpracovačů spuštěných před trénováním modelu |
evaluation_metric_score |
float |
Skóre primární metriky vyhodnocené pro ověřovací datovou sadu |
TrialInfo
má metodu načtení modelu vygenerovaného pro zkušební verzi.
metoda | Popis |
---|---|
load_model() |
Načtěte model vygenerovaný v této zkušební verzi a zaprotokolujte jako artefakt MLflow. |
ImportNotebookResult
Vlastnost | Type | Popis |
---|---|---|
path |
str |
Cesta v pracovním prostoru Databricks, ve kterém se má poznámkový blok importovat. Musí to být absolutní cesta. Adresář se vytvoří, pokud neexistuje. |
url |
str |
Identifikátor URI artefaktu MLflow, který obsahuje poznámkový blok zkušební verze. |