Dokumentacja interfejsu API AutoML w języku Python
W tym artykule opisano interfejs API języka Python rozwiązania AutoML, który udostępnia metody uruchamiania klasyfikacji, regresji i prognozowania przebiegów automatycznego uczenia maszynowego. Każde wywołanie metody umożliwia trening zestawu modeli i generuje zeszyt próbny dla każdego modelu.
Aby uzyskać więcej informacji na temat rozwiązania AutoML, w tym opcji interfejsu użytkownika z małą ilością kodu, zobacz Co to jest rozwiązanie AutoML?.
Klasyfikowanie
Metoda databricks.automl.classify
konfiguruje przebieg automatycznego uczenia maszynowego w celu wytrenowania modelu klasyfikacji.
Uwaga
Parametr max_trials
jest przestarzały w środowisku Databricks Runtime 10.4 ML i nie jest obsługiwany w środowisku Databricks Runtime 11.0 ML i nowszym. Użyj timeout_minutes
do kontrolowania czasu trwania przebiegu AutoML.
databricks.automl.classify(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
primary_metric: str = "f1",
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
pos_label: Optional[Union[int, bool, str]] = None, # <DBR> 11.1 ML and above
time_col: Optional[str] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None # <DBR> 15.4 ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Klasyfikuj parametry
Nazwa parametru | Typ | Opis |
---|---|---|
dataset |
str , , pandas.DataFrame , , pyspark.DataFrame pyspark.sql.DataFrame |
Nazwa tabeli wejściowej lub ramka danych zawierająca funkcje trenowania i element docelowy. Nazwa tabeli może mieć format "<database_name>.<table_name>" lub "<schema_name>.<table_name>" dla tabel niezwiązanych z Unity Catalog. |
target_col |
str |
Nazwa kolumny etykiety docelowej. |
primary_metric |
str |
Metryka używana do oceny i klasyfikacji wydajności modelu. Obsługiwane metryki regresji: "r2" (ustawienie domyślne), "mae", "rmse", "mse" Obsługiwane metryki klasyfikacji: "f1" (ustawienie domyślne), "log_loss", "precyzja", "dokładność", "roc_auc" |
data_dir |
str w formacie dbfs:/<folder-name> |
Opcjonalny.
Ścieżka systemu plików DBFS używana do przechowywania zestawu danych trenowania. Ta ścieżka jest widoczna zarówno dla węzłów nadrzędnych, jak i roboczych. Databricks zaleca pozostawienie tego pola pustego, aby AutoML mógł zapisać zestaw danych trenowania jako artefakt MLflow. Jeśli zostanie określona ścieżka niestandardowa, zestaw danych nie dziedziczy uprawnień dostępu eksperymentu automatycznego uczenia maszynowego. |
experiment_dir |
str |
Opcjonalny. Ścieżka do katalogu w obszarze roboczym w celu zapisania wygenerowanych notesów i eksperymentów. Jeśli używasz zasobu obliczeniowego przypisanego do grupy, ustaw go na folder, do którego grupa ma uprawnienia do zapisu. Domyślnie: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Opcjonalny. Nazwa eksperymentu MLflow tworzonego przez rozwiązanie AutoML. Ustawienie domyślne: nazwa jest generowana automatycznie. |
exclude_cols |
List[str] |
Opcjonalny. Lista kolumn do ignorowania podczas obliczeń rozwiązania AutoML. Ustawienie domyślne: [] |
exclude_frameworks |
List[str] |
Opcjonalny. Lista frameworków algorytmów, które AutoML nie powinno brać pod uwagę podczas opracowywania modeli. Możliwe wartości: pusta lista lub co najmniej jedna "sklearn", "lightgbm", "xgboost". Ustawienie domyślne: [] (wszystkie struktury są brane pod uwagę) |
feature_store_lookups |
List[Dict] |
Opcjonalny. Lista słowników reprezentujących funkcje z magazynu funkcji na potrzeby rozszerzania danych. Prawidłowe klucze w każdym słowniku to:
Ustawienie domyślne: [] |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
Opcjonalny. Słownik, w którym każdy klucz jest nazwą kolumny, a każda wartość jest ciągiem lub słownikiem opisującym strategię imputacji. Jeśli zostanie określona jako ciąg, wartość musi być jedną z wartości: "mean", "median" lub "most_frequent". Aby imputować ze znaną wartością, określ wartość jako słownik {"strategy": "constant", "fill_value": <desired value>} . Można również określić opcje ciągów jako słowniki, na przykład {"strategy": "mean"} .Jeśli nie podano strategii imputacji dla kolumny, rozwiązanie AutoML wybiera strategię domyślną na podstawie typu kolumny i zawartości. Jeśli określisz metodę imputacji innej niż domyślna, rozwiązanie AutoML nie wykonuje wykrywania typów semantycznych. Domyślnie: {} |
pos_label |
Union[int, bool, str] |
(Tylko klasyfikacja) Klasa pozytywna. Jest to przydatne do obliczania metryk, takich jak precyzja i czułość. Należy określić tylko w przypadku problemów z klasyfikacją binarną. |
time_col |
str |
Dostępne w środowisku Databricks Runtime 10.1 ML lub nowszym. Opcjonalny. Nazwa kolumny dla kolumny czasowej. Jeśli jest to podane, rozwiązanie AutoML próbuje podzielić zestaw danych na zestawy trenowania, walidacji i testów chronologicznie, używając najwcześniejszych punktów jako danych treningowych i najnowszych punktów jako zestawu testowego. Zaakceptowane typy kolumn to sygnatura czasowa i liczba całkowita. W przypadku Databricks Runtime 10.2 ML i nowszych, kolumny ciągów są również obsługiwane. Jeśli typ kolumny to ciąg, rozwiązanie AutoML próbuje przekonwertować go na znacznik czasu przy użyciu wykrywania semantycznego. Jeśli konwersja zakończy się niepowodzeniem, uruchomienie rozwiązania AutoML zakończy się niepowodzeniem. |
split_col |
str |
Opcjonalny. Nazwa kolumny podzielonej. Dostępne tylko w środowisku Databricks Runtime 15.3 ML i nowszym dla przepływów pracy API. Jeśli jest to podane, rozwiązanie AutoML próbuje podzielić zestawy trenowania/weryfikowania/testowania według wartości określonych przez użytkownika, a ta kolumna jest automatycznie wykluczona z funkcji trenowania. Zaakceptowany typ kolumny to ciąg. Wartość każdego wpisu w tej kolumnie musi być jedną z następujących wartości: "train", "validate" lub "test". |
sample_weight_col |
str |
Dostępne w środowisku Databricks Runtime 15.4 ML i nowszym dla przepływów pracy interfejsu API klasyfikacji. Opcjonalny. Nazwa kolumny w zestawie danych, który zawiera przykładowe wagi dla każdego wiersza. Klasyfikacja obsługuje wagi próbek dla każdej klasy. Te wagi dostosowują ważność każdej klasy podczas trenowania modelu. Każda próbka w klasie musi mieć taką samą wagę próbki, a wagi muszą być wartościami nie ujemnymi dziesiętnymi lub całkowitymi, od 0 do 10 000. Klasy o wyższych wagach próbek są uważane za ważniejsze i mają większy wpływ na algorytm uczenia. Jeśli ta kolumna nie zostanie określona, przyjmuje się, że wszystkie klasy mają taką samą wagę. |
max_trials |
int |
Opcjonalny. Maksymalna liczba prób do uruchomienia. Ten parametr jest dostępny w środowisku Databricks Runtime 10.5 ML i poniżej, ale jest przestarzały, począwszy od środowiska Databricks Runtime 10.3 ML. W środowisku Databricks Runtime 11.0 ML i nowszym ten parametr nie jest obsługiwany. Ustawienie domyślne: 20 Jeśli timeout_minutes=None, rozwiązanie AutoML uruchamia maksymalną liczbę prób. |
timeout_minutes |
int |
Opcjonalny. Maksymalny czas oczekiwania na ukończenie prób AutoML. Dłuższe limity czasu umożliwiają usłudze AutoML uruchamianie większej liczby prób i identyfikowanie modelu z lepszą dokładnością. Ustawienie domyślne: 120 minut Wartość minimalna: 5 minut Zgłaszany jest błąd, jeśli limit czasu jest zbyt krótki, aby umożliwić ukończenie co najmniej jednej wersji próbnej. |
Regres
Metoda databricks.automl.regress
konfiguruje działanie AutoML do wytrenowania modelu regresji. Ta metoda zwraca AutoMLSummary.
Uwaga
Parametr max_trials
jest przestarzały w środowisku Databricks Runtime 10.4 ML i nie jest obsługiwany w środowisku Databricks Runtime 11.0 ML i nowszym. Użyj timeout_minutes
do kontrolowania czasu trwania przebiegu AutoML.
databricks.automl.regress(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
primary_metric: str = "r2",
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
time_col: Optional[str] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None, # <DBR> 15.3 ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Parametry regresji
Nazwa parametru | Typ | Opis |
---|---|---|
dataset |
str , , pandas.DataFrame , , pyspark.DataFrame pyspark.sql.DataFrame |
Podaj nazwę tabeli lub nazwa ramki danych zawierającej cechy szkoleniowe i cel. Nazwa tabeli może mieć format "<database_name>.<table_name>" lub "<schema_name>.<table_name>" dla tabel spoza Unity Catalog. |
target_col |
str |
Nazwa kolumny etykiety docelowej. |
primary_metric |
str |
Metryka używana do oceny i klasyfikacji wydajności modelu. Obsługiwane metryki regresji: "r2" (ustawienie domyślne), "mae", "rmse", "mse" Obsługiwane metryki klasyfikacji: "f1" (ustawienie domyślne), "log_loss", "precyzja", "dokładność", "roc_auc" |
data_dir |
str w formacie dbfs:/<folder-name> |
Opcjonalny.
Ścieżka systemu plików DBFS używana do przechowywania zestawu danych trenowania. Ta ścieżka jest widoczna zarówno dla węzłów zarządzających, jak i węzłów roboczych. Usługa Databricks zaleca pozostawienie tego pola pustego, aby AutoML mógł zapisać zestaw danych szkoleniowych jako artefakt MLflow. Jeśli zostanie określona ścieżka niestandardowa, zestaw danych nie dziedziczy uprawnień dostępu eksperymentu automatycznego uczenia maszynowego. |
experiment_dir |
str |
Opcjonalny. Ścieżka do katalogu w obszarze roboczym w celu zapisania wygenerowanych notesów i eksperymentów. Domyślnie: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Opcjonalny. Nazwa eksperymentu MLflow tworzonego przez rozwiązanie AutoML. Ustawienie domyślne: nazwa jest generowana automatycznie. |
exclude_cols |
List[str] |
Opcjonalny. Lista kolumn do ignorowania podczas obliczeń rozwiązania AutoML. Ustawienie domyślne: [] |
exclude_frameworks |
List[str] |
Opcjonalny. Lista ram algorytmów, których AutoML nie powinien uwzględniać podczas tworzenia modeli. Możliwe wartości: pusta lista lub co najmniej jedna "sklearn", "lightgbm", "xgboost". Ustawienie domyślne: [] (wszystkie struktury są brane pod uwagę) |
feature_store_lookups |
List[Dict] |
Opcjonalny. Lista słowników reprezentujących cechy z Feature Store na potrzeby augmentacji danych. Prawidłowe klucze w każdym słowniku to:
Ustawienie domyślne: [] |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
Opcjonalny. Słownik, w którym każdy klucz jest nazwą kolumny, a każda wartość jest ciągiem lub słownikiem opisującym strategię imputacji. W przypadku określenia jako ciąg, wartość musi być jedną z opcji: "mean", "median" lub "most_frequent". Aby imputować ze znaną wartością, określ tę wartość w postaci słownika {"strategy": "constant", "fill_value": <desired value>} . Można również określić opcje ciągów jako słowniki, na przykład {"strategy": "mean"} .Jeśli nie podano strategii imputacji dla kolumny, rozwiązanie AutoML wybiera strategię domyślną na podstawie typu kolumny i zawartości. Jeśli określisz metodę imputacji innej niż domyślna, rozwiązanie AutoML nie wykonuje wykrywania typów semantycznych. Domyślnie: {} |
time_col |
str |
Dostępne w środowisku Databricks Runtime 10.1 ML lub nowszym. Opcjonalny. Nazwa kolumny dla kolumny czasowej. Jeśli jest to podane, rozwiązanie AutoML próbuje podzielić zestaw danych na zestawy trenowania, walidacji i testów chronologicznie, używając najwcześniejszych punktów jako danych treningowych i najnowszych punktów jako zestawu testowego. Zaakceptowane typy kolumn to sygnatura czasowa i liczba całkowita. W Databricks Runtime 10.2 ML i nowszych wersjach kolumny tekstowe są również obsługiwane. Jeśli typ kolumny to ciąg, rozwiązanie AutoML próbuje przekonwertować go na znacznik czasu przy użyciu wykrywania semantycznego. Jeśli konwersja zakończy się niepowodzeniem, uruchomienie rozwiązania AutoML zakończy się niepowodzeniem. |
split_col |
str |
Opcjonalny. Nazwa kolumny podzielonej. Dostępne tylko w środowisku Databricks Runtime 15.3 ML lub nowszym dla przepływów pracy API. Jeśli jest to podane, rozwiązanie AutoML próbuje podzielić zestawy trenowania/weryfikowania/testowania według wartości określonych przez użytkownika, a ta kolumna jest automatycznie wykluczona z funkcji trenowania. Zaakceptowany typ kolumny to ciąg. Wartość każdego wpisu w tej kolumnie musi być jedną z następujących wartości: "train", "validate" lub "test". |
sample_weight_col |
str |
Dostępne w Databricks Runtime 15.3 ML i nowszych wersjach dla przepływów pracy API regresji. Opcjonalny. Nazwa kolumny w zestawie danych, który zawiera przykładowe wagi dla każdego wiersza. Te wagi dostosowują ważność każdego wiersza w czasie trenowania modelu. Wagi muszą być wartościami nieujemnymi dziesiętnymi lub całkowitymi, od 0 do 10 000. Wiersze o wyższych wagach próbek uważa się za ważniejsze i wywierają większy wpływ na algorytm uczący się. Jeśli ta kolumna nie zostanie określona, przyjmuje się, że wszystkie wiersze mają taką samą wagę. |
max_trials |
int |
Opcjonalny. Maksymalna liczba testów do uruchomienia. Ten parametr jest dostępny w środowisku Databricks Runtime 10.5 ML i poniżej, ale jest przestarzały, począwszy od środowiska Databricks Runtime 10.3 ML. W środowisku Databricks Runtime 11.0 ML i nowszym ten parametr nie jest obsługiwany. Ustawienie domyślne: 20 Jeśli timeout_minutes=None, rozwiązanie AutoML uruchamia maksymalną liczbę prób. |
timeout_minutes |
int |
Opcjonalny. Maksymalny czas oczekiwania na ukończenie prób AutoML. Dłuższe limity czasu umożliwiają usłudze AutoML uruchamianie większej liczby prób i identyfikowanie modelu z lepszą dokładnością. Ustawienie domyślne: 120 minut Wartość minimalna: 5 minut Zgłaszany jest błąd, jeśli limit czasu jest zbyt krótki, aby umożliwić ukończenie co najmniej jednej wersji próbnej. |
Prognoza
Metoda databricks.automl.forecast
konfiguruje przebieg automatycznego uczenia maszynowego na potrzeby trenowania modelu prognozowania. Ta metoda zwraca AutoMLSummary.
Aby użyć funkcji Auto-ARIMA, szereg czasowy musi mieć regularną częstotliwość (czyli interwał między dowolnymi dwoma punktami musi być taki sam w ciągu szeregu czasowego). Częstotliwość musi być zgodna z jednostką częstotliwości określoną w wywołaniu interfejsu API. Rozwiązanie AutoML obsługuje brakujące kroki czasu, wypełniając te wartości poprzednimi wartościami.
databricks.automl.forecast(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
time_col: str,
primary_metric: str = "smape",
country_code: str = "US", # <DBR> 12.0 ML and above
frequency: str = "D",
horizon: int = 1,
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None,
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_frameworks: Optional[List[str]] = None,
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 12.2 LTS ML and above
identity_col: Optional[Union[str, List[str]]] = None,
sample_weight_col: Optional[str] = None, # <DBR> 16.0 ML and above
output_database: Optional[str] = None, # <DBR> 10.5 ML and above
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Parametry prognozowania
Nazwa parametru | Typ | Opis |
---|---|---|
dataset |
str , , pandas.DataFrame , , pyspark.DataFrame pyspark.sql.DataFrame |
Podaj nazwę tabeli lub ramkę danych zawierającą cechy treningowe i cel. Nazwa tabeli może mieć format ".". lub "." w przypadku tabel niewchodzących w skład Unity Catalog |
target_col |
str |
Nazwa kolumny etykiety docelowej. |
time_col |
str |
Nazwa kolumny czasu na potrzeby prognozowania. |
primary_metric |
str |
Metryka używana do oceny i klasyfikacji wydajności modelu. Obsługiwane metryki: "smape" (ustawienie domyślne), "mse", "rmse", "mae" lub "mdape". |
country_code |
str |
Dostępne w środowisku Databricks Runtime 12.0 ML lub nowszym. Obsługiwane tylko przez model prognozowania Prophet. Opcjonalny. Dwuliterowy kod kraju, który wskazuje, które wakacje w kraju powinny być używane przez model prognozowania. Aby zignorować dni wolne, ustaw ten parametr na pusty ciąg (""). Obsługiwane kraje. Ustawienie domyślne: Stany Zjednoczone (Stany Zjednoczone dni wolne). |
frequency |
str |
Częstotliwość szeregów czasowych używanych do prognozowania. Jest to okres, w którym mają wystąpić zdarzenia. Ustawieniem domyślnym jest "D" lub dane dzienne. Pamiętaj, aby zmienić ustawienie, jeśli dane mają inną częstotliwość. Możliwe wartości: "W" (tygodnie) "D" / "dni" / "dzień" "godziny" / "godzina" / "godz." / "g" "m" / "minuta" / "min" / "minuty" / "T" "S" / "sekundy" / "sek." / "sekunda" Następujące elementy są dostępne tylko w środowisku Databricks Runtime 12.0 ML lub nowszym: "M" / "miesiąc" / "miesiące" "Q" / "kwartał" / "kwartały" "Y" / "rok" / "lata" Ustawienie domyślne: "D" |
horizon |
int |
Liczba okresów w przyszłości, dla których powinny zostać zwrócone prognozy. Jednostki są częstotliwością szeregów czasowych. Ustawienie domyślne: 1 |
data_dir |
format str dbfs:/<folder-name> |
Opcjonalny.
Ścieżka systemu plików DBFS używana do przechowywania zestawu danych trenowania. Ta ścieżka jest widoczna zarówno dla węzłów kierujących, jak i roboczych. Databricks zaleca, aby pozostawić to pole puste, aby AutoML mógł zapisać zestaw danych treningowych jako artefakt MLflow. Jeśli zostanie określona ścieżka niestandardowa, zestaw danych nie dziedziczy uprawnień dostępu eksperymentu automatycznego uczenia maszynowego. |
experiment_dir |
str |
Opcjonalny. Ścieżka do katalogu w obszarze roboczym w celu zapisania wygenerowanych notesów i eksperymentów. Domyślnie: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Opcjonalny. Nazwa eksperymentu MLflow tworzonego przez rozwiązanie AutoML. Ustawienie domyślne: nazwa jest generowana automatycznie. |
exclude_frameworks |
List[str] |
Opcjonalny. Lista frameworków algorytmów, których AutoML nie powinien rozważać podczas tworzenia modeli. Możliwe wartości: pusta lista lub co najmniej jeden "prorok", "arima". Ustawienie domyślne: [] (wszystkie struktury są brane pod uwagę) |
feature_store_lookups |
List[Dict] |
Opcjonalny. Lista słowników reprezentujących funkcje ze sklepu Feature Store w celu rozszerzania danych wariancji. Prawidłowe klucze w każdym słowniku to:
Ustawienie domyślne: [] |
identity_col |
Union[str, list] |
Opcjonalny. Kolumny identyfikujące szeregi czasowe dla prognozowania wieloseryjnego. AutoML grupuje według tych kolumn i kolumny czasu na potrzeby prognozowania. |
sample_weight_col |
str |
Dostępne w środowisku Databricks Runtime 16.0 ML lub nowszym. Tylko w przypadku przepływów pracy z wieloma szeregami czasowymi. Opcjonalny. Określa kolumnę w zestawie danych zawierającym wagi próbek. Wagi te wskazują względne znaczenie każdego szeregu czasowego podczas trenowania i oceny modelu. Szeregi czasowe o wyższych wagach mają większy wpływ na model. Jeśli nie podano, wszystkie serie czasowe są traktowane z równą wagą. Wszystkie wiersze należące do tej samej serii czasowej muszą mieć taką samą wagę. Wagi muszą być wartościami nieujemnymi, liczbami dziesiętnymi lub liczbami całkowitymi, i mieścić się w przedziale od 0 do 10 000. |
output_database |
str |
Opcjonalny. Jeśli są dostępne, AutoML zapisuje przewidywania najlepszego modelu w nowej tabeli w określonej bazie danych. Ustawienie domyślne: Przewidywania nie są zapisywane. |
timeout_minutes |
int |
Opcjonalny. Maksymalny czas oczekiwania na ukończenie eksperymentów AutoML. Dłuższe limity czasu umożliwiają usłudze AutoML uruchamianie większej liczby prób i identyfikowanie modelu z lepszą dokładnością. Ustawienie domyślne: 120 minut Wartość minimalna: 5 minut Zgłaszany jest błąd, jeśli limit czasu jest zbyt krótki, aby umożliwić ukończenie co najmniej jednej wersji próbnej. |
Importuj notatnik
Metoda databricks.automl.import_notebook
importuje notatnik, który został zapisany jako artefakt MLflow. Ta metoda zwraca element ImportNotebookResult.
databricks.automl.import_notebook(
artifact_uri: str,
path: str,
overwrite: bool = False
) -> ImportNotebookResult:
Parametry | Typ | Opis |
---|---|---|
artifact_uri |
str |
Identyfikator URI artefaktu MLflow, który zawiera notes wersji próbnej. |
path |
str |
Ścieżka w obszarze roboczym usługi Databricks, do którego ma zostać zaimportowany notatnik. Musi to być ścieżka bezwzględna. Katalog zostanie utworzony, jeśli nie istnieje. |
overwrite |
bool |
Czy zastąpić notatnik, jeśli już istnieje. Jest to False domyślnie. |
Przykład importu notatnika
summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)
AutoMLSummary
Obiekt podsumowania przebiegu automatycznego uczenia maszynowego, który opisuje metryki, parametry i inne szczegóły dla każdej wersji próbnej. Ten obiekt służy również do ładowania modelu trenowanego przez określoną wersję próbną.
Nieruchomość | Typ | Opis |
---|---|---|
experiment |
mlflow.entities.Experiment |
Eksperyment MLflow używany do rejestrowania prób. |
trials |
List[TrialInfo] |
Lista obiektów TrialInfo zawierających informacje o wszystkich uruchomionych próbach. |
best_trial |
TrialInfo |
Obiekt TrialInfo zawierający informacje o próbie, która przyniosła najlepszy wynik ważony dla podstawowej metryki. |
metric_distribution |
str |
Rozkład ważonych wyników dla podstawowej metryki we wszystkich próbach. |
output_table_name |
str |
Służy tylko do prognozowania i tylko wtedy, gdy output_database jest podana. Nazwa tabeli w output_database zawierająca przewidywania modelu. |
TrialInfo
Obiekt podsumowania dla każdej pojedynczej wersji próbnej.
Właściwość | Typ | Opis |
---|---|---|
notebook_path |
Optional[str] |
Ścieżka do wygenerowanego notesu dla tej wersji próbnej w obszarze roboczym. W przypadku klasyfikacji i regresji ta wartość jest ustawiana tylko dla najlepszej próby, podczas gdy wszystkie inne próby mają wartość ustawioną na None .W przypadku prognozowania ta wartość jest obecna dla wszystkich prób. |
notebook_url |
Optional[str] |
Adres URL wygenerowanego notesu dla tej wersji próbnej. pl-PL: W przypadku klasyfikacji i regresji ta wartość jest ustawiana tylko dla najlepszej próby, podczas gdy wszystkie inne próby mają wartość ustawioną na None .W przypadku prognozowania ta wartość jest obecna dla wszystkich prób. |
artifact_uri |
Optional[str] |
Identyfikator URI artefaktu MLflow dla wygenerowanego notatnika. |
mlflow_run_id |
str |
Identyfikator przebiegu platformy MLflow skojarzony z tym przebiegiem wersji próbnej. |
metrics |
Dict[str, float] |
Metryki zarejestrowane w usłudze MLflow dla tej wersji próbnej. |
params |
Dict[str, str] |
Parametry zarejestrowane w narzędziu MLflow, które były używane w tej wersji próbnej. |
model_path |
str |
Adres URL artefaktu MLflow modelu wytrenowanego w tej próbie. |
model_description |
str |
Krótki opis modelu i hiperparametrów używanych do trenowania tego modelu. |
duration |
str |
Czas trwania szkolenia w minutach. |
preprocessors |
str |
Opis preprocesorów uruchamianych przed rozpoczęciem trenowania modelu. |
evaluation_metric_score |
float |
Wynik podstawowej metryki obliczony dla zestawu danych weryfikacji. |
TrialInfo
ma metodę ładowania modelu wygenerowanego dla wersji próbnej.
Metoda | Opis |
---|---|
load_model() |
Załaduj model wygenerowany w tej wersji próbnej zarejestrowany jako artefakt MLflow. |
ImportNotebookResult
Właściwość | Typ | Opis |
---|---|---|
path |
str |
Ścieżka w obszarze roboczym Databricks, do którego ma zostać zaimportowany notatnik. Musi to być ścieżka bezwzględna. Katalog zostanie utworzony, jeśli nie istnieje. |
url |
str |
URI artefaktu MLflow, który zawiera notatnik testowy. |