Dokumentacja interfejsu API języka Python rozwiązania AutoML
W tym artykule opisano interfejs API języka Python rozwiązania AutoML, który udostępnia metody uruchamiania klasyfikacji, regresji i prognozowania przebiegów automatycznego uczenia maszynowego. Każde wywołanie metody trenuje zestaw modeli i generuje notes wersji próbnej dla każdego modelu.
Aby uzyskać więcej informacji na temat rozwiązania AutoML, w tym opcji interfejsu użytkownika z małą ilością kodu, zobacz Co to jest rozwiązanie AutoML?.
Klasyfikowanie
Metoda databricks.automl.classify
konfiguruje przebieg automatycznego uczenia maszynowego w celu wytrenowania modelu klasyfikacji.
Uwaga
Parametr max_trials
jest przestarzały w środowisku Databricks Runtime 10.4 ML i nie jest obsługiwany w środowisku Databricks Runtime 11.0 ML i nowszym. Służy timeout_minutes
do kontrolowania czasu trwania przebiegu rozwiązania AutoML.
databricks.automl.classify(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
primary_metric: str = "f1",
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
pos_label: Optional[Union[int, bool, str]] = None, # <DBR> 11.1 ML and above
time_col: Optional[str] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None # <DBR> 15.4 ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Klasyfikuj parametry
Nazwa parametru | Type | Opis |
---|---|---|
dataset |
str , , pandas.DataFrame , , pyspark.DataFrame pyspark.sql.DataFrame |
Nazwa tabeli wejściowej lub ramka danych zawierająca funkcje trenowania i element docelowy. Nazwa tabeli może mieć format "<database_name>.<>table_name" lub "<schema_name>.<>table_name" dla tabel wykazu obiektów innych niż Unity. |
target_col |
str |
Nazwa kolumny etykiety docelowej. |
primary_metric |
str |
Metryka używana do oceny i klasyfikacji wydajności modelu. Obsługiwane metryki regresji: "r2" (ustawienie domyślne), "mae", "rmse", "mse" Obsługiwane metryki klasyfikacji: "f1" (ustawienie domyślne), "log_loss", "precyzja", "dokładność", "roc_auc" |
data_dir |
str format dbfs:/<folder-name> |
Opcjonalny. Ścieżka systemu plików DBFS używana do przechowywania zestawu danych trenowania. Ta ścieżka jest widoczna dla węzłów sterowników i procesów roboczych. Usługa Databricks zaleca pozostawienie tego pola pustego, dzięki czemu rozwiązanie AutoML może zapisać zestaw danych trenowania jako artefakt MLflow. Jeśli zostanie określona ścieżka niestandardowa, zestaw danych nie dziedziczy uprawnień dostępu eksperymentu automatycznego uczenia maszynowego. |
experiment_dir |
str |
Opcjonalny. Ścieżka do katalogu w obszarze roboczym w celu zapisania wygenerowanych notesów i eksperymentów. Domyślnie: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Opcjonalny. Nazwa eksperymentu MLflow tworzonego przez rozwiązanie AutoML. Ustawienie domyślne: nazwa jest generowana automatycznie. |
exclude_cols |
List[str] |
Opcjonalny. Lista kolumn do ignorowania podczas obliczeń rozwiązania AutoML. Ustawienie domyślne: [] |
exclude_frameworks |
List[str] |
Opcjonalny. Lista struktur algorytmów, których rozwiązanie AutoML nie powinno brać pod uwagę podczas tworzenia modeli. Możliwe wartości: pusta lista lub co najmniej jedna "sklearn", "lightgbm", "xgboost". Ustawienie domyślne: [] (wszystkie struktury są brane pod uwagę) |
feature_store_lookups |
List[Dict] |
Opcjonalny. Lista słowników reprezentujących funkcje z magazynu funkcji na potrzeby rozszerzania danych. Prawidłowe klucze w każdym słowniku to: - table_name (str): wymagane. Nazwa tabeli funkcji.- lookup_key (lista lub str): wymagane. Nazwy kolumn do użycia jako klucz podczas łączenia tabeli funkcji z danymi przekazanymi w parametrze dataset . Kolejność nazw kolumn musi być zgodna z kolejnością kluczy podstawowych tabeli funkcji.- timestamp_lookup_key (str): Wymagane, jeśli określona tabela jest tabelą funkcji szeregów czasowych. Nazwa kolumny do użycia podczas wyszukiwania do punktu w czasie w tabeli funkcji z danymi przekazanymi w parametrze dataset .Ustawienie domyślne: [] |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
Opcjonalny. Słownik, w którym każdy klucz jest nazwą kolumny, a każda wartość jest ciągiem lub słownikiem opisującym strategię imputacji. W przypadku określenia jako ciągu wartość musi być jedną z wartości "mean", "median" lub "most_frequent". Aby imputować ze znaną wartością, określ wartość jako słownik {"strategy": "constant", "fill_value": <desired value>} . Można również określić opcje ciągów jako słowniki, na przykład {"strategy": "mean"} .Jeśli nie podano strategii imputacji dla kolumny, rozwiązanie AutoML wybiera strategię domyślną na podstawie typu kolumny i zawartości. Jeśli określisz metodę imputacji innej niż domyślna, rozwiązanie AutoML nie wykonuje wykrywania typów semantycznych. Domyślnie: {} |
pos_label |
Union[int, bool, str] |
(Tylko klasyfikacja) Dodatnia klasa. Jest to przydatne do obliczania metryk, takich jak precyzja i kompletność. Należy określić tylko w przypadku problemów z klasyfikacją binarną. |
time_col |
str |
Dostępne w środowisku Databricks Runtime 10.1 ML lub nowszym. Opcjonalny. Nazwa kolumny dla kolumny czasowej. Jeśli jest to podane, rozwiązanie AutoML próbuje podzielić zestaw danych na zestawy trenowania, walidacji i testów chronologicznie, używając najwcześniejszych punktów jako danych treningowych i najnowszych punktów jako zestawu testowego. Zaakceptowane typy kolumn to sygnatura czasowa i liczba całkowita. W przypadku środowiska Databricks Runtime 10.2 ML i nowszych kolumn ciągów są również obsługiwane. Jeśli typ kolumny to ciąg, rozwiązanie AutoML próbuje przekonwertować go na znacznik czasu przy użyciu wykrywania semantycznego. Jeśli konwersja zakończy się niepowodzeniem, uruchomienie rozwiązania AutoML zakończy się niepowodzeniem. |
split_col |
str |
Opcjonalny. Nazwa kolumny podzielonej. Dostępne tylko w środowisku Databricks Runtime 15.3 ML i nowszym dla przepływów pracy interfejsu API. Jeśli jest to podane, rozwiązanie AutoML próbuje podzielić zestawy trenowania/weryfikowania/testowania według wartości określonych przez użytkownika, a ta kolumna jest automatycznie wykluczona z funkcji trenowania. Zaakceptowany typ kolumny to ciąg. Wartość każdego wpisu w tej kolumnie musi być jedną z następujących wartości: "train", "validate" lub "test". |
sample_weight_col |
str |
Dostępne w środowisku Databricks Runtime 15.4 ML i nowszym dla przepływów pracy interfejsu API klasyfikacji. Opcjonalny. Nazwa kolumny w zestawie danych, który zawiera przykładowe wagi dla każdego wiersza. Klasyfikacja obsługuje wagi próbek dla klasy. Wagi te dostosowują znaczenie każdej klasy podczas trenowania modelu. Każda próbka w klasie musi mieć taką samą wagę próbki, a wagi muszą być wartościami nie ujemnymi dziesiętnymi lub całkowitymi, od 0 do 10 000. Klasy o wyższych wagach próbek są uważane za ważniejsze i mają większy wpływ na algorytm uczenia. Jeśli ta kolumna nie zostanie określona, przyjmuje się, że wszystkie klasy mają taką samą wagę. |
max_trials |
int |
Opcjonalny. Maksymalna liczba prób do uruchomienia. Ten parametr jest dostępny w środowisku Databricks Runtime 10.5 ML i poniżej, ale jest przestarzały, począwszy od środowiska Databricks Runtime 10.3 ML. W środowisku Databricks Runtime 11.0 ML i nowszym ten parametr nie jest obsługiwany. Ustawienie domyślne: 20 Jeśli timeout_minutes=None, rozwiązanie AutoML uruchamia maksymalną liczbę prób. |
timeout_minutes |
int |
Opcjonalny. Maksymalny czas oczekiwania na ukończenie prób rozwiązania AutoML. Dłuższe limity czasu umożliwiają usłudze AutoML uruchamianie większej liczby prób i identyfikowanie modelu z lepszą dokładnością. Ustawienie domyślne: 120 minut Wartość minimalna: 5 minut Zgłaszany jest błąd, jeśli limit czasu jest zbyt krótki, aby umożliwić ukończenie co najmniej jednej wersji próbnej. |
Regres
Metoda databricks.automl.regress
konfiguruje przebieg rozwiązania AutoML w celu wytrenowania modelu regresji. Ta metoda zwraca funkcję AutoMLSummary.
Uwaga
Parametr max_trials
jest przestarzały w środowisku Databricks Runtime 10.4 ML i nie jest obsługiwany w środowisku Databricks Runtime 11.0 ML i nowszym. Służy timeout_minutes
do kontrolowania czasu trwania przebiegu rozwiązania AutoML.
databricks.automl.regress(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
primary_metric: str = "r2",
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
time_col: Optional[str] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None, # <DBR> 15.3 ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Parametry regresji
Nazwa parametru | Type | Opis |
---|---|---|
dataset |
str , , pandas.DataFrame , , pyspark.DataFrame pyspark.sql.DataFrame |
Nazwa tabeli wejściowej lub ramka danych zawierająca funkcje trenowania i element docelowy. Nazwa tabeli może mieć format "<database_name>.<>table_name" lub "<schema_name>.<>table_name" dla tabel wykazu obiektów innych niż Unity. |
target_col |
str |
Nazwa kolumny etykiety docelowej. |
primary_metric |
str |
Metryka używana do oceny i klasyfikacji wydajności modelu. Obsługiwane metryki regresji: "r2" (ustawienie domyślne), "mae", "rmse", "mse" Obsługiwane metryki klasyfikacji: "f1" (ustawienie domyślne), "log_loss", "precyzja", "dokładność", "roc_auc" |
data_dir |
str format dbfs:/<folder-name> |
Opcjonalny. Ścieżka systemu plików DBFS używana do przechowywania zestawu danych trenowania. Ta ścieżka jest widoczna dla węzłów sterowników i procesów roboczych. Usługa Databricks zaleca pozostawienie tego pola pustego, dzięki czemu rozwiązanie AutoML może zapisać zestaw danych trenowania jako artefakt MLflow. Jeśli zostanie określona ścieżka niestandardowa, zestaw danych nie dziedziczy uprawnień dostępu eksperymentu automatycznego uczenia maszynowego. |
experiment_dir |
str |
Opcjonalny. Ścieżka do katalogu w obszarze roboczym w celu zapisania wygenerowanych notesów i eksperymentów. Domyślnie: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Opcjonalny. Nazwa eksperymentu MLflow tworzonego przez rozwiązanie AutoML. Ustawienie domyślne: nazwa jest generowana automatycznie. |
exclude_cols |
List[str] |
Opcjonalny. Lista kolumn do ignorowania podczas obliczeń rozwiązania AutoML. Ustawienie domyślne: [] |
exclude_frameworks |
List[str] |
Opcjonalny. Lista struktur algorytmów, których rozwiązanie AutoML nie powinno brać pod uwagę podczas tworzenia modeli. Możliwe wartości: pusta lista lub co najmniej jedna "sklearn", "lightgbm", "xgboost". Ustawienie domyślne: [] (wszystkie struktury są brane pod uwagę) |
feature_store_lookups |
List[Dict] |
Opcjonalny. Lista słowników reprezentujących funkcje z magazynu funkcji na potrzeby rozszerzania danych. Prawidłowe klucze w każdym słowniku to: - table_name (str): wymagane. Nazwa tabeli funkcji.- lookup_key (lista lub str): wymagane. Nazwy kolumn do użycia jako klucz podczas łączenia tabeli funkcji z danymi przekazanymi w parametrze dataset . Kolejność nazw kolumn musi być zgodna z kolejnością kluczy podstawowych tabeli funkcji.- timestamp_lookup_key (str): Wymagane, jeśli określona tabela jest tabelą funkcji szeregów czasowych. Nazwa kolumny do użycia podczas wyszukiwania do punktu w czasie w tabeli funkcji z danymi przekazanymi w parametrze dataset .Ustawienie domyślne: [] |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
Opcjonalny. Słownik, w którym każdy klucz jest nazwą kolumny, a każda wartość jest ciągiem lub słownikiem opisującym strategię imputacji. W przypadku określenia jako ciągu wartość musi być jedną z wartości "mean", "median" lub "most_frequent". Aby imputować ze znaną wartością, określ wartość jako słownik {"strategy": "constant", "fill_value": <desired value>} . Można również określić opcje ciągów jako słowniki, na przykład {"strategy": "mean"} .Jeśli nie podano strategii imputacji dla kolumny, rozwiązanie AutoML wybiera strategię domyślną na podstawie typu kolumny i zawartości. Jeśli określisz metodę imputacji innej niż domyślna, rozwiązanie AutoML nie wykonuje wykrywania typów semantycznych. Domyślnie: {} |
time_col |
str |
Dostępne w środowisku Databricks Runtime 10.1 ML lub nowszym. Opcjonalny. Nazwa kolumny dla kolumny czasowej. Jeśli jest to podane, rozwiązanie AutoML próbuje podzielić zestaw danych na zestawy trenowania, walidacji i testów chronologicznie, używając najwcześniejszych punktów jako danych treningowych i najnowszych punktów jako zestawu testowego. Zaakceptowane typy kolumn to sygnatura czasowa i liczba całkowita. W przypadku środowiska Databricks Runtime 10.2 ML i nowszych kolumn ciągów są również obsługiwane. Jeśli typ kolumny to ciąg, rozwiązanie AutoML próbuje przekonwertować go na znacznik czasu przy użyciu wykrywania semantycznego. Jeśli konwersja zakończy się niepowodzeniem, uruchomienie rozwiązania AutoML zakończy się niepowodzeniem. |
split_col |
str |
Opcjonalny. Nazwa kolumny podzielonej. Dostępne tylko w środowisku Databricks Runtime 15.3 ML i nowszym dla przepływów pracy interfejsu API. Jeśli jest to podane, rozwiązanie AutoML próbuje podzielić zestawy trenowania/weryfikowania/testowania według wartości określonych przez użytkownika, a ta kolumna jest automatycznie wykluczona z funkcji trenowania. Zaakceptowany typ kolumny to ciąg. Wartość każdego wpisu w tej kolumnie musi być jedną z następujących wartości: "train", "validate" lub "test". |
sample_weight_col |
str |
Dostępne w środowisku Databricks Runtime 15.3 ML i nowszym dla przepływów pracy interfejsu API regresji. Opcjonalny. Nazwa kolumny w zestawie danych, który zawiera przykładowe wagi dla każdego wiersza. Wagi te dostosowują ważność każdego wiersza podczas trenowania modelu. Wagi muszą być wartościami nieujemnymi dziesiętnymi lub całkowitymi, od 0 do 10 000. Wiersze o wyższych wagach próbek są uważane za ważniejsze i mają większy wpływ na algorytm uczenia. Jeśli ta kolumna nie zostanie określona, przyjmuje się, że wszystkie wiersze mają taką samą wagę. |
max_trials |
int |
Opcjonalny. Maksymalna liczba prób do uruchomienia. Ten parametr jest dostępny w środowisku Databricks Runtime 10.5 ML i poniżej, ale jest przestarzały, począwszy od środowiska Databricks Runtime 10.3 ML. W środowisku Databricks Runtime 11.0 ML i nowszym ten parametr nie jest obsługiwany. Ustawienie domyślne: 20 Jeśli timeout_minutes=None, rozwiązanie AutoML uruchamia maksymalną liczbę prób. |
timeout_minutes |
int |
Opcjonalny. Maksymalny czas oczekiwania na ukończenie prób rozwiązania AutoML. Dłuższe limity czasu umożliwiają usłudze AutoML uruchamianie większej liczby prób i identyfikowanie modelu z lepszą dokładnością. Ustawienie domyślne: 120 minut Wartość minimalna: 5 minut Zgłaszany jest błąd, jeśli limit czasu jest zbyt krótki, aby umożliwić ukończenie co najmniej jednej wersji próbnej. |
Prognoza
Metoda databricks.automl.forecast
konfiguruje przebieg automatycznego uczenia maszynowego na potrzeby trenowania modelu prognozowania. Ta metoda zwraca funkcję AutoMLSummary.
Aby użyć funkcji Auto-ARIMA, szereg czasowy musi mieć regularną częstotliwość (czyli interwał między dowolnymi dwoma punktami musi być taki sam w ciągu szeregu czasowego). Częstotliwość musi być zgodna z jednostką częstotliwości określoną w wywołaniu interfejsu API. Rozwiązanie AutoML obsługuje brakujące kroki czasu, wypełniając te wartości poprzednimi wartościami.
databricks.automl.forecast(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
time_col: str,
primary_metric: str = "smape",
country_code: str = "US", # <DBR> 12.0 ML and above
frequency: str = "D",
horizon: int = 1,
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None,
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_frameworks: Optional[List[str]] = None,
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 12.2 LTS ML and above
identity_col: Optional[Union[str, List[str]]] = None,
sample_weight_col: Optional[str] = None, # <DBR> 16.0 ML and above
output_database: Optional[str] = None, # <DBR> 10.5 ML and above
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Parametry prognozowania
Nazwa parametru | Type | Opis |
---|---|---|
dataset |
str , , pandas.DataFrame , , pyspark.DataFrame pyspark.sql.DataFrame |
Nazwa tabeli wejściowej lub ramka danych zawierająca funkcje trenowania i element docelowy. Nazwa tabeli może mieć format ".". lub "." w przypadku tabel wykazu niezwiązanych z aparatem Unity |
target_col |
str |
Nazwa kolumny etykiety docelowej. |
time_col |
str |
Nazwa kolumny czasu na potrzeby prognozowania. |
primary_metric |
str |
Metryka używana do oceny i klasyfikacji wydajności modelu. Obsługiwane metryki: "smape" (ustawienie domyślne), "mse", "rmse", "mae" lub "mdape". |
country_code |
str |
Dostępne w środowisku Databricks Runtime 12.0 ML lub nowszym. Obsługiwane tylko przez model prognozowania proroka. Opcjonalny. Dwuliterowy kod kraju, który wskazuje, które wakacje w kraju powinny być używane przez model prognozowania. Aby zignorować dni wolne, ustaw ten parametr na pusty ciąg (""). Obsługiwane kraje. Ustawienie domyślne: Stany Zjednoczone (Stany Zjednoczone dni wolne). |
frequency |
str |
Częstotliwość szeregów czasowych prognozowania. Jest to okres, w którym mają wystąpić zdarzenia. Ustawieniem domyślnym jest "D" lub dane dzienne. Pamiętaj, aby zmienić ustawienie, jeśli dane mają inną częstotliwość. Możliwe wartości: "W" (tygodnie) "D" / "days" / "day" "hours" / "hour" / "hr" / "h" "m" / "minute" / "min" / "minutes" / "T" "S" / "seconds" / "sec" / "second" Następujące elementy są dostępne tylko w środowisku Databricks Runtime 12.0 ML lub nowszym: "M" / "month" / "months" "Q" / "quarter" / "quarters" "Y" / "year" / "years" Ustawienie domyślne: "D" |
horizon |
int |
Liczba okresów w przyszłości, dla których powinny zostać zwrócone prognozy. Jednostki są częstotliwością szeregów czasowych. Ustawienie domyślne: 1 |
data_dir |
str format dbfs:/<folder-name> |
Opcjonalny. Ścieżka systemu plików DBFS używana do przechowywania zestawu danych trenowania. Ta ścieżka jest widoczna dla węzłów sterowników i procesów roboczych. Usługa Databricks zaleca pozostawienie tego pola pustego, dzięki czemu rozwiązanie AutoML może zapisać zestaw danych trenowania jako artefakt MLflow. Jeśli zostanie określona ścieżka niestandardowa, zestaw danych nie dziedziczy uprawnień dostępu eksperymentu automatycznego uczenia maszynowego. |
experiment_dir |
str |
Opcjonalny. Ścieżka do katalogu w obszarze roboczym w celu zapisania wygenerowanych notesów i eksperymentów. Domyślnie: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Opcjonalny. Nazwa eksperymentu MLflow tworzonego przez rozwiązanie AutoML. Ustawienie domyślne: nazwa jest generowana automatycznie. |
exclude_frameworks |
List[str] |
Opcjonalny. Lista struktur algorytmów, których rozwiązanie AutoML nie powinno brać pod uwagę podczas tworzenia modeli. Możliwe wartości: pusta lista lub co najmniej jeden "prorok", "arima". Ustawienie domyślne: [] (wszystkie struktury są brane pod uwagę) |
feature_store_lookups |
List[Dict] |
Opcjonalny. Lista słowników reprezentujących funkcje ze sklepu Feature Store w celu rozszerzania danych wariancji. Prawidłowe klucze w każdym słowniku to: - table_name (str): wymagane. Nazwa tabeli funkcji.- lookup_key (lista lub str): wymagane. Nazwy kolumn do użycia jako klucz podczas łączenia tabeli funkcji z danymi przekazanymi w parametrze dataset . Kolejność nazw kolumn musi być zgodna z kolejnością kluczy podstawowych tabeli funkcji.- timestamp_lookup_key (str): Wymagane, jeśli określona tabela jest tabelą funkcji szeregów czasowych. Nazwa kolumny do użycia podczas wyszukiwania do punktu w czasie w tabeli funkcji z danymi przekazanymi w parametrze dataset .Ustawienie domyślne: [] |
identity_col |
Union[str, list] |
Opcjonalny. Kolumny identyfikujące szeregi czasowe prognozowania wielu serii. Grupy automatycznego uczenia maszynowego według tych kolumn i kolumny czasu na potrzeby prognozowania. |
sample_weight_col |
str |
Dostępne w środowisku Databricks Runtime 16.0 ML lub nowszym. Tylko w przypadku przepływów pracy z wieloma szeregami czasowymi. Opcjonalny. Określa kolumnę w zestawie danych zawierającym wagi próbek. Wagi te wskazują względne znaczenie każdego szeregu czasowego podczas trenowania i oceny modelu. Szeregi czasowe o wyższych wagach mają większy wpływ na model. Jeśli nie podano, wszystkie serie czasowe są traktowane z równą wagą. Wszystkie wiersze należące do tej samej serii czasowej muszą mieć taką samą wagę. Wagi muszą być wartościami nieujemnymi, liczbami dziesiętnymi lub liczbami całkowitymi, a przedziały od 0 do 10 000. |
output_database |
str |
Opcjonalny. Jeśli zostanie podana, rozwiązanie AutoML zapisuje przewidywania najlepszego modelu w nowej tabeli w określonej bazie danych. Ustawienie domyślne: Przewidywania nie są zapisywane. |
timeout_minutes |
int |
Opcjonalny. Maksymalny czas oczekiwania na ukończenie prób rozwiązania AutoML. Dłuższe limity czasu umożliwiają usłudze AutoML uruchamianie większej liczby prób i identyfikowanie modelu z lepszą dokładnością. Ustawienie domyślne: 120 minut Wartość minimalna: 5 minut Zgłaszany jest błąd, jeśli limit czasu jest zbyt krótki, aby umożliwić ukończenie co najmniej jednej wersji próbnej. |
Importowanie notesu
Metoda databricks.automl.import_notebook
importuje notes, który został zapisany jako artefakt MLflow. Ta metoda zwraca element ImportNotebookResult.
databricks.automl.import_notebook(
artifact_uri: str,
path: str,
overwrite: bool = False
) -> ImportNotebookResult:
Parametry | Type | Opis |
---|---|---|
artifact_uri |
str |
Identyfikator URI artefaktu MLflow, który zawiera notes wersji próbnej. |
path |
str |
Ścieżka w obszarze roboczym usługi Databricks, w którym ma zostać zaimportowany notes. Musi to być ścieżka bezwzględna. Katalog zostanie utworzony, jeśli nie istnieje. |
overwrite |
bool |
Czy zastąpić notes, jeśli już istnieje. False Jest domyślnie. |
Przykład importu notesu
summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)
AutoMLSummary
Obiekt podsumowania przebiegu automatycznego uczenia maszynowego, który opisuje metryki, parametry i inne szczegóły dla każdej wersji próbnej. Ten obiekt służy również do ładowania modelu trenowanego przez określoną wersję próbną.
Właściwość | Type | Opis |
---|---|---|
experiment |
mlflow.entities.Experiment |
Eksperyment MLflow używany do rejestrowania prób. |
trials |
List[TrialInfo] |
Lista obiektów TrialInfo zawierających informacje o wszystkich uruchomionych próbach. |
best_trial |
TrialInfo |
Obiekt TrialInfo zawierający informacje o wersji próbnej, który spowodował najlepszą ważoną ocenę podstawowej metryki. |
metric_distribution |
str |
Rozkład ważonych wyników dla podstawowej metryki we wszystkich próbach. |
output_table_name |
str |
Służy tylko do prognozowania i tylko wtedy, gdy output_database jest podana. Nazwa tabeli w output_database zawierająca przewidywania modelu. |
TrialInfo
Obiekt podsumowania dla każdej pojedynczej wersji próbnej.
Właściwość | Type | Opis |
---|---|---|
notebook_path |
Optional[str] |
Ścieżka do wygenerowanego notesu dla tej wersji próbnej w obszarze roboczym. W przypadku klasyfikacji i regresji ta wartość jest ustawiana tylko dla najlepszej wersji próbnej, podczas gdy wszystkie inne wersje próbne mają wartość ustawioną na None wartość .W przypadku prognozowania ta wartość jest obecna dla wszystkich prób. |
notebook_url |
Optional[str] |
Adres URL wygenerowanego notesu dla tej wersji próbnej. W przypadku klasyfikacji i regresji ta wartość jest ustawiana tylko dla najlepszej wersji próbnej, podczas gdy wszystkie inne wersje próbne mają wartość ustawioną na None wartość .W przypadku prognozowania ta wartość jest obecna dla wszystkich prób. |
artifact_uri |
Optional[str] |
Identyfikator URI artefaktu platformy MLflow dla wygenerowanego notesu. |
mlflow_run_id |
str |
Identyfikator przebiegu platformy MLflow skojarzony z tym przebiegiem wersji próbnej. |
metrics |
Dict[str, float] |
Metryki zarejestrowane w usłudze MLflow dla tej wersji próbnej. |
params |
Dict[str, str] |
Parametry zarejestrowane w narzędziu MLflow, które były używane w tej wersji próbnej. |
model_path |
str |
Adres URL artefaktu platformy MLflow modelu wytrenowanego w tej wersji próbnej. |
model_description |
str |
Krótki opis modelu i hiperparametrów używanych do trenowania tego modelu. |
duration |
str |
Czas trwania szkolenia w minutach. |
preprocessors |
str |
Opis preprocesorów uruchamianych przed rozpoczęciem trenowania modelu. |
evaluation_metric_score |
float |
Wynik podstawowej metryki obliczony dla zestawu danych weryfikacji. |
TrialInfo
ma metodę ładowania modelu wygenerowanego dla wersji próbnej.
Metoda | opis |
---|---|
load_model() |
Załaduj model wygenerowany w tej wersji próbnej zarejestrowany jako artefakt MLflow. |
ImportNotebookResult
Właściwość | Type | Opis |
---|---|---|
path |
str |
Ścieżka w obszarze roboczym usługi Databricks, w którym ma zostać zaimportowany notes. Musi to być ścieżka bezwzględna. Katalog zostanie utworzony, jeśli nie istnieje. |
url |
str |
Identyfikator URI artefaktu MLflow, który zawiera notes wersji próbnej. |