Udostępnij za pośrednictwem


Dokumentacja interfejsu API języka Python rozwiązania AutoML

W tym artykule opisano interfejs API języka Python rozwiązania AutoML, który udostępnia metody uruchamiania klasyfikacji, regresji i prognozowania przebiegów automatycznego uczenia maszynowego. Każde wywołanie metody trenuje zestaw modeli i generuje notes wersji próbnej dla każdego modelu.

Aby uzyskać więcej informacji na temat rozwiązania AutoML, w tym opcji interfejsu użytkownika z małą ilością kodu, zobacz Co to jest rozwiązanie AutoML?.

Klasyfikowanie

Metoda databricks.automl.classify konfiguruje przebieg automatycznego uczenia maszynowego w celu wytrenowania modelu klasyfikacji.

Uwaga

Parametr max_trials jest przestarzały w środowisku Databricks Runtime 10.4 ML i nie jest obsługiwany w środowisku Databricks Runtime 11.0 ML i nowszym. Służy timeout_minutes do kontrolowania czasu trwania przebiegu rozwiązania AutoML.

databricks.automl.classify(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "f1",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  pos_label: Optional[Union[int, bool, str]] = None,                 # <DBR> 11.1 ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None                           # <DBR> 15.4 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Klasyfikuj parametry

Nazwa parametru Type Opis
dataset str, , pandas.DataFrame, , pyspark.DataFramepyspark.sql.DataFrame Nazwa tabeli wejściowej lub ramka danych zawierająca funkcje trenowania i element docelowy. Nazwa tabeli może mieć format "<database_name>.<>table_name" lub "<schema_name>.<>table_name" dla tabel wykazu obiektów innych niż Unity.
target_col str Nazwa kolumny etykiety docelowej.
primary_metric str Metryka używana do oceny i klasyfikacji wydajności modelu.

Obsługiwane metryki regresji: "r2" (ustawienie domyślne), "mae", "rmse", "mse"

Obsługiwane metryki klasyfikacji: "f1" (ustawienie domyślne), "log_loss", "precyzja", "dokładność", "roc_auc"
data_dir str format dbfs:/<folder-name> Opcjonalny. Ścieżka systemu plików DBFS używana do przechowywania zestawu danych trenowania. Ta ścieżka jest widoczna dla węzłów sterowników i procesów roboczych.

Usługa Databricks zaleca pozostawienie tego pola pustego, dzięki czemu rozwiązanie AutoML może zapisać zestaw danych trenowania jako artefakt MLflow.

Jeśli zostanie określona ścieżka niestandardowa, zestaw danych nie dziedziczy uprawnień dostępu eksperymentu automatycznego uczenia maszynowego.
experiment_dir str Opcjonalny. Ścieżka do katalogu w obszarze roboczym w celu zapisania wygenerowanych notesów i eksperymentów.

Domyślnie: /Users/<username>/databricks_automl/
experiment_name str Opcjonalny. Nazwa eksperymentu MLflow tworzonego przez rozwiązanie AutoML.

Ustawienie domyślne: nazwa jest generowana automatycznie.
exclude_cols List[str] Opcjonalny. Lista kolumn do ignorowania podczas obliczeń rozwiązania AutoML.

Ustawienie domyślne: []
exclude_frameworks List[str] Opcjonalny. Lista struktur algorytmów, których rozwiązanie AutoML nie powinno brać pod uwagę podczas tworzenia modeli. Możliwe wartości: pusta lista lub co najmniej jedna "sklearn", "lightgbm", "xgboost".

Ustawienie domyślne: [] (wszystkie struktury są brane pod uwagę)
feature_store_lookups List[Dict] Opcjonalny. Lista słowników reprezentujących funkcje z magazynu funkcji na potrzeby rozszerzania danych. Prawidłowe klucze w każdym słowniku to:

- table_name (str): wymagane. Nazwa tabeli funkcji.
- lookup_key (lista lub str): wymagane. Nazwy kolumn do użycia jako klucz podczas łączenia tabeli funkcji z danymi przekazanymi w parametrze dataset . Kolejność nazw kolumn musi być zgodna z kolejnością kluczy podstawowych tabeli funkcji.
- timestamp_lookup_key(str): Wymagane, jeśli określona tabela jest tabelą funkcji szeregów czasowych. Nazwa kolumny do użycia podczas wyszukiwania do punktu w czasie w tabeli funkcji z danymi przekazanymi w parametrze dataset .

Ustawienie domyślne: []
imputers Dict[str, Union[str, Dict[str, Any]]] Opcjonalny. Słownik, w którym każdy klucz jest nazwą kolumny, a każda wartość jest ciągiem lub słownikiem opisującym strategię imputacji. W przypadku określenia jako ciągu wartość musi być jedną z wartości "mean", "median" lub "most_frequent". Aby imputować ze znaną wartością, określ wartość jako słownik {"strategy": "constant", "fill_value": <desired value>}. Można również określić opcje ciągów jako słowniki, na przykład {"strategy": "mean"}.

Jeśli nie podano strategii imputacji dla kolumny, rozwiązanie AutoML wybiera strategię domyślną na podstawie typu kolumny i zawartości. Jeśli określisz metodę imputacji innej niż domyślna, rozwiązanie AutoML nie wykonuje wykrywania typów semantycznych.

Domyślnie: {}
pos_label Union[int, bool, str] (Tylko klasyfikacja) Dodatnia klasa. Jest to przydatne do obliczania metryk, takich jak precyzja i kompletność. Należy określić tylko w przypadku problemów z klasyfikacją binarną.
time_col str Dostępne w środowisku Databricks Runtime 10.1 ML lub nowszym.

Opcjonalny. Nazwa kolumny dla kolumny czasowej.

Jeśli jest to podane, rozwiązanie AutoML próbuje podzielić zestaw danych na zestawy trenowania, walidacji i testów chronologicznie, używając najwcześniejszych punktów jako danych treningowych i najnowszych punktów jako zestawu testowego.

Zaakceptowane typy kolumn to sygnatura czasowa i liczba całkowita. W przypadku środowiska Databricks Runtime 10.2 ML i nowszych kolumn ciągów są również obsługiwane.

Jeśli typ kolumny to ciąg, rozwiązanie AutoML próbuje przekonwertować go na znacznik czasu przy użyciu wykrywania semantycznego. Jeśli konwersja zakończy się niepowodzeniem, uruchomienie rozwiązania AutoML zakończy się niepowodzeniem.
split_col str Opcjonalny. Nazwa kolumny podzielonej. Dostępne tylko w środowisku Databricks Runtime 15.3 ML i nowszym dla przepływów pracy interfejsu API. Jeśli jest to podane, rozwiązanie AutoML próbuje podzielić zestawy trenowania/weryfikowania/testowania według wartości określonych przez użytkownika, a ta kolumna jest automatycznie wykluczona z funkcji trenowania.

Zaakceptowany typ kolumny to ciąg. Wartość każdego wpisu w tej kolumnie musi być jedną z następujących wartości: "train", "validate" lub "test".
sample_weight_col str Dostępne w środowisku Databricks Runtime 15.4 ML i nowszym dla przepływów pracy interfejsu API klasyfikacji.

Opcjonalny. Nazwa kolumny w zestawie danych, który zawiera przykładowe wagi dla każdego wiersza. Klasyfikacja obsługuje wagi próbek dla klasy. Wagi te dostosowują znaczenie każdej klasy podczas trenowania modelu. Każda próbka w klasie musi mieć taką samą wagę próbki, a wagi muszą być wartościami nie ujemnymi dziesiętnymi lub całkowitymi, od 0 do 10 000. Klasy o wyższych wagach próbek są uważane za ważniejsze i mają większy wpływ na algorytm uczenia. Jeśli ta kolumna nie zostanie określona, przyjmuje się, że wszystkie klasy mają taką samą wagę.
max_trials int Opcjonalny. Maksymalna liczba prób do uruchomienia. Ten parametr jest dostępny w środowisku Databricks Runtime 10.5 ML i poniżej, ale jest przestarzały, począwszy od środowiska Databricks Runtime 10.3 ML. W środowisku Databricks Runtime 11.0 ML i nowszym ten parametr nie jest obsługiwany.

Ustawienie domyślne: 20

Jeśli timeout_minutes=None, rozwiązanie AutoML uruchamia maksymalną liczbę prób.
timeout_minutes int Opcjonalny. Maksymalny czas oczekiwania na ukończenie prób rozwiązania AutoML. Dłuższe limity czasu umożliwiają usłudze AutoML uruchamianie większej liczby prób i identyfikowanie modelu z lepszą dokładnością.

Ustawienie domyślne: 120 minut

Wartość minimalna: 5 minut

Zgłaszany jest błąd, jeśli limit czasu jest zbyt krótki, aby umożliwić ukończenie co najmniej jednej wersji próbnej.

Regres

Metoda databricks.automl.regress konfiguruje przebieg rozwiązania AutoML w celu wytrenowania modelu regresji. Ta metoda zwraca funkcję AutoMLSummary.

Uwaga

Parametr max_trials jest przestarzały w środowisku Databricks Runtime 10.4 ML i nie jest obsługiwany w środowisku Databricks Runtime 11.0 ML i nowszym. Służy timeout_minutes do kontrolowania czasu trwania przebiegu rozwiązania AutoML.

databricks.automl.regress(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "r2",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None,                          # <DBR> 15.3 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Parametry regresji

Nazwa parametru Type Opis
dataset str, , pandas.DataFrame, , pyspark.DataFramepyspark.sql.DataFrame Nazwa tabeli wejściowej lub ramka danych zawierająca funkcje trenowania i element docelowy. Nazwa tabeli może mieć format "<database_name>.<>table_name" lub "<schema_name>.<>table_name" dla tabel wykazu obiektów innych niż Unity.
target_col str Nazwa kolumny etykiety docelowej.
primary_metric str Metryka używana do oceny i klasyfikacji wydajności modelu.

Obsługiwane metryki regresji: "r2" (ustawienie domyślne), "mae", "rmse", "mse"

Obsługiwane metryki klasyfikacji: "f1" (ustawienie domyślne), "log_loss", "precyzja", "dokładność", "roc_auc"
data_dir str format dbfs:/<folder-name> Opcjonalny. Ścieżka systemu plików DBFS używana do przechowywania zestawu danych trenowania. Ta ścieżka jest widoczna dla węzłów sterowników i procesów roboczych.

Usługa Databricks zaleca pozostawienie tego pola pustego, dzięki czemu rozwiązanie AutoML może zapisać zestaw danych trenowania jako artefakt MLflow.

Jeśli zostanie określona ścieżka niestandardowa, zestaw danych nie dziedziczy uprawnień dostępu eksperymentu automatycznego uczenia maszynowego.
experiment_dir str Opcjonalny. Ścieżka do katalogu w obszarze roboczym w celu zapisania wygenerowanych notesów i eksperymentów.

Domyślnie: /Users/<username>/databricks_automl/
experiment_name str Opcjonalny. Nazwa eksperymentu MLflow tworzonego przez rozwiązanie AutoML.

Ustawienie domyślne: nazwa jest generowana automatycznie.
exclude_cols List[str] Opcjonalny. Lista kolumn do ignorowania podczas obliczeń rozwiązania AutoML.

Ustawienie domyślne: []
exclude_frameworks List[str] Opcjonalny. Lista struktur algorytmów, których rozwiązanie AutoML nie powinno brać pod uwagę podczas tworzenia modeli. Możliwe wartości: pusta lista lub co najmniej jedna "sklearn", "lightgbm", "xgboost".

Ustawienie domyślne: [] (wszystkie struktury są brane pod uwagę)
feature_store_lookups List[Dict] Opcjonalny. Lista słowników reprezentujących funkcje z magazynu funkcji na potrzeby rozszerzania danych. Prawidłowe klucze w każdym słowniku to:

- table_name (str): wymagane. Nazwa tabeli funkcji.
- lookup_key (lista lub str): wymagane. Nazwy kolumn do użycia jako klucz podczas łączenia tabeli funkcji z danymi przekazanymi w parametrze dataset . Kolejność nazw kolumn musi być zgodna z kolejnością kluczy podstawowych tabeli funkcji.
- timestamp_lookup_key(str): Wymagane, jeśli określona tabela jest tabelą funkcji szeregów czasowych. Nazwa kolumny do użycia podczas wyszukiwania do punktu w czasie w tabeli funkcji z danymi przekazanymi w parametrze dataset .

Ustawienie domyślne: []
imputers Dict[str, Union[str, Dict[str, Any]]] Opcjonalny. Słownik, w którym każdy klucz jest nazwą kolumny, a każda wartość jest ciągiem lub słownikiem opisującym strategię imputacji. W przypadku określenia jako ciągu wartość musi być jedną z wartości "mean", "median" lub "most_frequent". Aby imputować ze znaną wartością, określ wartość jako słownik {"strategy": "constant", "fill_value": <desired value>}. Można również określić opcje ciągów jako słowniki, na przykład {"strategy": "mean"}.

Jeśli nie podano strategii imputacji dla kolumny, rozwiązanie AutoML wybiera strategię domyślną na podstawie typu kolumny i zawartości. Jeśli określisz metodę imputacji innej niż domyślna, rozwiązanie AutoML nie wykonuje wykrywania typów semantycznych.

Domyślnie: {}
time_col str Dostępne w środowisku Databricks Runtime 10.1 ML lub nowszym.

Opcjonalny. Nazwa kolumny dla kolumny czasowej.

Jeśli jest to podane, rozwiązanie AutoML próbuje podzielić zestaw danych na zestawy trenowania, walidacji i testów chronologicznie, używając najwcześniejszych punktów jako danych treningowych i najnowszych punktów jako zestawu testowego.

Zaakceptowane typy kolumn to sygnatura czasowa i liczba całkowita. W przypadku środowiska Databricks Runtime 10.2 ML i nowszych kolumn ciągów są również obsługiwane.

Jeśli typ kolumny to ciąg, rozwiązanie AutoML próbuje przekonwertować go na znacznik czasu przy użyciu wykrywania semantycznego. Jeśli konwersja zakończy się niepowodzeniem, uruchomienie rozwiązania AutoML zakończy się niepowodzeniem.
split_col str Opcjonalny. Nazwa kolumny podzielonej. Dostępne tylko w środowisku Databricks Runtime 15.3 ML i nowszym dla przepływów pracy interfejsu API. Jeśli jest to podane, rozwiązanie AutoML próbuje podzielić zestawy trenowania/weryfikowania/testowania według wartości określonych przez użytkownika, a ta kolumna jest automatycznie wykluczona z funkcji trenowania.

Zaakceptowany typ kolumny to ciąg. Wartość każdego wpisu w tej kolumnie musi być jedną z następujących wartości: "train", "validate" lub "test".
sample_weight_col str Dostępne w środowisku Databricks Runtime 15.3 ML i nowszym dla przepływów pracy interfejsu API regresji.

Opcjonalny. Nazwa kolumny w zestawie danych, który zawiera przykładowe wagi dla każdego wiersza. Wagi te dostosowują ważność każdego wiersza podczas trenowania modelu. Wagi muszą być wartościami nieujemnymi dziesiętnymi lub całkowitymi, od 0 do 10 000. Wiersze o wyższych wagach próbek są uważane za ważniejsze i mają większy wpływ na algorytm uczenia. Jeśli ta kolumna nie zostanie określona, przyjmuje się, że wszystkie wiersze mają taką samą wagę.
max_trials int Opcjonalny. Maksymalna liczba prób do uruchomienia. Ten parametr jest dostępny w środowisku Databricks Runtime 10.5 ML i poniżej, ale jest przestarzały, począwszy od środowiska Databricks Runtime 10.3 ML. W środowisku Databricks Runtime 11.0 ML i nowszym ten parametr nie jest obsługiwany.

Ustawienie domyślne: 20

Jeśli timeout_minutes=None, rozwiązanie AutoML uruchamia maksymalną liczbę prób.
timeout_minutes int Opcjonalny. Maksymalny czas oczekiwania na ukończenie prób rozwiązania AutoML. Dłuższe limity czasu umożliwiają usłudze AutoML uruchamianie większej liczby prób i identyfikowanie modelu z lepszą dokładnością.

Ustawienie domyślne: 120 minut

Wartość minimalna: 5 minut

Zgłaszany jest błąd, jeśli limit czasu jest zbyt krótki, aby umożliwić ukończenie co najmniej jednej wersji próbnej.

Prognoza

Metoda databricks.automl.forecast konfiguruje przebieg automatycznego uczenia maszynowego na potrzeby trenowania modelu prognozowania. Ta metoda zwraca funkcję AutoMLSummary. Aby użyć funkcji Auto-ARIMA, szereg czasowy musi mieć regularną częstotliwość (czyli interwał między dowolnymi dwoma punktami musi być taki sam w ciągu szeregu czasowego). Częstotliwość musi być zgodna z jednostką częstotliwości określoną w wywołaniu interfejsu API. Rozwiązanie AutoML obsługuje brakujące kroki czasu, wypełniając te wartości poprzednimi wartościami.

databricks.automl.forecast(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  time_col: str,
  primary_metric: str = "smape",
  country_code: str = "US",                                         # <DBR> 12.0 ML and above
  frequency: str = "D",
  horizon: int = 1,
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_frameworks: Optional[List[str]] = None,
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 12.2 LTS ML and above
  identity_col: Optional[Union[str, List[str]]] = None,
  sample_weight_col: Optional[str] = None,                          # <DBR> 16.0 ML and above
  output_database: Optional[str] = None,                            # <DBR> 10.5 ML and above
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Parametry prognozowania

Nazwa parametru Type Opis
dataset str, , pandas.DataFrame, , pyspark.DataFramepyspark.sql.DataFrame Nazwa tabeli wejściowej lub ramka danych zawierająca funkcje trenowania i element docelowy.

Nazwa tabeli może mieć format ".". lub "." w przypadku tabel wykazu niezwiązanych z aparatem Unity
target_col str Nazwa kolumny etykiety docelowej.
time_col str Nazwa kolumny czasu na potrzeby prognozowania.
primary_metric str Metryka używana do oceny i klasyfikacji wydajności modelu.

Obsługiwane metryki: "smape" (ustawienie domyślne), "mse", "rmse", "mae" lub "mdape".
country_code str Dostępne w środowisku Databricks Runtime 12.0 ML lub nowszym. Obsługiwane tylko przez model prognozowania proroka.

Opcjonalny. Dwuliterowy kod kraju, który wskazuje, które wakacje w kraju powinny być używane przez model prognozowania. Aby zignorować dni wolne, ustaw ten parametr na pusty ciąg ("").

Obsługiwane kraje.

Ustawienie domyślne: Stany Zjednoczone (Stany Zjednoczone dni wolne).
frequency str Częstotliwość szeregów czasowych prognozowania. Jest to okres, w którym mają wystąpić zdarzenia. Ustawieniem domyślnym jest "D" lub dane dzienne. Pamiętaj, aby zmienić ustawienie, jeśli dane mają inną częstotliwość.

Możliwe wartości:

"W" (tygodnie)

"D" / "days" / "day"

"hours" / "hour" / "hr" / "h"

"m" / "minute" / "min" / "minutes" / "T"

"S" / "seconds" / "sec" / "second"

Następujące elementy są dostępne tylko w środowisku Databricks Runtime 12.0 ML lub nowszym:

"M" / "month" / "months"

"Q" / "quarter" / "quarters"

"Y" / "year" / "years"

Ustawienie domyślne: "D"
horizon int Liczba okresów w przyszłości, dla których powinny zostać zwrócone prognozy.

Jednostki są częstotliwością szeregów czasowych.

Ustawienie domyślne: 1
data_dir str format dbfs:/<folder-name> Opcjonalny. Ścieżka systemu plików DBFS używana do przechowywania zestawu danych trenowania. Ta ścieżka jest widoczna dla węzłów sterowników i procesów roboczych.

Usługa Databricks zaleca pozostawienie tego pola pustego, dzięki czemu rozwiązanie AutoML może zapisać zestaw danych trenowania jako artefakt MLflow.

Jeśli zostanie określona ścieżka niestandardowa, zestaw danych nie dziedziczy uprawnień dostępu eksperymentu automatycznego uczenia maszynowego.
experiment_dir str Opcjonalny. Ścieżka do katalogu w obszarze roboczym w celu zapisania wygenerowanych notesów i eksperymentów.

Domyślnie: /Users/<username>/databricks_automl/
experiment_name str Opcjonalny. Nazwa eksperymentu MLflow tworzonego przez rozwiązanie AutoML.

Ustawienie domyślne: nazwa jest generowana automatycznie.
exclude_frameworks List[str] Opcjonalny. Lista struktur algorytmów, których rozwiązanie AutoML nie powinno brać pod uwagę podczas tworzenia modeli. Możliwe wartości: pusta lista lub co najmniej jeden "prorok", "arima".

Ustawienie domyślne: [] (wszystkie struktury są brane pod uwagę)
feature_store_lookups List[Dict] Opcjonalny. Lista słowników reprezentujących funkcje ze sklepu Feature Store w celu rozszerzania danych wariancji. Prawidłowe klucze w każdym słowniku to:

- table_name (str): wymagane. Nazwa tabeli funkcji.
- lookup_key (lista lub str): wymagane. Nazwy kolumn do użycia jako klucz podczas łączenia tabeli funkcji z danymi przekazanymi w parametrze dataset . Kolejność nazw kolumn musi być zgodna z kolejnością kluczy podstawowych tabeli funkcji.
- timestamp_lookup_key(str): Wymagane, jeśli określona tabela jest tabelą funkcji szeregów czasowych. Nazwa kolumny do użycia podczas wyszukiwania do punktu w czasie w tabeli funkcji z danymi przekazanymi w parametrze dataset .

Ustawienie domyślne: []
identity_col Union[str, list] Opcjonalny. Kolumny identyfikujące szeregi czasowe prognozowania wielu serii. Grupy automatycznego uczenia maszynowego według tych kolumn i kolumny czasu na potrzeby prognozowania.
sample_weight_col str Dostępne w środowisku Databricks Runtime 16.0 ML lub nowszym. Tylko w przypadku przepływów pracy z wieloma szeregami czasowymi.

Opcjonalny. Określa kolumnę w zestawie danych zawierającym wagi próbek. Wagi te wskazują względne znaczenie każdego szeregu czasowego podczas trenowania i oceny modelu.

Szeregi czasowe o wyższych wagach mają większy wpływ na model. Jeśli nie podano, wszystkie serie czasowe są traktowane z równą wagą.

Wszystkie wiersze należące do tej samej serii czasowej muszą mieć taką samą wagę.

Wagi muszą być wartościami nieujemnymi, liczbami dziesiętnymi lub liczbami całkowitymi, a przedziały od 0 do 10 000.
output_database str Opcjonalny. Jeśli zostanie podana, rozwiązanie AutoML zapisuje przewidywania najlepszego modelu w nowej tabeli w określonej bazie danych.

Ustawienie domyślne: Przewidywania nie są zapisywane.
timeout_minutes int Opcjonalny. Maksymalny czas oczekiwania na ukończenie prób rozwiązania AutoML. Dłuższe limity czasu umożliwiają usłudze AutoML uruchamianie większej liczby prób i identyfikowanie modelu z lepszą dokładnością.

Ustawienie domyślne: 120 minut

Wartość minimalna: 5 minut

Zgłaszany jest błąd, jeśli limit czasu jest zbyt krótki, aby umożliwić ukończenie co najmniej jednej wersji próbnej.

Importowanie notesu

Metoda databricks.automl.import_notebook importuje notes, który został zapisany jako artefakt MLflow. Ta metoda zwraca element ImportNotebookResult.

databricks.automl.import_notebook(
  artifact_uri: str,
  path: str,
  overwrite: bool = False
) -> ImportNotebookResult:
Parametry Type Opis
artifact_uri str Identyfikator URI artefaktu MLflow, który zawiera notes wersji próbnej.
path str Ścieżka w obszarze roboczym usługi Databricks, w którym ma zostać zaimportowany notes. Musi to być ścieżka bezwzględna. Katalog zostanie utworzony, jeśli nie istnieje.
overwrite bool Czy zastąpić notes, jeśli już istnieje. False Jest domyślnie.

Przykład importu notesu

summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)

AutoMLSummary

Obiekt podsumowania przebiegu automatycznego uczenia maszynowego, który opisuje metryki, parametry i inne szczegóły dla każdej wersji próbnej. Ten obiekt służy również do ładowania modelu trenowanego przez określoną wersję próbną.

Właściwość Type Opis
experiment mlflow.entities.Experiment Eksperyment MLflow używany do rejestrowania prób.
trials List[TrialInfo] Lista obiektów TrialInfo zawierających informacje o wszystkich uruchomionych próbach.
best_trial TrialInfo Obiekt TrialInfo zawierający informacje o wersji próbnej, który spowodował najlepszą ważoną ocenę podstawowej metryki.
metric_distribution str Rozkład ważonych wyników dla podstawowej metryki we wszystkich próbach.
output_table_name str Służy tylko do prognozowania i tylko wtedy, gdy output_database jest podana.

Nazwa tabeli w output_database zawierająca przewidywania modelu.

TrialInfo

Obiekt podsumowania dla każdej pojedynczej wersji próbnej.

Właściwość Type Opis
notebook_path Optional[str] Ścieżka do wygenerowanego notesu dla tej wersji próbnej w obszarze roboczym.

W przypadku klasyfikacji i regresji ta wartość jest ustawiana tylko dla najlepszej wersji próbnej, podczas gdy wszystkie inne wersje próbne mają wartość ustawioną na Nonewartość .

W przypadku prognozowania ta wartość jest obecna dla wszystkich prób.
notebook_url Optional[str] Adres URL wygenerowanego notesu dla tej wersji próbnej.

W przypadku klasyfikacji i regresji ta wartość jest ustawiana tylko dla najlepszej wersji próbnej, podczas gdy wszystkie inne wersje próbne mają wartość ustawioną na Nonewartość .

W przypadku prognozowania ta wartość jest obecna dla wszystkich prób.
artifact_uri Optional[str] Identyfikator URI artefaktu platformy MLflow dla wygenerowanego notesu.
mlflow_run_id str Identyfikator przebiegu platformy MLflow skojarzony z tym przebiegiem wersji próbnej.
metrics Dict[str, float] Metryki zarejestrowane w usłudze MLflow dla tej wersji próbnej.
params Dict[str, str] Parametry zarejestrowane w narzędziu MLflow, które były używane w tej wersji próbnej.
model_path str Adres URL artefaktu platformy MLflow modelu wytrenowanego w tej wersji próbnej.
model_description str Krótki opis modelu i hiperparametrów używanych do trenowania tego modelu.
duration str Czas trwania szkolenia w minutach.
preprocessors str Opis preprocesorów uruchamianych przed rozpoczęciem trenowania modelu.
evaluation_metric_score float Wynik podstawowej metryki obliczony dla zestawu danych weryfikacji.

TrialInfo ma metodę ładowania modelu wygenerowanego dla wersji próbnej.

Metoda opis
load_model() Załaduj model wygenerowany w tej wersji próbnej zarejestrowany jako artefakt MLflow.

ImportNotebookResult

Właściwość Type Opis
path str Ścieżka w obszarze roboczym usługi Databricks, w którym ma zostać zaimportowany notes. Musi to być ścieżka bezwzględna. Katalog zostanie utworzony, jeśli nie istnieje.
url str Identyfikator URI artefaktu MLflow, który zawiera notes wersji próbnej.