Udostępnij za pośrednictwem


Dokumentacja interfejsu API AutoML w języku Python

W tym artykule opisano interfejs API języka Python rozwiązania AutoML, który udostępnia metody uruchamiania klasyfikacji, regresji i prognozowania przebiegów automatycznego uczenia maszynowego. Każde wywołanie metody umożliwia trening zestawu modeli i generuje zeszyt próbny dla każdego modelu.

Aby uzyskać więcej informacji na temat rozwiązania AutoML, w tym opcji interfejsu użytkownika z małą ilością kodu, zobacz Co to jest rozwiązanie AutoML?.

Klasyfikowanie

Metoda databricks.automl.classify konfiguruje przebieg automatycznego uczenia maszynowego w celu wytrenowania modelu klasyfikacji.

Uwaga

Parametr max_trials jest przestarzały w środowisku Databricks Runtime 10.4 ML i nie jest obsługiwany w środowisku Databricks Runtime 11.0 ML i nowszym. Użyj timeout_minutes do kontrolowania czasu trwania przebiegu AutoML.

databricks.automl.classify(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "f1",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  pos_label: Optional[Union[int, bool, str]] = None,                 # <DBR> 11.1 ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None                           # <DBR> 15.4 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Klasyfikuj parametry

Nazwa parametru Typ Opis
dataset str, , pandas.DataFrame, , pyspark.DataFramepyspark.sql.DataFrame Nazwa tabeli wejściowej lub ramka danych zawierająca funkcje trenowania i element docelowy. Nazwa tabeli może mieć format "<database_name>.<table_name>" lub "<schema_name>.<table_name>" dla tabel niezwiązanych z Unity Catalog.
target_col str Nazwa kolumny etykiety docelowej.
primary_metric str Metryka używana do oceny i klasyfikacji wydajności modelu.
Obsługiwane metryki regresji: "r2" (ustawienie domyślne), "mae", "rmse", "mse"
Obsługiwane metryki klasyfikacji: "f1" (ustawienie domyślne), "log_loss", "precyzja", "dokładność", "roc_auc"
data_dir str w formacie dbfs:/<folder-name> Opcjonalny. Ścieżka systemu plików DBFS używana do przechowywania zestawu danych trenowania. Ta ścieżka jest widoczna zarówno dla węzłów nadrzędnych, jak i roboczych.
Databricks zaleca pozostawienie tego pola pustego, aby AutoML mógł zapisać zestaw danych trenowania jako artefakt MLflow.
Jeśli zostanie określona ścieżka niestandardowa, zestaw danych nie dziedziczy uprawnień dostępu eksperymentu automatycznego uczenia maszynowego.
experiment_dir str Opcjonalny. Ścieżka do katalogu w obszarze roboczym w celu zapisania wygenerowanych notesów i eksperymentów. Jeśli używasz zasobu obliczeniowego przypisanego do grupy, ustaw go na folder, do którego grupa ma uprawnienia do zapisu.
Domyślnie: /Users/<username>/databricks_automl/
experiment_name str Opcjonalny. Nazwa eksperymentu MLflow tworzonego przez rozwiązanie AutoML.
Ustawienie domyślne: nazwa jest generowana automatycznie.
exclude_cols List[str] Opcjonalny. Lista kolumn do ignorowania podczas obliczeń rozwiązania AutoML.
Ustawienie domyślne: []
exclude_frameworks List[str] Opcjonalny. Lista frameworków algorytmów, które AutoML nie powinno brać pod uwagę podczas opracowywania modeli. Możliwe wartości: pusta lista lub co najmniej jedna "sklearn", "lightgbm", "xgboost".
Ustawienie domyślne: [] (wszystkie struktury są brane pod uwagę)
feature_store_lookups List[Dict] Opcjonalny. Lista słowników reprezentujących funkcje z magazynu funkcji na potrzeby rozszerzania danych. Prawidłowe klucze w każdym słowniku to:
  • table_name (str): wymagane. Nazwa tabeli funkcji.
  • lookup_key (lista lub str): wymagane. Nazwy kolumn do użycia jako klucz podczas łączenia tabeli funkcji z danymi przekazanymi w parametrze dataset . Kolejność nazw kolumn musi być zgodna z kolejnością kluczy podstawowych tabeli funkcji.
  • timestamp_lookup_key (str): wymagane, jeśli określona tabela jest tabelą funkcji szeregów czasowych . Nazwa kolumny do użycia podczas wyszukiwania punktowego w czasie w tabeli cech z danymi przekazanymi w parametrze dataset.

Ustawienie domyślne: []
imputers Dict[str, Union[str, Dict[str, Any]]] Opcjonalny. Słownik, w którym każdy klucz jest nazwą kolumny, a każda wartość jest ciągiem lub słownikiem opisującym strategię imputacji. Jeśli zostanie określona jako ciąg, wartość musi być jedną z wartości: "mean", "median" lub "most_frequent". Aby imputować ze znaną wartością, określ wartość jako słownik {"strategy": "constant", "fill_value": <desired value>}. Można również określić opcje ciągów jako słowniki, na przykład {"strategy": "mean"}.
Jeśli nie podano strategii imputacji dla kolumny, rozwiązanie AutoML wybiera strategię domyślną na podstawie typu kolumny i zawartości. Jeśli określisz metodę imputacji innej niż domyślna, rozwiązanie AutoML nie wykonuje wykrywania typów semantycznych.
Domyślnie: {}
pos_label Union[int, bool, str] (Tylko klasyfikacja) Klasa pozytywna. Jest to przydatne do obliczania metryk, takich jak precyzja i czułość. Należy określić tylko w przypadku problemów z klasyfikacją binarną.
time_col str Dostępne w środowisku Databricks Runtime 10.1 ML lub nowszym.
Opcjonalny. Nazwa kolumny dla kolumny czasowej.
Jeśli jest to podane, rozwiązanie AutoML próbuje podzielić zestaw danych na zestawy trenowania, walidacji i testów chronologicznie, używając najwcześniejszych punktów jako danych treningowych i najnowszych punktów jako zestawu testowego.
Zaakceptowane typy kolumn to sygnatura czasowa i liczba całkowita. W przypadku Databricks Runtime 10.2 ML i nowszych, kolumny ciągów są również obsługiwane.
Jeśli typ kolumny to ciąg, rozwiązanie AutoML próbuje przekonwertować go na znacznik czasu przy użyciu wykrywania semantycznego. Jeśli konwersja zakończy się niepowodzeniem, uruchomienie rozwiązania AutoML zakończy się niepowodzeniem.
split_col str Opcjonalny. Nazwa kolumny podzielonej. Dostępne tylko w środowisku Databricks Runtime 15.3 ML i nowszym dla przepływów pracy API. Jeśli jest to podane, rozwiązanie AutoML próbuje podzielić zestawy trenowania/weryfikowania/testowania według wartości określonych przez użytkownika, a ta kolumna jest automatycznie wykluczona z funkcji trenowania.
Zaakceptowany typ kolumny to ciąg. Wartość każdego wpisu w tej kolumnie musi być jedną z następujących wartości: "train", "validate" lub "test".
sample_weight_col str Dostępne w środowisku Databricks Runtime 15.4 ML i nowszym dla przepływów pracy interfejsu API klasyfikacji.
Opcjonalny. Nazwa kolumny w zestawie danych, który zawiera przykładowe wagi dla każdego wiersza. Klasyfikacja obsługuje wagi próbek dla każdej klasy. Te wagi dostosowują ważność każdej klasy podczas trenowania modelu. Każda próbka w klasie musi mieć taką samą wagę próbki, a wagi muszą być wartościami nie ujemnymi dziesiętnymi lub całkowitymi, od 0 do 10 000. Klasy o wyższych wagach próbek są uważane za ważniejsze i mają większy wpływ na algorytm uczenia. Jeśli ta kolumna nie zostanie określona, przyjmuje się, że wszystkie klasy mają taką samą wagę.
max_trials int Opcjonalny. Maksymalna liczba prób do uruchomienia. Ten parametr jest dostępny w środowisku Databricks Runtime 10.5 ML i poniżej, ale jest przestarzały, począwszy od środowiska Databricks Runtime 10.3 ML. W środowisku Databricks Runtime 11.0 ML i nowszym ten parametr nie jest obsługiwany.
Ustawienie domyślne: 20
Jeśli timeout_minutes=None, rozwiązanie AutoML uruchamia maksymalną liczbę prób.
timeout_minutes int Opcjonalny. Maksymalny czas oczekiwania na ukończenie prób AutoML. Dłuższe limity czasu umożliwiają usłudze AutoML uruchamianie większej liczby prób i identyfikowanie modelu z lepszą dokładnością.
Ustawienie domyślne: 120 minut
Wartość minimalna: 5 minut
Zgłaszany jest błąd, jeśli limit czasu jest zbyt krótki, aby umożliwić ukończenie co najmniej jednej wersji próbnej.

Regres

Metoda databricks.automl.regress konfiguruje działanie AutoML do wytrenowania modelu regresji. Ta metoda zwraca AutoMLSummary.

Uwaga

Parametr max_trials jest przestarzały w środowisku Databricks Runtime 10.4 ML i nie jest obsługiwany w środowisku Databricks Runtime 11.0 ML i nowszym. Użyj timeout_minutes do kontrolowania czasu trwania przebiegu AutoML.

databricks.automl.regress(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "r2",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None,                          # <DBR> 15.3 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Parametry regresji

Nazwa parametru Typ Opis
dataset str, , pandas.DataFrame, , pyspark.DataFramepyspark.sql.DataFrame Podaj nazwę tabeli lub nazwa ramki danych zawierającej cechy szkoleniowe i cel. Nazwa tabeli może mieć format "<database_name>.<table_name>" lub "<schema_name>.<table_name>" dla tabel spoza Unity Catalog.
target_col str Nazwa kolumny etykiety docelowej.
primary_metric str Metryka używana do oceny i klasyfikacji wydajności modelu.
Obsługiwane metryki regresji: "r2" (ustawienie domyślne), "mae", "rmse", "mse"
Obsługiwane metryki klasyfikacji: "f1" (ustawienie domyślne), "log_loss", "precyzja", "dokładność", "roc_auc"
data_dir str w formacie dbfs:/<folder-name> Opcjonalny. Ścieżka systemu plików DBFS używana do przechowywania zestawu danych trenowania. Ta ścieżka jest widoczna zarówno dla węzłów zarządzających, jak i węzłów roboczych.
Usługa Databricks zaleca pozostawienie tego pola pustego, aby AutoML mógł zapisać zestaw danych szkoleniowych jako artefakt MLflow.
Jeśli zostanie określona ścieżka niestandardowa, zestaw danych nie dziedziczy uprawnień dostępu eksperymentu automatycznego uczenia maszynowego.
experiment_dir str Opcjonalny. Ścieżka do katalogu w obszarze roboczym w celu zapisania wygenerowanych notesów i eksperymentów.
Domyślnie: /Users/<username>/databricks_automl/
experiment_name str Opcjonalny. Nazwa eksperymentu MLflow tworzonego przez rozwiązanie AutoML.
Ustawienie domyślne: nazwa jest generowana automatycznie.
exclude_cols List[str] Opcjonalny. Lista kolumn do ignorowania podczas obliczeń rozwiązania AutoML.
Ustawienie domyślne: []
exclude_frameworks List[str] Opcjonalny. Lista ram algorytmów, których AutoML nie powinien uwzględniać podczas tworzenia modeli. Możliwe wartości: pusta lista lub co najmniej jedna "sklearn", "lightgbm", "xgboost".
Ustawienie domyślne: [] (wszystkie struktury są brane pod uwagę)
feature_store_lookups List[Dict] Opcjonalny. Lista słowników reprezentujących cechy z Feature Store na potrzeby augmentacji danych. Prawidłowe klucze w każdym słowniku to:
  • table_name (str): wymagane. Nazwa tabeli funkcji.
  • lookup_key (lista lub str): wymagane. Nazwy kolumn do użycia jako klucz podczas łączenia tabeli funkcji z danymi przekazanymi w parametrze dataset . Kolejność nazw kolumn musi być zgodna z kolejnością kluczy podstawowych tabeli funkcji.
  • timestamp_lookup_key (str): wymagane, jeśli określona tabela jest tabelą funkcji szeregów czasowych . Nazwa kolumny do użycia podczas wyszukiwania w określonym czasie w tabeli cech z danymi przesłanymi w parametrze dataset.

Ustawienie domyślne: []
imputers Dict[str, Union[str, Dict[str, Any]]] Opcjonalny. Słownik, w którym każdy klucz jest nazwą kolumny, a każda wartość jest ciągiem lub słownikiem opisującym strategię imputacji. W przypadku określenia jako ciąg, wartość musi być jedną z opcji: "mean", "median" lub "most_frequent". Aby imputować ze znaną wartością, określ tę wartość w postaci słownika {"strategy": "constant", "fill_value": <desired value>}. Można również określić opcje ciągów jako słowniki, na przykład {"strategy": "mean"}.
Jeśli nie podano strategii imputacji dla kolumny, rozwiązanie AutoML wybiera strategię domyślną na podstawie typu kolumny i zawartości. Jeśli określisz metodę imputacji innej niż domyślna, rozwiązanie AutoML nie wykonuje wykrywania typów semantycznych.
Domyślnie: {}
time_col str Dostępne w środowisku Databricks Runtime 10.1 ML lub nowszym.
Opcjonalny. Nazwa kolumny dla kolumny czasowej.
Jeśli jest to podane, rozwiązanie AutoML próbuje podzielić zestaw danych na zestawy trenowania, walidacji i testów chronologicznie, używając najwcześniejszych punktów jako danych treningowych i najnowszych punktów jako zestawu testowego.
Zaakceptowane typy kolumn to sygnatura czasowa i liczba całkowita. W Databricks Runtime 10.2 ML i nowszych wersjach kolumny tekstowe są również obsługiwane.
Jeśli typ kolumny to ciąg, rozwiązanie AutoML próbuje przekonwertować go na znacznik czasu przy użyciu wykrywania semantycznego. Jeśli konwersja zakończy się niepowodzeniem, uruchomienie rozwiązania AutoML zakończy się niepowodzeniem.
split_col str Opcjonalny. Nazwa kolumny podzielonej. Dostępne tylko w środowisku Databricks Runtime 15.3 ML lub nowszym dla przepływów pracy API. Jeśli jest to podane, rozwiązanie AutoML próbuje podzielić zestawy trenowania/weryfikowania/testowania według wartości określonych przez użytkownika, a ta kolumna jest automatycznie wykluczona z funkcji trenowania.
Zaakceptowany typ kolumny to ciąg. Wartość każdego wpisu w tej kolumnie musi być jedną z następujących wartości: "train", "validate" lub "test".
sample_weight_col str Dostępne w Databricks Runtime 15.3 ML i nowszych wersjach dla przepływów pracy API regresji.
Opcjonalny. Nazwa kolumny w zestawie danych, który zawiera przykładowe wagi dla każdego wiersza. Te wagi dostosowują ważność każdego wiersza w czasie trenowania modelu. Wagi muszą być wartościami nieujemnymi dziesiętnymi lub całkowitymi, od 0 do 10 000. Wiersze o wyższych wagach próbek uważa się za ważniejsze i wywierają większy wpływ na algorytm uczący się. Jeśli ta kolumna nie zostanie określona, przyjmuje się, że wszystkie wiersze mają taką samą wagę.
max_trials int Opcjonalny. Maksymalna liczba testów do uruchomienia. Ten parametr jest dostępny w środowisku Databricks Runtime 10.5 ML i poniżej, ale jest przestarzały, począwszy od środowiska Databricks Runtime 10.3 ML. W środowisku Databricks Runtime 11.0 ML i nowszym ten parametr nie jest obsługiwany.
Ustawienie domyślne: 20
Jeśli timeout_minutes=None, rozwiązanie AutoML uruchamia maksymalną liczbę prób.
timeout_minutes int Opcjonalny. Maksymalny czas oczekiwania na ukończenie prób AutoML. Dłuższe limity czasu umożliwiają usłudze AutoML uruchamianie większej liczby prób i identyfikowanie modelu z lepszą dokładnością.
Ustawienie domyślne: 120 minut
Wartość minimalna: 5 minut
Zgłaszany jest błąd, jeśli limit czasu jest zbyt krótki, aby umożliwić ukończenie co najmniej jednej wersji próbnej.

Prognoza

Metoda databricks.automl.forecast konfiguruje przebieg automatycznego uczenia maszynowego na potrzeby trenowania modelu prognozowania. Ta metoda zwraca AutoMLSummary. Aby użyć funkcji Auto-ARIMA, szereg czasowy musi mieć regularną częstotliwość (czyli interwał między dowolnymi dwoma punktami musi być taki sam w ciągu szeregu czasowego). Częstotliwość musi być zgodna z jednostką częstotliwości określoną w wywołaniu interfejsu API. Rozwiązanie AutoML obsługuje brakujące kroki czasu, wypełniając te wartości poprzednimi wartościami.

databricks.automl.forecast(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  time_col: str,
  primary_metric: str = "smape",
  country_code: str = "US",                                         # <DBR> 12.0 ML and above
  frequency: str = "D",
  horizon: int = 1,
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_frameworks: Optional[List[str]] = None,
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 12.2 LTS ML and above
  identity_col: Optional[Union[str, List[str]]] = None,
  sample_weight_col: Optional[str] = None,                          # <DBR> 16.0 ML and above
  output_database: Optional[str] = None,                            # <DBR> 10.5 ML and above
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Parametry prognozowania

Nazwa parametru Typ Opis
dataset str, , pandas.DataFrame, , pyspark.DataFramepyspark.sql.DataFrame Podaj nazwę tabeli lub ramkę danych zawierającą cechy treningowe i cel.
Nazwa tabeli może mieć format ".". lub "." w przypadku tabel niewchodzących w skład Unity Catalog
target_col str Nazwa kolumny etykiety docelowej.
time_col str Nazwa kolumny czasu na potrzeby prognozowania.
primary_metric str Metryka używana do oceny i klasyfikacji wydajności modelu.
Obsługiwane metryki: "smape" (ustawienie domyślne), "mse", "rmse", "mae" lub "mdape".
country_code str Dostępne w środowisku Databricks Runtime 12.0 ML lub nowszym. Obsługiwane tylko przez model prognozowania Prophet.
Opcjonalny. Dwuliterowy kod kraju, który wskazuje, które wakacje w kraju powinny być używane przez model prognozowania. Aby zignorować dni wolne, ustaw ten parametr na pusty ciąg ("").
Obsługiwane kraje.
Ustawienie domyślne: Stany Zjednoczone (Stany Zjednoczone dni wolne).
frequency str Częstotliwość szeregów czasowych używanych do prognozowania. Jest to okres, w którym mają wystąpić zdarzenia. Ustawieniem domyślnym jest "D" lub dane dzienne. Pamiętaj, aby zmienić ustawienie, jeśli dane mają inną częstotliwość.
Możliwe wartości:
"W" (tygodnie)
"D" / "dni" / "dzień"
"godziny" / "godzina" / "godz." / "g"
"m" / "minuta" / "min" / "minuty" / "T"
"S" / "sekundy" / "sek." / "sekunda"
Następujące elementy są dostępne tylko w środowisku Databricks Runtime 12.0 ML lub nowszym:
"M" / "miesiąc" / "miesiące"
"Q" / "kwartał" / "kwartały"
"Y" / "rok" / "lata"
Ustawienie domyślne: "D"
horizon int Liczba okresów w przyszłości, dla których powinny zostać zwrócone prognozy.
Jednostki są częstotliwością szeregów czasowych.
Ustawienie domyślne: 1
data_dir format strdbfs:/<folder-name> Opcjonalny. Ścieżka systemu plików DBFS używana do przechowywania zestawu danych trenowania. Ta ścieżka jest widoczna zarówno dla węzłów kierujących, jak i roboczych.
Databricks zaleca, aby pozostawić to pole puste, aby AutoML mógł zapisać zestaw danych treningowych jako artefakt MLflow.
Jeśli zostanie określona ścieżka niestandardowa, zestaw danych nie dziedziczy uprawnień dostępu eksperymentu automatycznego uczenia maszynowego.
experiment_dir str Opcjonalny. Ścieżka do katalogu w obszarze roboczym w celu zapisania wygenerowanych notesów i eksperymentów.
Domyślnie: /Users/<username>/databricks_automl/
experiment_name str Opcjonalny. Nazwa eksperymentu MLflow tworzonego przez rozwiązanie AutoML.
Ustawienie domyślne: nazwa jest generowana automatycznie.
exclude_frameworks List[str] Opcjonalny. Lista frameworków algorytmów, których AutoML nie powinien rozważać podczas tworzenia modeli. Możliwe wartości: pusta lista lub co najmniej jeden "prorok", "arima".
Ustawienie domyślne: [] (wszystkie struktury są brane pod uwagę)
feature_store_lookups List[Dict] Opcjonalny. Lista słowników reprezentujących funkcje ze sklepu Feature Store w celu rozszerzania danych wariancji. Prawidłowe klucze w każdym słowniku to:
  • table_name (str): wymagane. Nazwa tabeli funkcji.
  • lookup_key (lista lub str): wymagane. Nazwy kolumn do użycia jako klucz podczas łączenia tabeli funkcji z danymi przekazanymi w parametrze dataset . Kolejność nazw kolumn musi być zgodna z kolejnością kluczy podstawowych tabeli funkcji.
  • timestamp_lookup_key (str): wymagane, jeśli określona tabela jest tabelą funkcji szeregów czasowych . Nazwa kolumny do użycia podczas wyszukiwania punktowego w tabeli cech z danymi przekazanymi w parametrze dataset.

Ustawienie domyślne: []
identity_col Union[str, list] Opcjonalny. Kolumny identyfikujące szeregi czasowe dla prognozowania wieloseryjnego. AutoML grupuje według tych kolumn i kolumny czasu na potrzeby prognozowania.
sample_weight_col str Dostępne w środowisku Databricks Runtime 16.0 ML lub nowszym. Tylko w przypadku przepływów pracy z wieloma szeregami czasowymi.
Opcjonalny. Określa kolumnę w zestawie danych zawierającym wagi próbek. Wagi te wskazują względne znaczenie każdego szeregu czasowego podczas trenowania i oceny modelu.
Szeregi czasowe o wyższych wagach mają większy wpływ na model. Jeśli nie podano, wszystkie serie czasowe są traktowane z równą wagą.
Wszystkie wiersze należące do tej samej serii czasowej muszą mieć taką samą wagę.
Wagi muszą być wartościami nieujemnymi, liczbami dziesiętnymi lub liczbami całkowitymi, i mieścić się w przedziale od 0 do 10 000.
output_database str Opcjonalny. Jeśli są dostępne, AutoML zapisuje przewidywania najlepszego modelu w nowej tabeli w określonej bazie danych.
Ustawienie domyślne: Przewidywania nie są zapisywane.
timeout_minutes int Opcjonalny. Maksymalny czas oczekiwania na ukończenie eksperymentów AutoML. Dłuższe limity czasu umożliwiają usłudze AutoML uruchamianie większej liczby prób i identyfikowanie modelu z lepszą dokładnością.
Ustawienie domyślne: 120 minut
Wartość minimalna: 5 minut
Zgłaszany jest błąd, jeśli limit czasu jest zbyt krótki, aby umożliwić ukończenie co najmniej jednej wersji próbnej.

Importuj notatnik

Metoda databricks.automl.import_notebook importuje notatnik, który został zapisany jako artefakt MLflow. Ta metoda zwraca element ImportNotebookResult.

databricks.automl.import_notebook(
  artifact_uri: str,
  path: str,
  overwrite: bool = False
) -> ImportNotebookResult:
Parametry Typ Opis
artifact_uri str Identyfikator URI artefaktu MLflow, który zawiera notes wersji próbnej.
path str Ścieżka w obszarze roboczym usługi Databricks, do którego ma zostać zaimportowany notatnik. Musi to być ścieżka bezwzględna. Katalog zostanie utworzony, jeśli nie istnieje.
overwrite bool Czy zastąpić notatnik, jeśli już istnieje. Jest to False domyślnie.

Przykład importu notatnika

summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)

AutoMLSummary

Obiekt podsumowania przebiegu automatycznego uczenia maszynowego, który opisuje metryki, parametry i inne szczegóły dla każdej wersji próbnej. Ten obiekt służy również do ładowania modelu trenowanego przez określoną wersję próbną.

Nieruchomość Typ Opis
experiment mlflow.entities.Experiment Eksperyment MLflow używany do rejestrowania prób.
trials List[TrialInfo] Lista obiektów TrialInfo zawierających informacje o wszystkich uruchomionych próbach.
best_trial TrialInfo Obiekt TrialInfo zawierający informacje o próbie, która przyniosła najlepszy wynik ważony dla podstawowej metryki.
metric_distribution str Rozkład ważonych wyników dla podstawowej metryki we wszystkich próbach.
output_table_name str Służy tylko do prognozowania i tylko wtedy, gdy output_database jest podana.
Nazwa tabeli w output_database zawierająca przewidywania modelu.

TrialInfo

Obiekt podsumowania dla każdej pojedynczej wersji próbnej.

Właściwość Typ Opis
notebook_path Optional[str] Ścieżka do wygenerowanego notesu dla tej wersji próbnej w obszarze roboczym.
W przypadku klasyfikacji i regresji ta wartość jest ustawiana tylko dla najlepszej próby, podczas gdy wszystkie inne próby mają wartość ustawioną na None.
W przypadku prognozowania ta wartość jest obecna dla wszystkich prób.
notebook_url Optional[str] Adres URL wygenerowanego notesu dla tej wersji próbnej.
pl-PL: W przypadku klasyfikacji i regresji ta wartość jest ustawiana tylko dla najlepszej próby, podczas gdy wszystkie inne próby mają wartość ustawioną na None.
W przypadku prognozowania ta wartość jest obecna dla wszystkich prób.
artifact_uri Optional[str] Identyfikator URI artefaktu MLflow dla wygenerowanego notatnika.
mlflow_run_id str Identyfikator przebiegu platformy MLflow skojarzony z tym przebiegiem wersji próbnej.
metrics Dict[str, float] Metryki zarejestrowane w usłudze MLflow dla tej wersji próbnej.
params Dict[str, str] Parametry zarejestrowane w narzędziu MLflow, które były używane w tej wersji próbnej.
model_path str Adres URL artefaktu MLflow modelu wytrenowanego w tej próbie.
model_description str Krótki opis modelu i hiperparametrów używanych do trenowania tego modelu.
duration str Czas trwania szkolenia w minutach.
preprocessors str Opis preprocesorów uruchamianych przed rozpoczęciem trenowania modelu.
evaluation_metric_score float Wynik podstawowej metryki obliczony dla zestawu danych weryfikacji.

TrialInfo ma metodę ładowania modelu wygenerowanego dla wersji próbnej.

Metoda Opis
load_model() Załaduj model wygenerowany w tej wersji próbnej zarejestrowany jako artefakt MLflow.

ImportNotebookResult

Właściwość Typ Opis
path str Ścieżka w obszarze roboczym Databricks, do którego ma zostać zaimportowany notatnik. Musi to być ścieżka bezwzględna. Katalog zostanie utworzony, jeśli nie istnieje.
url str URI artefaktu MLflow, który zawiera notatnik testowy.