Naslaginformatie over de AutoML Python-API
In dit artikel wordt de AutoML Python-API beschreven, die methoden biedt voor het starten van classificatie, regressie en het voorspellen van AutoML-uitvoeringen. Elke methode roept een set modellen aan en genereert een proefnotitieblok voor elk model.
Zie Wat is AutoML?voor meer informatie over AutoML, inclusief een ui-optie met weinig code.
Classificeren
De databricks.automl.classify
methode configureert een AutoML-uitvoering om een classificatiemodel te trainen.
Notitie
De max_trials
parameter is afgeschaft in Databricks Runtime 10.4 ML en wordt niet ondersteund in Databricks Runtime 11.0 ML en hoger. Gebruik timeout_minutes
dit om de duur van een AutoML-uitvoering te bepalen.
databricks.automl.classify(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
primary_metric: str = "f1",
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
pos_label: Optional[Union[int, bool, str]] = None, # <DBR> 11.1 ML and above
time_col: Optional[str] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None # <DBR> 15.4 ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Parameters classificeren
Parameternaam | Type | Description |
---|---|---|
dataset |
str , , , pandas.DataFrame pyspark.DataFrame pyspark.sql.DataFrame |
Naam van invoertabel of DataFrame met trainingsfuncties en -doel. De tabelnaam kan de notatie '<database_name> hebben.<>table_name of schema_name<>.<>table_name' voor niet-Unity Catalog-tabellen. |
target_col |
str |
Kolomnaam voor het doellabel. |
primary_metric |
str |
Metrische gegevens die worden gebruikt om modelprestaties te evalueren en rangschikken. Ondersteunde metrische gegevens voor regressie: "r2" (standaard), "mae", "rmse", "mse" Ondersteunde metrische gegevens voor classificatie: 'f1' (standaard), 'log_loss', 'precisie', 'nauwkeurigheid', 'roc_auc' |
data_dir |
str indeling dbfs:/<folder-name> |
Optioneel.
DBFS-pad dat wordt gebruikt voor het opslaan van de trainingsgegevensset. Dit pad is zichtbaar voor zowel stuurprogramma- als werkknooppunten. Databricks raadt aan dit veld leeg te laten, zodat AutoML de trainingsgegevensset kan opslaan als een MLflow-artefact. Als er een aangepast pad is opgegeven, neemt de gegevensset de toegangsmachtigingen van het AutoML-experiment niet over. |
experiment_dir |
str |
Optioneel. Pad naar de map in de werkruimte om de gegenereerde notebooks en experimenten op te slaan. Standaardwaarde: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Optioneel. Naam voor het MLflow-experiment dat door AutoML wordt gemaakt. Standaard: De naam wordt automatisch gegenereerd. |
exclude_cols |
List[str] |
Optioneel. Lijst met kolommen die moeten worden genegeerd tijdens AutoML-berekeningen. Standaard: [] |
exclude_frameworks |
List[str] |
Optioneel. Lijst met algoritmeframeworks waarmee AutoML geen rekening moet houden bij het ontwikkelen van modellen. Mogelijke waarden: lege lijst of een of meer van 'sklearn', 'lightgbm', 'xgboost'. Standaard: [] (alle frameworks worden overwogen) |
feature_store_lookups |
List[Dict] |
Optioneel. Lijst met woordenlijsten die functies uit Feature Store vertegenwoordigen voor gegevensvergroting. Geldige sleutels in elke woordenlijst zijn: - table_name (str): Vereist. Naam van de functietabel.- lookup_key (lijst of str): Vereist. Kolomnamen die als sleutel moeten worden gebruikt bij het samenvoegen van de functietabel met de gegevens die zijn doorgegeven in de dataset parameter. De volgorde van de kolomnamen moet overeenkomen met de volgorde van de primaire sleutels van de functietabel.- timestamp_lookup_key (str): Vereist als de opgegeven tabel een tijdreeksfunctietabel is. De kolomnaam die moet worden gebruikt bij het uitvoeren van een zoekactie naar een bepaald tijdstip in de functietabel met de gegevens die zijn doorgegeven in de dataset param.Standaard: [] |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
Optioneel. Woordenlijst waarbij elke sleutel een kolomnaam is en elke waarde een tekenreeks of woordenlijst is die de imputatiestrategie beschrijft. Als deze is opgegeven als een tekenreeks, moet de waarde een van 'gemiddelde', 'mediaan' of 'most_frequent' zijn. Als u een bekende waarde wilt toepassen, geeft u de waarde op als een woordenlijst {"strategy": "constant", "fill_value": <desired value>} . U kunt ook tekenreeksopties opgeven als woordenlijsten, bijvoorbeeld {"strategy": "mean"} .Als er geen imputatiestrategie is opgegeven voor een kolom, selecteert AutoML een standaardstrategie op basis van het kolomtype en de inhoud. Als u een niet-standaardimplicatiemethode opgeeft, voert AutoML geen semantische typedetectie uit. Standaardwaarde: {} |
pos_label |
Union[int, bool, str] |
(alleen classificatie) De positieve klasse. Dit is handig voor het berekenen van metrische gegevens, zoals precisie en relevante overeenkomsten. Mag alleen worden opgegeven voor binaire classificatieproblemen. |
time_col |
str |
Beschikbaar in Databricks Runtime 10.1 ML en hoger. Optioneel. Kolomnaam voor een tijdkolom. Indien opgegeven, probeert AutoML de gegevensset op te splitsen in trainings-, validatie- en testsets chronologisch, met behulp van de vroegste punten als trainingsgegevens en de laatste punten als een testset. Geaccepteerde kolomtypen zijn tijdstempel en geheel getal. Met Databricks Runtime 10.2 ML en hoger worden tekenreekskolommen ook ondersteund. Als het kolomtype tekenreeks is, probeert AutoML het te converteren naar een tijdstempel met behulp van semantische detectie. Als de conversie mislukt, mislukt de AutoML-uitvoering. |
split_col |
str |
Optioneel. Kolomnaam voor een gesplitste kolom. Alleen beschikbaar in Databricks Runtime 15.3 ML en hoger voor API-werkstromen. Indien opgegeven, probeert AutoML sets trainen/valideren/testen op door de gebruiker opgegeven waarden te splitsen en wordt deze kolom automatisch uitgesloten van trainingsfuncties. Geaccepteerd kolomtype is tekenreeks. De waarde van elke vermelding in deze kolom moet een van de volgende zijn: 'train', 'validate' of 'test'. |
sample_weight_col |
str |
Beschikbaar in Databricks Runtime 15.4 ML en hoger voor classificatie-API-werkstromen. Optioneel. Kolomnaam in de gegevensset die de steekproefgewichten voor elke rij bevat. Classificatie ondersteunt steekproefgewichten per klasse. Met deze gewichten wordt het belang van elke klas tijdens het trainen van modellen aangepast. Elke steekproef in een klasse moet hetzelfde gewicht van de steekproef hebben en de gewichten moeten niet-negatieve decimale of gehele getallen zijn, variërend van 0 tot 10.000. Klassen met een hoger steekproefgewicht worden als belangrijker beschouwd en hebben een grotere invloed op het leeralgoritmen. Als deze kolom niet is opgegeven, wordt ervan uitgegaan dat alle klassen gelijk gewicht hebben. |
max_trials |
int |
Optioneel. Maximum aantal tests dat moet worden uitgevoerd. Deze parameter is beschikbaar in Databricks Runtime 10.5 ML en lager, maar wordt afgeschaft vanaf Databricks Runtime 10.3 ML. In Databricks Runtime 11.0 ML en hoger wordt deze parameter niet ondersteund. Standaardwaarde: 20 Als timeout_minutes=Geen, wordt met AutoML het maximum aantal experimenten uitgevoerd. |
timeout_minutes |
int |
Optioneel. Maximale tijd om te wachten totdat de AutoML-proefversies zijn voltooid. Met langere time-outs kan AutoML meer proefversies uitvoeren en een model identificeren met een betere nauwkeurigheid. Standaard: 120 minuten Minimumwaarde: 5 minuten Er wordt een fout gerapporteerd als de time-out te kort is om ten minste één proefversie te voltooien. |
Teruggaan
De databricks.automl.regress
methode configureert een AutoML-uitvoering om een regressiemodel te trainen. Deze methode retourneert een AutoMLSummary.
Notitie
De max_trials
parameter is afgeschaft in Databricks Runtime 10.4 ML en wordt niet ondersteund in Databricks Runtime 11.0 ML en hoger. Gebruik timeout_minutes
dit om de duur van een AutoML-uitvoering te bepalen.
databricks.automl.regress(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
primary_metric: str = "r2",
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
time_col: Optional[str] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None, # <DBR> 15.3 ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Parameters regresseren
Parameternaam | Type | Description |
---|---|---|
dataset |
str , , , pandas.DataFrame pyspark.DataFrame pyspark.sql.DataFrame |
Naam van invoertabel of DataFrame met trainingsfuncties en -doel. De tabelnaam kan de notatie '<database_name> hebben.<>table_name of schema_name<>.<>table_name' voor niet-Unity Catalog-tabellen. |
target_col |
str |
Kolomnaam voor het doellabel. |
primary_metric |
str |
Metrische gegevens die worden gebruikt om modelprestaties te evalueren en rangschikken. Ondersteunde metrische gegevens voor regressie: "r2" (standaard), "mae", "rmse", "mse" Ondersteunde metrische gegevens voor classificatie: 'f1' (standaard), 'log_loss', 'precisie', 'nauwkeurigheid', 'roc_auc' |
data_dir |
str indeling dbfs:/<folder-name> |
Optioneel.
DBFS-pad dat wordt gebruikt voor het opslaan van de trainingsgegevensset. Dit pad is zichtbaar voor zowel stuurprogramma- als werkknooppunten. Databricks raadt aan dit veld leeg te laten, zodat AutoML de trainingsgegevensset kan opslaan als een MLflow-artefact. Als er een aangepast pad is opgegeven, neemt de gegevensset de toegangsmachtigingen van het AutoML-experiment niet over. |
experiment_dir |
str |
Optioneel. Pad naar de map in de werkruimte om de gegenereerde notebooks en experimenten op te slaan. Standaardwaarde: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Optioneel. Naam voor het MLflow-experiment dat door AutoML wordt gemaakt. Standaard: De naam wordt automatisch gegenereerd. |
exclude_cols |
List[str] |
Optioneel. Lijst met kolommen die moeten worden genegeerd tijdens AutoML-berekeningen. Standaard: [] |
exclude_frameworks |
List[str] |
Optioneel. Lijst met algoritmeframeworks waarmee AutoML geen rekening moet houden bij het ontwikkelen van modellen. Mogelijke waarden: lege lijst of een of meer van 'sklearn', 'lightgbm', 'xgboost'. Standaard: [] (alle frameworks worden overwogen) |
feature_store_lookups |
List[Dict] |
Optioneel. Lijst met woordenlijsten die functies uit Feature Store vertegenwoordigen voor gegevensvergroting. Geldige sleutels in elke woordenlijst zijn: - table_name (str): Vereist. Naam van de functietabel.- lookup_key (lijst of str): Vereist. Kolomnamen die als sleutel moeten worden gebruikt bij het samenvoegen van de functietabel met de gegevens die zijn doorgegeven in de dataset parameter. De volgorde van de kolomnamen moet overeenkomen met de volgorde van de primaire sleutels van de functietabel.- timestamp_lookup_key (str): Vereist als de opgegeven tabel een tijdreeksfunctietabel is. De kolomnaam die moet worden gebruikt bij het uitvoeren van een zoekactie naar een bepaald tijdstip in de functietabel met de gegevens die zijn doorgegeven in de dataset param.Standaard: [] |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
Optioneel. Woordenlijst waarbij elke sleutel een kolomnaam is en elke waarde een tekenreeks of woordenlijst is die de imputatiestrategie beschrijft. Als deze is opgegeven als een tekenreeks, moet de waarde een van 'gemiddelde', 'mediaan' of 'most_frequent' zijn. Als u een bekende waarde wilt toepassen, geeft u de waarde op als een woordenlijst {"strategy": "constant", "fill_value": <desired value>} . U kunt ook tekenreeksopties opgeven als woordenlijsten, bijvoorbeeld {"strategy": "mean"} .Als er geen imputatiestrategie is opgegeven voor een kolom, selecteert AutoML een standaardstrategie op basis van het kolomtype en de inhoud. Als u een niet-standaardimplicatiemethode opgeeft, voert AutoML geen semantische typedetectie uit. Standaardwaarde: {} |
time_col |
str |
Beschikbaar in Databricks Runtime 10.1 ML en hoger. Optioneel. Kolomnaam voor een tijdkolom. Indien opgegeven, probeert AutoML de gegevensset op te splitsen in trainings-, validatie- en testsets chronologisch, met behulp van de vroegste punten als trainingsgegevens en de laatste punten als een testset. Geaccepteerde kolomtypen zijn tijdstempel en geheel getal. Met Databricks Runtime 10.2 ML en hoger worden tekenreekskolommen ook ondersteund. Als het kolomtype tekenreeks is, probeert AutoML het te converteren naar een tijdstempel met behulp van semantische detectie. Als de conversie mislukt, mislukt de AutoML-uitvoering. |
split_col |
str |
Optioneel. Kolomnaam voor een gesplitste kolom. Alleen beschikbaar in Databricks Runtime 15.3 ML en hoger voor API-werkstromen. Indien opgegeven, probeert AutoML sets trainen/valideren/testen op door de gebruiker opgegeven waarden te splitsen en wordt deze kolom automatisch uitgesloten van trainingsfuncties. Geaccepteerd kolomtype is tekenreeks. De waarde van elke vermelding in deze kolom moet een van de volgende zijn: 'train', 'validate' of 'test'. |
sample_weight_col |
str |
Beschikbaar in Databricks Runtime 15.3 ML en hoger voor regressie-API-werkstromen. Optioneel. Kolomnaam in de gegevensset die de steekproefgewichten voor elke rij bevat. Met deze gewichten wordt het belang van elke rij tijdens de modeltraining aangepast. Gewichten moeten niet-negatieve decimale of gehele getallen zijn, variërend van 0 tot 10.000. Rijen met een hogere steekproefgewicht worden als belangrijker beschouwd en hebben een grotere invloed op het leeralgoritmen. Als deze kolom niet is opgegeven, wordt ervan uitgegaan dat alle rijen gelijk zijn aan gewicht. |
max_trials |
int |
Optioneel. Maximum aantal tests dat moet worden uitgevoerd. Deze parameter is beschikbaar in Databricks Runtime 10.5 ML en lager, maar wordt afgeschaft vanaf Databricks Runtime 10.3 ML. In Databricks Runtime 11.0 ML en hoger wordt deze parameter niet ondersteund. Standaardwaarde: 20 Als timeout_minutes=Geen, wordt met AutoML het maximum aantal experimenten uitgevoerd. |
timeout_minutes |
int |
Optioneel. Maximale tijd om te wachten totdat de AutoML-proefversies zijn voltooid. Met langere time-outs kan AutoML meer proefversies uitvoeren en een model identificeren met een betere nauwkeurigheid. Standaard: 120 minuten Minimumwaarde: 5 minuten Er wordt een fout gerapporteerd als de time-out te kort is om ten minste één proefversie te voltooien. |
Prognose
Met de databricks.automl.forecast
methode configureert u een AutoML-uitvoering voor het trainen van een prognosemodel. Deze methode retourneert een AutoMLSummary.
Als u Auto-ARIMA wilt gebruiken, moet de tijdreeks een normale frequentie hebben (dat wil gezegd, het interval tussen twee punten moet hetzelfde zijn gedurende de tijdreeks). De frequentie moet overeenkomen met de frequentie-eenheid die is opgegeven in de API-aanroep. AutoML verwerkt ontbrekende tijdstappen door deze waarden in te vullen met de vorige waarde.
databricks.automl.forecast(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
time_col: str,
primary_metric: str = "smape",
country_code: str = "US", # <DBR> 12.0 ML and above
frequency: str = "D",
horizon: int = 1,
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None,
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_frameworks: Optional[List[str]] = None,
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 12.2 LTS ML and above
identity_col: Optional[Union[str, List[str]]] = None,
sample_weight_col: Optional[str] = None, # <DBR> 16.0 ML and above
output_database: Optional[str] = None, # <DBR> 10.5 ML and above
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Parameters voor prognose
Parameternaam | Type | Description |
---|---|---|
dataset |
str , , , pandas.DataFrame pyspark.DataFrame pyspark.sql.DataFrame |
Naam van invoertabel of DataFrame met trainingsfuncties en -doel. De tabelnaam kan de notatie '.' hebben. of "." voor niet-Unity Catalog-tabellen |
target_col |
str |
Kolomnaam voor het doellabel. |
time_col |
str |
Naam van de tijdkolom voor prognose. |
primary_metric |
str |
Metrische gegevens die worden gebruikt om modelprestaties te evalueren en rangschikken. Ondersteunde metrische gegevens: 'smape' (standaard), 'mse', 'rmse', 'mae' of 'mdape'. |
country_code |
str |
Beschikbaar in Databricks Runtime 12.0 ML en hoger. Alleen ondersteund door het voorspellende model van prophet. Optioneel. Landcode van twee letters die aangeeft welke feestdagen het prognosemodel moet gebruiken. Als u feestdagen wilt negeren, stelt u deze parameter in op een lege tekenreeks (""). Ondersteunde landen. Standaard: VS (Verenigde Staten feestdagen). |
frequency |
str |
Frequentie van de tijdreeks voor prognoses. Dit is de periode waarmee gebeurtenissen naar verwachting plaatsvinden. De standaardinstelling is 'D' of dagelijkse gegevens. Zorg ervoor dat u de instelling wijzigt als uw gegevens een andere frequentie hebben. Mogelijke waarden: "W" (weken) "D" / "dagen" / "dag" "hours" / "hour" / "hr" / "h" "m" / "minuut" / "min" / "minuten" / "T" "S" / "seconds" / "sec" / "second" De volgende zijn alleen beschikbaar met Databricks Runtime 12.0 ML en hoger: "M" / "maand" / "maanden" "Q" / "kwartaal" / "kwartalen" "Y" / "year" / "years" Standaard: "D" |
horizon |
int |
Aantal perioden in de toekomst waarvoor prognoses moeten worden geretourneerd. De eenheden zijn de tijdreeksfrequentie. Standaard: 1 |
data_dir |
str indeling dbfs:/<folder-name> |
Optioneel.
DBFS-pad dat wordt gebruikt voor het opslaan van de trainingsgegevensset. Dit pad is zichtbaar voor zowel stuurprogramma- als werkknooppunten. Databricks raadt aan dit veld leeg te laten, zodat AutoML de trainingsgegevensset kan opslaan als een MLflow-artefact. Als er een aangepast pad is opgegeven, neemt de gegevensset de toegangsmachtigingen van het AutoML-experiment niet over. |
experiment_dir |
str |
Optioneel. Pad naar de map in de werkruimte om de gegenereerde notebooks en experimenten op te slaan. Standaardwaarde: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Optioneel. Naam voor het MLflow-experiment dat door AutoML wordt gemaakt. Standaard: De naam wordt automatisch gegenereerd. |
exclude_frameworks |
List[str] |
Optioneel. Lijst met algoritmeframeworks waarmee AutoML geen rekening moet houden bij het ontwikkelen van modellen. Mogelijke waarden: lege lijst of een of meer 'profeet', 'arima'. Standaard: [] (alle frameworks worden overwogen) |
feature_store_lookups |
List[Dict] |
Optioneel. Lijst met woordenlijsten die functies uit Feature Store vertegenwoordigen voor covariate gegevensvergroting. Geldige sleutels in elke woordenlijst zijn: - table_name (str): Vereist. Naam van de functietabel.- lookup_key (lijst of str): Vereist. Kolomnamen die als sleutel moeten worden gebruikt bij het samenvoegen van de functietabel met de gegevens die zijn doorgegeven in de dataset parameter. De volgorde van de kolomnamen moet overeenkomen met de volgorde van de primaire sleutels van de functietabel.- timestamp_lookup_key (str): Vereist als de opgegeven tabel een tijdreeksfunctietabel is. De kolomnaam die moet worden gebruikt bij het uitvoeren van een zoekactie naar een bepaald tijdstip in de functietabel met de gegevens die zijn doorgegeven in de dataset param.Standaard: [] |
identity_col |
Union[str, list] |
Optioneel. Kolom(en) die de tijdreeks voor prognoses van meerdere reeksen identificeren. AutoML groepeert op deze kolom(en) en de tijdkolom voor prognoses. |
sample_weight_col |
str |
Beschikbaar in Databricks Runtime 16.0 ML en hoger. Alleen voor werkstromen met meerdere tijdreeksen. Optioneel. Hiermee geeft u de kolom in de gegevensset die steekproefgewichten bevat. Deze gewichten geven het relatieve belang aan van elke tijdreeks tijdens het trainen en evalueren van modellen. Tijdreeksen met een hoger gewicht hebben een grotere invloed op het model. Indien niet opgegeven, worden alle tijdreeksen behandeld met gelijke gewicht. Alle rijen die tot dezelfde tijdreeks behoren, moeten hetzelfde gewicht hebben. Gewichten moeten niet-negatieve waarden zijn, decimalen of gehele getallen, en tussen 0 en 10.000 zijn. |
output_database |
str |
Optioneel. Indien opgegeven, worden voorspellingen van het beste model opgeslagen in een nieuwe tabel in de opgegeven database. Standaard: Voorspellingen worden niet opgeslagen. |
timeout_minutes |
int |
Optioneel. Maximale tijd om te wachten totdat de AutoML-proefversies zijn voltooid. Met langere time-outs kan AutoML meer proefversies uitvoeren en een model identificeren met een betere nauwkeurigheid. Standaard: 120 minuten Minimumwaarde: 5 minuten Er wordt een fout gerapporteerd als de time-out te kort is om ten minste één proefversie te voltooien. |
Notebook importeren
Met de databricks.automl.import_notebook
methode wordt een notebook geïmporteerd dat is opgeslagen als een MLflow-artefact. Met deze methode wordt een ImportNotebookResult geretourneerd.
databricks.automl.import_notebook(
artifact_uri: str,
path: str,
overwrite: bool = False
) -> ImportNotebookResult:
Parameters | Type | Description |
---|---|---|
artifact_uri |
str |
De URI van het MLflow-artefact dat het proefnotitieblok bevat. |
path |
str |
Het pad in de Databricks-werkruimte waar het notebook moet worden geïmporteerd. Dit moet een absoluut pad zijn. De map wordt gemaakt als deze niet bestaat. |
overwrite |
bool |
Of u het notitieblok wilt overschrijven als dit al bestaat. Dit is False standaard. |
Voorbeeld van importnotitieblok
summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)
AutoMLSummary
Samenvattingsobject voor een AutoML-uitvoering die de metrische gegevens, parameters en andere details voor elk van de proefversies beschrijft. U gebruikt dit object ook om het model te laden dat is getraind door een specifieke proefversie.
Eigenschap | Type | Description |
---|---|---|
experiment |
mlflow.entities.Experiment |
Het MLflow-experiment dat wordt gebruikt om de experimenten te registreren. |
trials |
List[TrialInfo] |
Een lijst met TrialInfo-objecten met informatie over alle uitgevoerde proefversies. |
best_trial |
TrialInfo |
Een TrialInfo-object met informatie over de proefversie die heeft geresulteerd in de beste gewogen score voor de primaire metrische waarde. |
metric_distribution |
str |
De verdeling van gewogen scores voor de primaire meetwaarde voor alle experimenten. |
output_table_name |
str |
Wordt alleen gebruikt met prognoses en alleen als output_database is opgegeven. Naam van de tabel in output_database met de voorspellingen van het model. |
TrialInfo
Samenvattingsobject voor elke afzonderlijke proefversie.
Eigenschap | Type | Description |
---|---|---|
notebook_path |
Optional[str] |
Het pad naar het gegenereerde notebook voor deze proefversie in de werkruimte. Voor classificatie en regressie is deze waarde alleen ingesteld voor de beste proefversie, terwijl alle andere experimenten de waarde hebben ingesteld op None .Voor prognoses is deze waarde aanwezig voor alle proefversies. |
notebook_url |
Optional[str] |
De URL van het gegenereerde notebook voor deze proefversie. Voor classificatie en regressie is deze waarde alleen ingesteld voor de beste proefversie, terwijl alle andere experimenten de waarde hebben ingesteld op None .Voor prognoses is deze waarde aanwezig voor alle proefversies. |
artifact_uri |
Optional[str] |
De MLflow-artefact-URI voor het gegenereerde notebook. |
mlflow_run_id |
str |
De MLflow-uitvoerings-id die is gekoppeld aan deze proefversie. |
metrics |
Dict[str, float] |
De metrische gegevens die zijn vastgelegd in MLflow voor deze proefversie. |
params |
Dict[str, str] |
De parameters die zijn vastgelegd in MLflow die zijn gebruikt voor deze proefversie. |
model_path |
str |
De MLflow-artefact-URL van het model dat in deze proefversie is getraind. |
model_description |
str |
Korte beschrijving van het model en de hyperparameters die worden gebruikt voor het trainen van dit model. |
duration |
str |
Trainingsduur in minuten. |
preprocessors |
str |
Beschrijving van de preprocessors die worden uitgevoerd voordat het model wordt getraind. |
evaluation_metric_score |
float |
Score van primaire metrische gegevens, geëvalueerd voor de validatiegegevensset. |
TrialInfo
heeft een methode voor het laden van het model dat is gegenereerd voor de proefversie.
Wijze | Description |
---|---|
load_model() |
Laad het model dat in deze proefversie is gegenereerd, geregistreerd als een MLflow-artefact. |
ImportNotebookResult
Eigenschap | Type | Description |
---|---|---|
path |
str |
Het pad in de Databricks-werkruimte waar het notebook moet worden geïmporteerd. Dit moet een absoluut pad zijn. De map wordt gemaakt als deze niet bestaat. |
url |
str |
De URI van het MLflow-artefact dat het proefnotitieblok bevat. |