MLflow experiment
Zdroj dat pro experimenty MLflow poskytuje standardní rozhraní API pro načítání dat běhů experimentů MLflow.
Data můžete načíst zexperimentu poznámkového bloku
Požadavky
Databricks Runtime 6.0 ML nebo novější
Načtení dat z poznámkového bloku experimentu
Pokud chcete načíst data z experimentu v poznámkovém bloku, použijte load()
.
Python
df = spark.read.format("mlflow-experiment").load()
display(df)
Scala
val df = spark.read.format("mlflow-experiment").load()
display(df)
Načtení dat pomocí ID experimentů
Pokud chcete načíst data z jednoho nebo více experimentů pracovního prostoru, zadejte ID experimentů, jak je znázorněno.
Python
df = spark.read.format("mlflow-experiment").load("3270527066281272")
display(df)
Scala
val df = spark.read.format("mlflow-experiment").load("3270527066281272,953590262154175")
display(df)
Načtení dat pomocí názvu experimentu
Název experimentu můžete také předat metodě load()
.
Python
expId = mlflow.get_experiment_by_name("/Shared/diabetes_experiment/").experiment_id
df = spark.read.format("mlflow-experiment").load(expId)
display(df)
Scala
val expId = mlflow.getExperimentByName("/Shared/diabetes_experiment/").get.getExperimentId
val df = spark.read.format("mlflow-experiment").load(expId)
display(df)
Filtrování dat na základě metrik a parameters
Příklady v této části ukazují, jak můžete filtrovat data po načtení z experimentu.
Python
df = spark.read.format("mlflow-experiment").load("3270527066281272")
filtered_df = df.filter("metrics.loss < 0.01 AND params.learning_rate > '0.001'")
display(filtered_df)
Scala
val df = spark.read.format("mlflow-experiment").load("3270527066281272")
val filtered_df = df.filter("metrics.loss < 1.85 AND params.num_epochs > '30'")
display(filtered_df)
Schema
schema datového rámce vráceného zdrojem dat je:
root
|-- run_id: string
|-- experiment_id: string
|-- metrics: map
| |-- key: string
| |-- value: double
|-- params: map
| |-- key: string
| |-- value: string
|-- tags: map
| |-- key: string
| |-- value: string
|-- start_time: timestamp
|-- end_time: timestamp
|-- status: string
|-- artifact_uri: string