Sledování experimentů a modelů pomocí MLflow

Článek
11/09/2024

Sledování je proces ukládání relevantních informací o experimentech. V tomto článku se dozvíte, jak používat MLflow ke sledování experimentů a spuštění v pracovních prostorech Azure Machine Learning.

Některé metody dostupné v rozhraní API MLflow nemusí být při připojení ke službě Azure Machine Learning dostupné. Podrobnosti o podporovaných a nepodporovaných operacích najdete v matici podpory pro dotazování spuštění a experimentů. Informace o podporovaných funkcích MLflow ve službě Azure Machine Learning najdete také v článku MLflow a Azure Machine Learning.

Poznámka:

Pokud chcete sledovat experimenty spuštěné v Azure Databricks, přečtěte si téma Sledování experimentů Azure Databricks ML pomocí MLflow a Azure Machine Learning.
Pokud chcete sledovat experimenty spuštěné ve službě Azure Synapse Analytics, přečtěte si téma Sledování experimentů Azure Synapse Analytics ML pomocí MLflow a Azure Machine Learning.

Požadavky

Máte předplatné Azure s bezplatnou nebo placenou verzí služby Azure Machine Learning.
Pokud chcete spouštět příkazy Azure CLI a Pythonu, nainstalujte Azure CLI v2 a sadu Azure Machine Learning SDK v2 pro Python. Rozšíření ml pro Azure CLI se automaticky nainstaluje při prvním spuštění příkazu Azure Machine Learning CLI.

Nainstalujte balíček MLflow SDK mlflow a modul plug-in Azure Machine Learning azureml-mlflow pro MLflow následujícím způsobem:
```
pip install mlflow azureml-mlflow
```
Tip

Můžete použít mlflow-skinny balíček, což je jednoduchý balíček MLflow bez závislostí sql Storage, serveru, uživatelského rozhraní nebo datových věd. Tento balíček se doporučuje uživatelům, kteří primárně potřebují funkce sledování a protokolování MLflow bez importu celé sady funkcí, včetně nasazení.
Vytvořte pracovní prostor Azure Machine Learning. Pokud chcete vytvořit pracovní prostor, přečtěte si téma Vytvoření prostředků, které potřebujete, abyste mohli začít. Zkontrolujte přístupová oprávnění , která potřebujete k provádění operací MLflow ve vašem pracovním prostoru.
Pokud chcete provádět vzdálené sledování nebo sledovat experimenty spuštěné mimo Azure Machine Learning, nakonfigurujte MLflow tak, aby odkazovali na identifikátor URI sledování pracovního prostoru Azure Machine Learning. Další informace o připojení MLflow k pracovnímu prostoru najdete v tématu Konfigurace MLflow pro Azure Machine Learning.

Konfigurace experimentu

MLflow uspořádá informace v experimentech a spuštěních. Spuštění se nazývají úlohy ve službě Azure Machine Learning. Ve výchozím nastavení se protokol spouští do automaticky vytvořeného experimentu s názvem Výchozí, ale můžete nakonfigurovat, který experiment se má sledovat.

Poznámkové bloky
Úlohy

Pro interaktivní trénování, například v poznámkovém bloku Jupyter, použijte příkaz mlflow.set_experiment()MLflow . Například následující fragment kódu konfiguruje experiment:

experiment_name = 'hello-world-example'
mlflow.set_experiment(experiment_name)

Pokud chcete odesílat úlohy pomocí rozhraní příkazového řádku nebo sady SDK služby Azure Machine Learning, nastavte název experimentu pomocí experiment_name vlastnosti úlohy. V trénovacím skriptu nemusíte konfigurovat název experimentu.

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
tags:
  hello: world
display_name: hello-world-example
experiment_name: hello-world-example
description: |

Konfigurace spuštění

Azure Machine Learning sleduje trénovací úlohy v tom, co běží volání MLflow. Pomocí spuštění zachyťte veškeré zpracování, které vaše úloha provádí.

Poznámkové bloky
Úlohy

Když pracujete interaktivně, MLflow začne sledovat trénovací rutinu hned po protokolování informací, které vyžadují aktivní spuštění. Pokud je například povolená funkce automatického protokolování mlflow, spustí se sledování MLflow při protokolování metriky nebo parametru nebo spuštění trénovacího cyklu.

Obvykle je ale užitečné spustit spuštění explicitně, zejména pokud chcete zachytit celkový čas experimentu v poli Doba trvání . Chcete-li spustit spuštění explicitně, použijte mlflow.start_run().

Bez ohledu na to, jestli spuštění spustíte ručně nebo ne, budete nakonec muset spuštění zastavit, aby MLflow věděl, že je spuštění experimentu hotové a může označit stav spuštění jako Dokončeno. Chcete-li zastavit spuštění, použijte mlflow.end_run().

Následující kód spustí spuštění ručně a ukončí ho na konci poznámkového bloku:

mlflow.start_run()

# Your code

mlflow.end_run()

Nejlepší je spustit ručně, abyste je nezapomněli ukončit. Paradigma správce kontextu můžete použít k tomu, abyste si vzpomněli na ukončení spuštění.

with mlflow.start_run() as run:
    # Your code

Když spustíte nové spuštění pomocí mlflow.start_run(), může být užitečné zadat run_name parametr, který se později přeloží na název spuštění v uživatelském rozhraní služby Azure Machine Learning. Tento postup vám pomůže rychleji identifikovat běh.

with mlflow.start_run(run_name="hello-world-example") as run:
    # Your code

Úlohy Azure Machine Learning umožňují odesílat dlouhotrvající trénovací rutiny nebo rutiny odvozování jako izolované a reprodukovatelné spouštění.

Vytvoření rutiny trénování s sledováním

Při práci s úlohami obvykle umístíte veškerou trénovací logiku jako soubory do složky, například src. Jedním ze souborů je soubor Pythonu s vaším vstupním bodem trénovacího kódu.

V rutině trénování můžete pomocí sady MLflow SDK sledovat libovolnou metriku, parametr, artefakty nebo modely. Příklady najdete v tématu Metriky protokolu, parametry a soubory pomocí MLflow.

Následující příklad ukazuje hello_world.py trénovací rutinu, která přidává protokolování:

# imports
import os
import mlflow

from random import random

# define functions
def main():
    mlflow.log_param("hello_param", "world")
    mlflow.log_metric("hello_metric", random())
    os.system(f"echo 'hello world' > helloworld.txt")
    mlflow.log_artifact("helloworld.txt")


# run functions
if __name__ == "__main__":
    # run main function
    main()

Předchozí příklad kódu se nepoužívá mlflow.start_run() , ale pokud se použije, MLflow znovu použije aktuální aktivní spuštění. Pokud tedy migrujete kód do služby Azure Machine Learning, nemusíte řádek odebírat mlflow.start_run() .

Ujistěte se, že prostředí vaší úlohy má nainstalované MLflow.

Všechna kurátorovaná prostředí Azure Machine Learning už mají nainstalované MLflow. Pokud ale používáte vlastní prostředí, vytvořte soubor conda.yaml , který obsahuje potřebné závislosti, a odkazujte na prostředí ve vaší úloze.

channels:
- conda-forge
dependencies:
- python=3.8.5
- pip
- pip:
  - mlflow
  - azureml-mlflow
  - fastparquet
  - cloudpickle==1.6.0
  - colorama==0.4.4
  - dask==2023.2.0

Konfigurace názvu úlohy

Pomocí parametru display_name úloh Azure Machine Learning nakonfigurujte název spuštění.

display_name Pomocí vlastnosti nakonfigurujte úlohu.

Azure CLI
Python SDK

Pokud chcete úlohu nakonfigurovat, vytvořte soubor YAML s definicí úlohy v job.yml souboru mimo adresář src.

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
tags:
  hello: world
display_name: hello-world-example
experiment_name: hello-world-example
description: |

from azure.ai.ml import command, Environment

command_job = command(
    code="src",
    command="echo "hello world",
    environment=Environment(image="library/python:latest"),
    compute="cpu-cluster",
    display_name="hello-world-example"
)

Ujistěte se, že mlflow.start_run(run_name="") nepoužíváte v rámci trénovací rutiny.

Odeslání úlohy

Pracovní prostor je prostředek nejvyšší úrovně pro Azure Machine Learning, který poskytuje centralizované místo pro práci se všemi artefakty Azure Machine Learning, které vytvoříte. Připojte se k pracovnímu prostoru Azure Machine Learning.

Azure CLI
Python SDK

az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>

Import požadovaných knihoven:

from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

Nakonfigurujte podrobnosti pracovního prostoru a získejte popisovač pracovního prostoru:

subscription_id = "<subscription>"
resource_group = "<resource-group>"
workspace = "<workspace>"

ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace)

Otevřete terminál a pomocí následujícího kódu odešlete úlohu. Úlohy, které používají MLflow a spouští se ve službě Azure Machine Learning, automaticky protokolují všechny informace o sledování do pracovního prostoru.
- Azure CLI
- Python SDK
K odeslání úlohy použijte rozhraní příkazového řádku služby Azure Machine Learning.
```
az ml job create -f job.yml --web
```
K odeslání úlohy použijte sadu Python SDK.
```
returned_job = ml_client.jobs.create_or_update(command_job)
returned_job.studio_url
```
Sledujte průběh úlohy v studio Azure Machine Learning.

Povolení automatickéhologování MLflow

Metriky, parametry a soubory můžete protokolovat ručně pomocí MLflow a také můžete spoléhat na funkci automatického protokolování MLflow. Každá architektura strojového učení podporovaná MLflow určuje, co se má automaticky sledovat za vás.

Pokud chcete povolit automatické protokolování, vložte před trénovací kód následující kód:

mlflow.autolog()

Zobrazení metrik a artefaktů v pracovním prostoru

Metriky a artefakty z protokolování MLflow se sledují ve vašem pracovním prostoru. Můžete je zobrazit a získat k nim přístup v studio Azure Machine Learning nebo k nim přistupovat programově prostřednictvím sady MLflow SDK.

Zobrazení metrik a artefaktů v sadě Studio:

Na stránce Úlohy v pracovním prostoru vyberte název experimentu.
Na stránce podrobností experimentu vyberte kartu Metriky .
Vyberte protokolované metriky pro vykreslení grafů na pravé straně. Grafy můžete přizpůsobit použitím vyhlazení, změnou barvy nebo vykreslením více metrik v jednom grafu. Můžete také změnit velikost a změnit uspořádání rozložení.
Jakmile vytvoříte požadované zobrazení, uložte ho pro budoucí použití a nasdílejte ho s ostatními členy týmu pomocí přímého odkazu.

Pokud chcete prostřednictvím sady MLflow SDK programově přistupovat k metrikám, parametrům a artefaktům, použijte mlflow.get_run().

import mlflow

run = mlflow.get_run("<RUN_ID>")

metrics = run.data.metrics
params = run.data.params
tags = run.data.tags

print(metrics, params, tags)

Tip

Předchozí příklad vrátí pouze poslední hodnotu dané metriky. Pokud chcete načíst všechny hodnoty dané metriky, použijte metodu mlflow.get_metric_history . Další informace o načítání hodnot metrik najdete v tématu Získání parametrů a metrik ze spuštění.

Pokud chcete stáhnout artefakty, které jste protokolovali, například soubory a modely, použijte mlflow.artifacts.download_artifacts().

mlflow.artifacts.download_artifacts(run_id="<RUN_ID>", artifact_path="helloworld.txt")

Další informace o tom, jak načíst nebo porovnat informace z experimentů a spuštění ve službě Azure Machine Learning pomocí MLflow, najdete v tématu Dotazování a porovnání experimentů a spuštění pomocí MLflow.

Sdílet prostřednictvím

Sledování experimentů a modelů pomocí MLflow

Požadavky

Konfigurace experimentu

Konfigurace spuštění

Vytvoření rutiny trénování s sledováním

Ujistěte se, že prostředí vaší úlohy má nainstalované MLflow.

Konfigurace názvu úlohy

Odeslání úlohy

Povolení automatickéhologování MLflow

Zobrazení metrik a artefaktů v pracovním prostoru

Váš názor

Další materiály

Sdílet prostřednictvím

Sledování experimentů a modelů pomocí MLflow

Požadavky

Konfigurace experimentu

Konfigurace spuštění

Povolení automatickéhologování MLflow

Zobrazení metrik a artefaktů v pracovním prostoru

Související obsah

Váš názor

Další materiály