Acompanhar experimentos e modelos com o MLflow

Artigo
11/13/2024

Acompanhamento é o processo de salvar informações relevantes sobre experimentos. Neste artigo, você aprenderá a usar o MLflow para acompanhar seus experimentos e execuções em workspaces do Azure Machine Learning.

Alguns métodos disponíveis na API do MLflow podem não estar disponíveis quando conectados ao Azure Machine Learning. Para obter detalhes sobre as operações com suporte e sem suporte, consulte Matriz de suporte para consultar execuções e experimentos. Você também pode aprender sobre as funcionalidades de MLflow com suporte no Azure Machine Learning no artigo MLflow e Azure Machine Learning.

Observação

Para acompanhar os experimentos em execução no Azure Databricks, consulte Acompanhar experimentos do Azure Databricks ML com o MLflow e o Azure Machine Learning.
Para acompanhar os experimentos em execução no Azure Synapse Analytics, consulte Acompanhar experimentos do Azure Synapse Analytics ML com o MLflow e o Azure Machine Learning.

Pré-requisitos

Tenha uma assinatura do Azure com a versão gratuita ou paga do Azure Machine Learning.
Para executar comandos da CLI do Azure e do Python, instale a CLI do Azure v2 e o SDK do Azure Machine Learning v2 para Python. A extensão ml da CLI do Azure é instalada automaticamente na primeira vez que você executa um comando da CLI do Azure Machine Learning.

Instale o pacote mlflow do SDK do MLflow e o plugin azureml-mlflow do Azure Machine Learning para MLflow da seguinte forma:
```
pip install mlflow azureml-mlflow
```
Dica

Você pode usar o pacote mlflow-skinny, que é um pacote MLflow leve sem dependências de servidor, interface do usuário, ciência de dados ou armazenamento do SQL. Esse pacote é recomendado para usuários que precisam, principalmente, dos recursos de acompanhamento e registro em log do MLflow sem importar o conjunto completo de recursos, incluindo implantações.
Criar um workspace do Azure Machine Learning. Para criar um workspace, consulte Como criar os recursos necessários para começar. Analise quais permissões de acesso você precisa para executar suas operações do MLflow no seu espaço de trabalho.
Para efetuar o acompanhamento remoto ou para acompanhar experimentos que estão sendo executados fora do Azure Machine Learning, configure o MLflow para apontar para o URI de acompanhamento do seu workspace do Azure Machine Learning. Para obter mais informações sobre como conectar o MLflow ao seu workspace, consulte Configurar o MLflow para o Azure Machine Learning.

Configurar o experimento

O MLflow organiza informações em experimentos e execuções. As execuções são chamadas trabalhos no Azure Machine Learning. Por padrão, executa o log em um experimento criado automaticamente chamado Padrão, mas você pode configurar qual experimento acompanhar.

Notebooks
Trabalhos

Para treinamento interativo, como em um Jupyter Notebook, use o seguinte comando MLflow mlflow.set_experiment(). Por exemplo, o snippet de código a seguir configura um exemplo de experimento:

experiment_name = 'hello-world-example'
mlflow.set_experiment(experiment_name)

Para enviar trabalhos usando a CLI ou o SDK do Azure Machine Learning, defina o nome do experimento usando a propriedade experiment_name do trabalho. Você não precisa configurar o nome do experimento em seu script de treinamento.

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
tags:
  hello: world
display_name: hello-world-example
experiment_name: hello-world-example
description: |

Configurar a execução

O Azure Machine Learning acompanha trabalhos de treinamento no que o MLflow chama de execuções. Use execuções para capturar todo o processamento que seu trabalho executa.

Notebooks
Trabalhos

Ao trabalhar interativamente, o MLflow começa a acompanhar sua rotina de treinamento assim que você tenta registrar informações que exigem uma execução ativa. Por exemplo, se a funcionalidade de registro automático do MLflow estiver habilitada, o acompanhamento do MLflow será iniciado quando você registrar uma métrica ou parâmetro ou iniciar um ciclo de treinamento.

No entanto, geralmente é útil iniciar a execução explicitamente, especialmente se você quiser capturar o tempo total do experimento no campo Duração. Para iniciar a execução explicitamente, use mlflow.start_run().

Se você iniciar a execução manualmente ou não, eventualmente precisará interromper a execução, para que o MLflow saiba que a execução do experimento está concluída e pode marcar o status da execução como Concluída. Para interromper uma execução, use mlflow.end_run().

O código a seguir inicia uma execução manualmente e a encerra no final do notebook:

mlflow.start_run()

# Your code

mlflow.end_run()

É melhor iniciar as execuções manualmente para que você não se esqueça de encerrá-las. Geralmente é útil usar o paradigma do gerente de contexto para lembrar de encerrar a execução:

with mlflow.start_run() as run:
    # Your code

Quando você inicia uma nova execução com mlflow.start_run(), pode ser útil especificar o parâmetro run_name, que se traduz posteriormente no nome da execução na interface do usuário do Azure Machine Learning. Essa prática ajuda a identificar a execução mais rapidamente.

with mlflow.start_run(run_name="hello-world-example") as run:
    # Your code

Os trabalhos do Azure Machine Learning permitem que você envie longas rotinas de treinamento ou inferência de execução como execuções isoladas e reproduzíveis.

Criar uma rotina de treinamento que tenha acompanhamento

Ao lidar com os trabalhos, normalmente você coloca toda a lógica de treinamento como arquivos dentro de uma pasta, por exemplo src. Um desses arquivos será um arquivo Python com seu ponto de entrada do código de treinamento.

Em sua rotina de treinamento, você pode usar o SDK do MLflow para acompanhar qualquer métrica, parâmetro, artefatos ou modelos. Para obter exemplos, consulte Métricas de log, parâmetros e arquivos com o MLflow.

O exemplo a seguir mostra uma rotina de treinamento hello_world.py que adiciona registro em log:

# imports
import os
import mlflow

from random import random

# define functions
def main():
    mlflow.log_param("hello_param", "world")
    mlflow.log_metric("hello_metric", random())
    os.system(f"echo 'hello world' > helloworld.txt")
    mlflow.log_artifact("helloworld.txt")


# run functions
if __name__ == "__main__":
    # run main function
    main()

O exemplo de código anterior não usa mlflow.start_run() mas, se usado, o MLflow reutilizará a execução ativa atual. Portanto, você não precisará remover a linha de mlflow.start_run() se migrar o código para o Azure Machine Learning.

Verifique se o ambiente do trabalho tem o MLflow instalado

Todos os ambientes coletados do Azure Machine Learning já têm o MLflow instalado. No entanto, se você usar um ambiente personalizado, crie um arquivo conda.yaml que tenha as dependências necessárias e referencie o ambiente em seu trabalho.

channels:
- conda-forge
dependencies:
- python=3.8.5
- pip
- pip:
  - mlflow
  - azureml-mlflow
  - fastparquet
  - cloudpickle==1.6.0
  - colorama==0.4.4
  - dask==2023.2.0

Configurar o nome do trabalho

Use o parâmetro display_name de trabalhos do Azure Machine Learning para configurar o nome da execução.

Usar a propriedade display_name para configurar o trabalho.

CLI do Azure
SDK do Python

Para configurar o trabalho, crie um arquivo YAML com sua definição de trabalho em um arquivo job.yml fora do diretório do src.

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
tags:
  hello: world
display_name: hello-world-example
experiment_name: hello-world-example
description: |

from azure.ai.ml import command, Environment

command_job = command(
    code="src",
    command="echo "hello world",
    environment=Environment(image="library/python:latest"),
    compute="cpu-cluster",
    display_name="hello-world-example"
)

Certifique-se de não usar mlflow.start_run(run_name="") dentro de sua rotina de treinamento.

Enviar o trabalho

O workspace é o recurso de nível superior do Azure Machine Learning, fornecendo um local centralizado para trabalhar com todos os artefatos criados do Azure Machine Learning. Conectar a um workspace do Azure Machine Learning.

CLI do Azure
SDK do Python

az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>

Importe as bibliotecas necessárias:

from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

Configure os detalhes do workspace e obtenha um identificador para o workspace:

subscription_id = "<subscription>"
resource_group = "<resource-group>"
workspace = "<workspace>"

ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace)

Abra seu terminal e use o código a seguir para enviar o trabalho. Trabalhos que usam o MLflow e são executados no Azure Machine Learning registrarão automaticamente qualquer informação de acompanhamento no espaço de trabalho.
- CLI do Azure
- SDK do Python
Use a CLI do Azure Machine Learning para enviar seu trabalho.
```
az ml job create -f job.yml --web
```
Usar o SDK do Python para enviar seus trabalhos.
```
returned_job = ml_client.jobs.create_or_update(command_job)
returned_job.studio_url
```
Monitore o progresso do trabalho no Estúdio do Azure Machine Learning.

Habilitar o registro automático do MLflow

Você pode registrar métricas, parâmetros e arquivos com o MLflow manualmente e também pode contar com a funcionalidade de registro automático do MLflow. Cada estrutura de aprendizado de máquina com suporte do MLflow determina o que acompanhar automaticamente para você.

Para habilitar o registro em log automático, insira o seguinte código antes do seu código de treinamento:

mlflow.autolog()

Exibir métricas e artefatos no espaço de trabalho

As métricas e os artefatos no registro do MLflow são mantidos no espaço de trabalho. Você pode exibi-los e acessá-los no Estúdio do Azure Machine Learning ou acessá-los programaticamente por meio do SDK do MLflow.

Para exibir métricas e artefatos no estúdio:

Na página Trabalhos no workspace, selecione o nome do experimento.
Na página de detalhes do experimento, selecione a guia Métricas.
Selecione as métricas registradas para renderizar gráficos no lado direito. Você pode personalizar os gráficos com a aplicação de suavização, alteração de cor ou uso de várias métricas em um único grafo. Você também pode redimensionar e reorganizar o layout.
Depois de criar a exibição desejada, salve-a para usar no futuro e compartilhe-a com seus colegas de equipe usando um link direto.

Para acessar ou consultar métricas, parâmetros e artefatos programaticamente por meio do SDK do MLflow, use mlflow.get_run().

import mlflow

run = mlflow.get_run("<RUN_ID>")

metrics = run.data.metrics
params = run.data.params
tags = run.data.tags

print(metrics, params, tags)

Dica

O exemplo anterior retorna apenas o último valor de uma determinada métrica. Se você quiser recuperar todos os valores de uma determinada métrica, use o método mlflow.get_metric_history. Para obter mais informações sobre como recuperar valores de uma métrica, consulte Obter parâmetros e métricas de uma execução.

Para baixar artefatos registrados, como arquivos e modelos, use mlflow.artifacts.download_artifacts().

mlflow.artifacts.download_artifacts(run_id="<RUN_ID>", artifact_path="helloworld.txt")

Para obter mais informações sobre como recuperar ou comparar informações de experimentos e execuções no Azure Machine Learning usando o MLflow, consulte Consultar e comparar experimentos e execuções com o MLflow.

Compartilhar via

Acompanhar experimentos e modelos com o MLflow

Pré-requisitos

Configurar o experimento

Configurar a execução

Criar uma rotina de treinamento que tenha acompanhamento

Verifique se o ambiente do trabalho tem o MLflow instalado

Configurar o nome do trabalho

Enviar o trabalho

Habilitar o registro automático do MLflow

Exibir métricas e artefatos no espaço de trabalho

Comentários

Recursos adicionais

Compartilhar via

Acompanhar experimentos e modelos com o MLflow

Pré-requisitos

Configurar o experimento

Configurar a execução

Habilitar o registro automático do MLflow

Exibir métricas e artefatos no espaço de trabalho

Conteúdo relacionado

Comentários

Recursos adicionais