MLflow-modellen implementeren en uitvoeren in Spark-taken

Artikel
12/20/2024

In dit artikel leert u hoe u uw MLflow-model implementeert en uitvoert in Spark-taken om deductie uit te voeren over grote hoeveelheden gegevens of als onderdeel van gegevens-wrangling-taken.

Over dit voorbeeld

In dit voorbeeld ziet u hoe u een MLflow-model kunt implementeren dat is geregistreerd in Azure Machine Learning voor Spark-taken die worden uitgevoerd in beheerde Spark-clusters (preview), Azure Databricks of Azure Synapse Analytics, om deductie uit te voeren op grote hoeveelheden gegevens.

Het model is gebaseerd op de UCI Heart Disease Data Set. De database bevat 76 kenmerken, maar we gebruiken een subset van 14 kenmerken. Het model probeert de aanwezigheid van hart- en vaatziekten bij een patiënt te voorspellen. Het is een geheel getal van 0 (geen aanwezigheid) tot 1 (aanwezigheid). Het is getraind met behulp van een XGBBoost classificatie en alle vereiste voorverwerking is verpakt als een scikit-learn pijplijn, waardoor dit model een end-to-end-pijplijn is die van onbewerkte gegevens naar voorspellingen gaat.

De informatie in dit artikel is gebaseerd op codevoorbeelden in de opslagplaats azureml-examples . Als u de opdrachten lokaal wilt uitvoeren zonder bestanden te hoeven kopiëren/plakken, kloont u de opslagplaats en wijzigt u de mappen sdk/using-mlflow/deployin .

git clone https://github.com/Azure/azureml-examples --depth 1
cd sdk/python/using-mlflow/deploy

Vereisten

Voordat u de stappen in dit artikel volgt, moet u ervoor zorgen dat u over de volgende vereisten beschikt:

Installeer het MLflow SDK-pakket mlflow en de Azure Machine Learning-invoegtoepassing azureml-mlflow voor MLflow als volgt:
```
pip install mlflow azureml-mlflow
```
Tip

U kunt het mlflow-skinny pakket gebruiken. Dit is een lichtgewicht MLflow-pakket zonder SQL-opslag-, server-, UI- of data science-afhankelijkheden. Dit pakket wordt aanbevolen voor gebruikers die voornamelijk de MLflow-mogelijkheden voor tracering en logboekregistratie nodig hebben zonder de volledige suite met functies te importeren, inclusief implementaties.
Een Azure Machine Learning-werkruimte maken Zie Resources maken die u nodig hebt om aan de slag te gaan om een werkruimte te maken. Controleer de toegangsmachtigingen die u nodig hebt om uw MLflow-bewerkingen uit te voeren in uw werkruimte.
Als u externe tracering wilt uitvoeren of experimenten wilt bijhouden die buiten Azure Machine Learning worden uitgevoerd, configureert u MLflow zodat deze verwijst naar de tracerings-URI van uw Azure Machine Learning-werkruimte. Zie MLflow configureren voor Azure Machine Learning voor meer informatie over het verbinden van MLflow met uw werkruimte.

U moet een MLflow-model hebben geregistreerd in uw werkruimte. In dit voorbeeld wordt met name een model geregistreerd dat is getraind voor de gegevensset Diabetes.

Verbinding maken met uw werkruimte

Eerst gaan we verbinding maken met de Azure Machine Learning-werkruimte waarin uw model is geregistreerd.

Azure Machine Learning-rekenproces
Externe rekenkracht

Tracering is al voor u geconfigureerd. Uw standaardreferenties worden ook gebruikt bij het werken met MLflow.

Tracerings-URI configureren

Haal de tracerings-URI voor uw werkruimte op:
- Azure-CLI
- Python SDK
- Studio
- Handmatig
VAN TOEPASSING OP: Azure CLI ml-extensie v2 (huidige)
1. Meld u aan en configureer uw werkruimte:
```
az account set --subscription <subscription-ID>
az configure --defaults workspace=<workspace-name> group=<resource-group-name> location=<location> 
```
2. Haal de tracerings-URI op met behulp van de az ml workspace opdracht:
```
az ml workspace show --query mlflow_tracking_uri
```
VAN TOEPASSING OP: Python SDK azure-ai-ml v2 (actueel)

U kunt de Azure Machine Learning SDK v2 voor Python gebruiken om de URI voor het bijhouden van Azure Machine Learning MLflow op te halen. Zorg ervoor dat de azure-ai-ml bibliotheek is geïnstalleerd in uw rekenproces. Gebruik vervolgens de volgende code om de unieke MLFLow-tracerings-URI op te halen die is gekoppeld aan uw werkruimte.
1. Gebruik een exemplaar om MLClient u aan te melden bij uw werkruimte. Er zijn twee opties voor aanmelden:
  - De eenvoudigste manier is om het configuratiebestand voor de werkruimte te gebruiken:
    
    from azure.ai.ml import MLClient from azure.identity import DefaultAzureCredential ml_client = MLClient.from_config(credential=DefaultAzureCredential())
    
    Tip
    
    U kunt het configuratiebestand voor de werkruimte downloaden door de volgende stappen uit te voeren:
    
    Ga naar Azure Machine Learning-studio.
    
    Selecteer in de rechterbovenhoek de naam van uw werkruimte.
    
    Selecteer in het venster Map + Abonnement + Werkruimte de optie Configuratiebestand downloaden.
    
    Sla het config.json bestand op in de map waarin u werkt.
  - U kunt ook uw abonnements-id, resourcegroepnaam en werkruimtenaam gebruiken om u aan te melden:
    
    from azure.ai.ml import MLClient from azure.identity import DefaultAzureCredential # Enter information about your Azure Machine Learning workspace. subscription_id = "<subscription-ID>" resource_group = "<resource-group-name>" workspace_name = "<workspace-name>" ml_client = MLClient(credential=DefaultAzureCredential(), subscription_id=subscription_id, resource_group_name=resource_group, workspace_name=workspace_name)
    
    Belangrijk
    
    De DefaultAzureCredential methode probeert referenties op te halen uit de beschikbare context. Maar misschien wilt u referenties op een andere manier opgeven, bijvoorbeeld door de webbrowser op een interactieve manier te gebruiken. In deze gevallen kunt u of een andere methode gebruiken InteractiveBrowserCredential die beschikbaar is in het azure.identity pakket.
2. Haal de azure Machine Learning-tracerings-URI op:
```
mlflow_tracking_uri = ml_client.workspaces.get(ml_client.workspace_name).mlflow_tracking_uri
```
Gebruik Azure Machine Learning-studio om de tracerings-URI op te halen:
1. Open Azure Machine Learning-studio en gebruik uw referenties om u aan te melden.
2. Selecteer in de rechterbovenhoek de naam van uw werkruimte.
3. Selecteer in het venster Directory + Abonnement + Werkruimte alle eigenschappen weergeven in De Azure-portal. De resourcepagina voor uw werkruimte wordt geopend in Azure Portal.
4. Kopieer onder Essentials de URI-waarde voor het bijhouden van MLflow.
U kunt de azure Machine Learning-tracerings-URI handmatig maken. U hebt uw abonnements-id nodig, de regio waarin uw werkruimte is geïmplementeerd, de naam van uw resourcegroep en de naam van uw werkruimte. Als u de URI wilt ophalen, voert u deze waarden in de volgende code in:

Waarschuwing

Als u een werkruimte met private link-functionaliteit gebruikt, gebruikt het MLflow-eindpunt ook een privékoppeling om te communiceren met Azure Machine Learning. Als gevolg hiervan gebruikt de tracerings-URI een andere indeling dan die in dit artikel. In dit geval moet u de Azure Machine Learning SDK voor Python of de Azure Machine Learning CLI v2 gebruiken om de tracerings-URI op te halen.
```
region = "<region>"
subscription_id = "<subscription-ID>"
resource_group = "<resource-group-name>"
workspace_name = "<workspace-name>"

mlflow_tracking_uri = f"azureml://{region}.api.azureml.ms/mlflow/v1.0/subscriptions/{subscription_id}/resourceGroups/{resource_group}/providers/Microsoft.MachineLearningServices/workspaces/{workspace_name}"
```
Configureer de tracerings-URI:
- MLflow SDK
- Omgevingsvariabelen
Gebruik de set_tracking_uri() methode om de MLflow-tracerings-URI in te stellen op de tracerings-URI van uw werkruimte.
```
import mlflow

mlflow.set_tracking_uri(mlflow_tracking_uri)
```
Gebruik in uw rekenproces de volgende code om de MLFLOW_TRACKING_URI omgevingsvariabele MLflow in te stellen op de tracerings-URI van uw werkruimte. Deze toewijzing zorgt ervoor dat alle interacties met MLflow in dat rekenproces standaard verwijzen naar Azure Machine Learning. Zie Logboekregistratiefuncties voor meer informatie.
```
MLFLOW_TRACKING_URI=$(az ml workspace show --query mlflow_tracking_uri | sed 's/"//g') 
```
Tip

Sommige scenario's omvatten het werken in een gedeelde omgeving, zoals een Azure Databricks-cluster of een Azure Synapse Analytics-cluster. In deze gevallen is het handig om de MLFLOW_TRACKING_URI omgevingsvariabele in te stellen op clusterniveau in plaats van voor elke sessie. Als u de variabele instelt op clusterniveau, wordt de MLflow-tracerings-URI automatisch geconfigureerd om naar Azure Machine Learning te verwijzen voor alle sessies in het cluster.

Verificatie configureren

Zodra het bijhouden is geconfigureerd, moet u ook configureren hoe de verificatie moet gebeuren met de gekoppelde werkruimte. De Azure Machine Learning-invoegtoepassing voor MLflow voert standaard interactieve verificatie uit door de standaardbrowser te openen om om referenties te vragen. Raadpleeg MLflow configureren voor Azure Machine Learning: verificatie configureren voor aanvullende manieren om verificatie voor MLflow in Azure Machine Learning-werkruimten te configureren.

Voor interactieve taken waarbij er een gebruiker is verbonden met de sessie, kunt u vertrouwen op interactieve verificatie. Er is geen verdere actie vereist.

Waarschuwing

Met interactieve browserverificatie wordt de uitvoering van code geblokkeerd wanneer er om referenties wordt gevraagd. Deze benadering is niet geschikt voor verificatie in omgevingen zonder toezicht, zoals trainingstaken. U wordt aangeraden een andere verificatiemodus in deze omgevingen te configureren.

Voor scenario's waarvoor uitvoering zonder toezicht is vereist, moet u een service-principal configureren om te communiceren met Azure Machine Learning. Zie Een service-principal configureren voor informatie over het maken van een service-principal.

Gebruik de tenant-id, client-id en het clientgeheim van uw service-principal in de volgende code:

MLflow SDK
Omgevingsvariabelen

import os

os.environ["AZURE_TENANT_ID"] = "<Azure-tenant-ID>"
os.environ["AZURE_CLIENT_ID"] = "<Azure-client-ID>"
os.environ["AZURE_CLIENT_SECRET"] = "<Azure-client-secret>"

export AZURE_TENANT_ID="<Azure-tenant-ID>"
export AZURE_CLIENT_ID="<Azure-client-ID>"
export AZURE_CLIENT_SECRET="<Azure-client-secret>"

Tip

Wanneer u in gedeelde omgevingen werkt, raden we u aan deze omgevingsvariabelen op rekenniveau te configureren. Als best practice kunt u ze beheren als geheimen in een exemplaar van Azure Key Vault.

In een Azure Databricks-clusterconfiguratie kunt u bijvoorbeeld geheimen in omgevingsvariabelen op de volgende manier gebruiken: AZURE_CLIENT_SECRET={{secrets/<scope-name>/<secret-name>}}. Zie Referentie voor een geheim in een omgevingsvariabele of raadpleeg de documentatie voor uw platform voor meer informatie over het implementeren van deze benadering in Azure Databricks.

Het model registreren

We hebben een model nodig dat is geregistreerd in het Azure Machine Learning-register om deductie uit te voeren. In dit geval hebben we al een lokale kopie van het model in de opslagplaats, dus we hoeven het model alleen in het register in de werkruimte te publiceren. U kunt deze stap overslaan als het model dat u probeert te implementeren al is geregistreerd.

model_name = 'heart-classifier'
model_local_path = "model"

registered_model = mlflow_client.create_model_version(
    name=model_name, source=f"file://{model_local_path}"
)
version = registered_model.version

Als uw model is geregistreerd in een uitvoering, kunt u het ook rechtstreeks registreren.

Tip

Als u het model wilt registreren, moet u weten waar het model is opgeslagen. Als u de functie van MLflow gebruikt autolog , is het pad afhankelijk van het type en framework van het gebruikte model. We raden u aan om de uitvoer van taken te controleren om te bepalen welke naam deze map heeft. U kunt zoeken naar de map met een bestand met de naam MLModel. Als u uw modellen handmatig log_modelgebruikt, is het pad het argument dat u aan een dergelijke methode doorgeeft. Als u bijvoorbeeld het model aanmeldt met behulp van mlflow.sklearn.log_model(my_model, "classifier"), dan is classifierhet pad waar het model is opgeslagen.

model_name = 'heart-classifier'

registered_model = mlflow_client.create_model_version(
    name=model_name, source=f"runs://{RUN_ID}/{MODEL_PATH}"
)
version = registered_model.version

Notitie

Het pad MODEL_PATH is de locatie waar het model is opgeslagen in de uitvoering.

Invoergegevens ophalen om te scoren

We hebben enkele invoergegevens nodig om uit te voeren of taken uit te voeren. In dit voorbeeld downloaden we voorbeeldgegevens van internet en plaatsen we deze in een gedeelde opslag die wordt gebruikt door het Spark-cluster.

import urllib

urllib.request.urlretrieve("https://azuremlexampledata.blob.core.windows.net/data/heart-disease-uci/data/heart.csv", "/tmp/data")

Verplaats de gegevens naar een gekoppeld opslagaccount dat beschikbaar is voor het hele cluster.

dbutils.fs.mv("file:/tmp/data", "dbfs:/")

Belangrijk

De vorige code maakt gebruik van dbutilseen hulpprogramma dat beschikbaar is in een Azure Databricks-cluster. Gebruik het juiste hulpprogramma, afhankelijk van het platform dat u gebruikt.

De invoergegevens worden vervolgens in de volgende map geplaatst:

input_data_path = "dbfs:/data"

Het model uitvoeren in Spark-clusters

In de volgende sectie wordt uitgelegd hoe u MLflow-modellen uitvoert die zijn geregistreerd in Azure Machine Learning in Spark-taken.

Zorg ervoor dat de volgende bibliotheken zijn geïnstalleerd in het cluster:

- mlflow<3,>=2.1
- cloudpickle==2.2.0
- scikit-learn==1.2.0
- xgboost==1.7.2

We gebruiken een notebook om te laten zien hoe u een scoreroutine maakt met een MLflow-model dat is geregistreerd in Azure Machine Learning. Maak een notebook en gebruik PySpark als standaardtaal.

Importeer de vereiste naamruimten:

import mlflow
import pyspark.sql.functions as f

Configureer de model-URI. De volgende URI brengt een model met de naam heart-classifier in de nieuwste versie.
```
model_uri = "models:/heart-classifier/latest"
```
Laad het model als een UDF-functie. Een door de gebruiker gedefinieerde functie (UDF) is een functie die door een gebruiker is gedefinieerd, zodat aangepaste logica opnieuw kan worden gebruikt in de gebruikersomgeving.
```
predict_function = mlflow.pyfunc.spark_udf(spark, model_uri, result_type='double') 
```
Tip

Gebruik het argument result_type om het type te bepalen dat door de predict() functie wordt geretourneerd.
Lees de gegevens die u wilt scoren:
```
df = spark.read.option("header", "true").option("inferSchema", "true").csv(input_data_path).drop("target")
```
In ons geval hebben de invoergegevens de CSV indeling en worden ze in de map dbfs:/data/geplaatst. We verwijderen ook de kolom target omdat deze gegevensset de doelvariabele bevat die moet worden voorspeld. In productiescenario's hebben uw gegevens deze kolom niet.
Voer de functie predict_function uit en plaats de voorspellingen op een nieuwe kolom. In dit geval plaatsen we de voorspellingen in de kolom predictions.
```
df.withColumn("predictions", score_function(*df.columns))
```
Tip

De predict_function kolommen worden als argumenten ontvangen. In ons geval worden alle kolommen van het gegevensframe verwacht door het model en daarom df.columns gebruikt. Als voor uw model een subset van de kolommen is vereist, kunt u ze handmatig introduceren. Als u een handtekening hebt, moeten typen compatibel zijn tussen invoer en verwachte typen.

U kunt uw voorspellingen terugschrijven naar de opslag:

scored_data_path = "dbfs:/scored-data"
scored_data.to_csv(scored_data_path)

Het model uitvoeren in een zelfstandige Spark-taak in Azure Machine Learning

Azure Machine Learning biedt ondersteuning voor het maken van een zelfstandige Spark-taak en het maken van een herbruikbaar Spark-onderdeel dat kan worden gebruikt in Azure Machine Learning-pijplijnen. In dit voorbeeld implementeren we een scoretaak die wordt uitgevoerd in een zelfstandige Spark-taak van Azure Machine Learning en wordt een MLflow-model uitgevoerd om deductie uit te voeren.

Notitie

Zie Spark-taken verzenden in Azure Machine Learning (preview) voor meer informatie over Spark-taken in Azure Machine Learning.

Voor een Spark-taak is een Python-script vereist dat argumenten gebruikt. Een scorescript maken:

score.py
```
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("--model")
parser.add_argument("--input_data")
parser.add_argument("--scored_data")

args = parser.parse_args()
print(args.model)
print(args.input_data)

# Load the model as an UDF function
predict_function = mlflow.pyfunc.spark_udf(spark, args.model, env_manager="conda")

# Read the data you want to score
df = spark.read.option("header", "true").option("inferSchema", "true").csv(input_data).drop("target")

# Run the function `predict_function` and place the predictions on a new column
scored_data = df.withColumn("predictions", score_function(*df.columns))

# Save the predictions
scored_data.to_csv(args.scored_data)
```
Het bovenstaande script heeft drie argumenten --model, --input_data en --scored_data. De eerste twee zijn invoer en vertegenwoordigen het model dat we willen uitvoeren en de invoergegevens, de laatste is een uitvoer en het is de uitvoermap waarin voorspellingen worden geplaatst.

Tip

Installatie van Python-pakketten: het vorige scorescript laadt het MLflow-model in een UDF-functie, maar geeft de parameter env_manager="conda"aan. Wanneer deze parameter is ingesteld, worden de vereiste pakketten hersteld zoals opgegeven in de modeldefinitie in een geïsoleerde omgeving waar alleen de UDF-functie wordt uitgevoerd. Zie de documentatie voor meer informatie mlflow.pyfunc.spark_udf .

Een taakdefinitie maken:

mlflow-score-spark-job.yml

$schema: http://azureml/sdk-2-0/SparkJob.json
type: spark

code: ./src
entry:
  file: score.py

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.executor.instances: 2

inputs:
  model:
    type: mlflow_model
    path: azureml:heart-classifier@latest
  input_data:
    type: uri_file
    path: https://azuremlexampledata.blob.core.windows.net/data/heart-disease-uci/data/heart.csv
    mode: direct

outputs:
  scored_data:
    type: uri_folder

args: >-
  --model ${{inputs.model}}
  --input_data ${{inputs.input_data}}
  --scored_data ${{outputs.scored_data}}

identity:
  type: user_identity

resources:
  instance_type: standard_e4s_v3
  runtime_version: "3.2"

Tip

Als u een gekoppelde Synapse Spark-pool wilt gebruiken, definieert u compute de eigenschap in het voorbeeldbestand van de YAML-specificatie dat hierboven wordt weergegeven in plaats van resources de eigenschap.

De YAML-bestanden die hierboven worden weergegeven, kunnen worden gebruikt in de az ml job create opdracht, met de --file parameter, om een zelfstandige Spark-taak te maken, zoals wordt weergegeven:
```
az ml job create -f mlflow-score-spark-job.yml
```

Delen via