Distribuire processi di pipeline esistenti in endpoint batch

Articolo
10/16/2024

SI APPLICA A:Estensione ml dell'interfaccia della riga di comando di Azure v2 (corrente)Python SDK azure-ai-ml v2 (corrente)

Gli endpoint batch consentono di distribuire i componenti della pipeline, offrendo un modo pratico per rendere operative le pipeline in Azure Machine Learning. Gli endpoint batch accettano componenti della pipeline per la distribuzione. Tuttavia, se si dispone già di un processo della pipeline che viene eseguito correttamente, Azure Machine Learning può accettare tale processo come input per l'endpoint batch e creare automaticamente il componente della pipeline. In questo articolo, si apprenderà come usare il processo della pipeline esistente come input per la distribuzione batch.

Si apprenderà come:

Eseguire e creare il processo della pipeline da distribuire
Creare una distribuzione batch dal processo esistente
Testare la distribuzione

Informazioni su questo esempio

In questo esempio si distribuirà una pipeline costituita da un semplice processo di comando che stampi "hello world!". Anziché registrare il componente della pipeline prima della distribuzione, viene indicato un processo della pipeline esistente da usare per la distribuzione. Azure Machine Learning creerà quindi automaticamente il componente della pipeline e lo distribuirà come distribuzione di componenti della pipeline di endpoint batch.

L'esempio contenute in questo articolo si basa sugli esempi di codice contenuti nel repository azureml-examples. Per eseguire i comandi in locale senza dover copiare o incollare il file YAML e altri file, innanzitutto clonare il repository quindi cambiare le directory nella cartella:

Interfaccia della riga di comando di Azure
Python

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/cli

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/sdk/python

I file per questo esempio si trovano in:

cd endpoints/batch/deploy-pipelines/hello-batch

Prerequisiti

Una sottoscrizione di Azure. Se non si ha una sottoscrizione di Azure, creare un account gratuito prima di iniziare. Provare la versione gratuita o a pagamento di Azure Machine Learning.
Un'area di lavoro di Azure Machine Learning. Per creare un'area di lavoro, vedere Gestire le aree di lavoro di Azure Machine Learning.
Assicurarsi di disporre delle autorizzazioni seguenti nell'area di lavoro di Azure Machine Learning:
- Creare o gestire endpoint e distribuzioni batch: usare un ruolo di proprietario, collaboratore o personalizzato che consenta Microsoft.MachineLearningServices/workspaces/batchEndpoints/*.
- Creare distribuzioni di Azure Resource Manager nel gruppo di risorse dell'area di lavoro: usare un ruolo di Proprietario, Contributore o Personalizzato che consenta Microsoft.Resources/deployments/write nel gruppo di risorse in cui viene distribuita l'area di lavoro.
Installare il software seguente per usare Azure Machine Learning:
- Interfaccia della riga di comando di Azure
- Python
Eseguire il comando seguente per installare l'interfaccia della riga di comando di Azure e l'mlestensione per Azure Machine Learning:
```
az extension add -n ml
```
Le distribuzioni dei componenti della pipeline per gli endpoint batch sono state introdotte nella versione 2.7 dell'estensione ml per l'interfaccia della riga di comando di Azure. Usare il comando az extension update --name ml per ottenere la versione più recente.
Eseguire il comando seguente per installare Azure Machine Learning SDK per Python:
```
pip install azure-ai-ml
```
Le classi ModelBatchDeployment e PipelineComponentBatchDeployment vengono introdotte nella versione 1.7.0 dell'SDK. Usare il comando pip install -U azure-ai-ml per ottenere la versione più recente.

Connettersi all'area di lavoro

L'area di lavoro è la risorsa di primo livello per Machine Learning. Fornisce una posizione centralizzata per lavorare con tutti gli artefatti creati durante l'uso di Machine Learning. In questa sezione ci si connette all'area di lavoro in cui verranno eseguite le attività di distribuzione.

Interfaccia della riga di comando di Azure
Python

Immettere i valori per l'ID sottoscrizione, l'area di lavoro, la posizione e il gruppo di risorse nel codice seguente:

az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>

Importare le librerie necessarie:

from azure.ai.ml import MLClient, Input, load_component
from azure.ai.ml.entities import BatchEndpoint, ModelBatchDeployment, ModelBatchDeploymentSettings, PipelineComponentBatchDeployment, Model, AmlCompute, Data, BatchRetrySettings, CodeConfiguration, Environment, Data
from azure.ai.ml.constants import AssetTypes, BatchDeploymentOutputAction
from azure.ai.ml.dsl import pipeline
from azure.identity import DefaultAzureCredential

Configurare i dettagli dell'area di lavoro e ottenere un handle per l'area di lavoro:

Nel comando seguente, immettere i valori per ID sottoscrizione, area di lavoro e gruppo di risorse:

subscription_id = "<subscription>"
resource_group = "<resource-group>"
workspace = "<workspace>"

ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace)

Eseguire il processo della pipeline da distribuire

In questa sezione, si inizia eseguendo un processo della pipeline:

Interfaccia della riga di comando di Azure
Python

Il file pipeline-job.yml seguente contiene la configurazione per il processo della pipeline:

pipeline-job.yml

$schema: https://azuremlschemas.azureedge.net/latest/pipelineJob.schema.json
type: pipeline

experiment_name: hello-pipeline-batch
display_name: hello-pipeline-batch-job
description: This job demonstrates how to run the a pipeline component in a pipeline job. You can use this example to test a component in an standalone job before deploying it in an endpoint.

compute: batch-cluster
component: hello-component/hello.yml

Caricare il componente della pipeline e creare un'istanza:

hello_batch = load_component(source="hello-component/hello.yml")
pipeline_job = hello_batch()

Configurare ora alcune impostazioni di esecuzione per eseguire il test. Questo articolo presuppone che sia presente un cluster di calcolo denominato batch-cluster. È possibile sostituire il cluster con il nome dell'utente.

pipeline_job.settings.default_compute = "batch-cluster"
pipeline_job.settings.default_datastore = "workspaceblobstore"

Creare il processo della pipeline:

Interfaccia della riga di comando di Azure
Python

JOB_NAME=$(az ml job create -f pipeline-job.yml --query name -o tsv)

pipeline_job_run = ml_client.jobs.create_or_update(
    pipeline_job, experiment_name="hello-batch-pipeline"
)
pipeline_job_run

Creare un endpoint batch

Prima di distribuire il processo della pipeline, è necessario distribuire un endpoint batch per ospitare la distribuzione.

Specificare un nome per l'endpoint. Il nome di un endpoint batch deve essere univoco in ogni area poiché viene usato per costruire l'URI di chiamata. Per garantirne l'univocità, aggiungere tutti i caratteri finali al nome specificato nel codice seguente.
- Interfaccia della riga di comando di Azure
- Python
```
ENDPOINT_NAME="hello-batch"
```
```
endpoint_name="hello-batch"
```

Configurare l'endpoint:

Interfaccia della riga di comando di Azure
Python

Il file endpoint.yml contiene la configurazione dell'endpoint.

endpoint.yml

$schema: https://azuremlschemas.azureedge.net/latest/batchEndpoint.schema.json
name: hello-batch
description: A hello world endpoint for component deployments.
auth_mode: aad_token

endpoint = BatchEndpoint(
    name=endpoint_name,
    description="A hello world endpoint for component deployments",
)

Creare l'endpoint:

Interfaccia della riga di comando di Azure
Python

az ml batch-endpoint create --name $ENDPOINT_NAME  -f endpoint.yml

ml_client.batch_endpoints.begin_create_or_update(endpoint).result()

Eseguire una query sull'URI dell'endpoint:

Interfaccia della riga di comando di Azure
Python

az ml batch-endpoint show --name $ENDPOINT_NAME

endpoint = ml_client.batch_endpoints.get(name=endpoint_name)
print(endpoint)

Distribuire il processo della pipeline

Per distribuire il componente della pipeline, è necessario creare una distribuzione batch dal processo esistente.

È necessario indicare ad Azure Machine Learning il nome del processo da distribuire. In questo caso, il processo è indicato con la variabile seguente:
- Interfaccia della riga di comando di Azure
- Python
```
echo $JOB_NAME
```
```
print(job.name)
```

Configurare la distribuzione.

Interfaccia della riga di comando di Azure
Python

Il file deployment-from-job.yml contiene la configurazione della distribuzione. Si noti che viene usata la chiave job_definition anziché component per indicare che la distribuzione viene creata da un processo della pipeline:

deployment-from-job.yml

$schema: https://azuremlschemas.azureedge.net/latest/pipelineComponentBatchDeployment.schema.json
name: hello-batch-from-job
endpoint_name: hello-pipeline-batch
type: pipeline
job_definition: azureml:job_name_placeholder
settings:
    continue_on_step_failure: false
    default_compute: batch-cluster

Si noti ora come viene usata la proprietà job_definition anziché component:

deployment = PipelineComponentBatchDeployment(
    name="hello-batch-from-job",
    description="A hello world deployment with a single step. This deployment is created from a pipeline job.",
    endpoint_name=endpoint.name,
    job_definition=pipeline_job_run,
    settings={
        "default_compute": "batch-cluster",
        "continue_on_step_failure": False
    }
)

Suggerimento

Questa configurazione presuppone che sia presente un cluster di calcolo denominato batch-cluster. È possibile sostituire questo valore con il nome del cluster.

Creare la distribuzione:
- Interfaccia della riga di comando di Azure
- Python
Eseguire il codice seguente per creare una distribuzione batch nell'endpoint batch e impostarla come distribuzione predefinita.
```
az ml batch-deployment create --endpoint $ENDPOINT_NAME --set job_definition=azureml:$JOB_NAME -f deployment-from-job.yml
```
Suggerimento

Si noti l'uso di --set job_definition=azureml:$JOB_NAME. Poiché i nomi dei processi sono univoci, il comando --set viene usato qui per modificare il nome del processo quando viene eseguito nell'area di lavoro.
Questo comando avvia la creazione della distribuzione e restituisce una risposta di conferma mentre la creazione della distribuzione è ancora in corso.
```
ml_client.batch_deployments.begin_create_or_update(deployment).result()
```
Dopo la creazione, configurare questa nuova distribuzione come predefinita:
```
endpoint = ml_client.batch_endpoints.get(endpoint.name)
endpoint.defaults.deployment_name = deployment.name
ml_client.batch_endpoints.begin_create_or_update(endpoint).result()
```
La distribuzione è pronta per l'uso.

Testare la distribuzione

Dopo aver creato la distribuzione, questa è pronta per ricevere i processi. È possibile richiamare la distribuzione predefinita nel modo seguente:

Interfaccia della riga di comando di Azure
Python

JOB_NAME=$(az ml batch-endpoint invoke -n $ENDPOINT_NAME --query name -o tsv)

job = ml_client.batch_endpoints.invoke(
    endpoint_name=endpoint.name, 
)

È possibile monitorare lo stato di avanzamento del contenuto e trasmettere i log usando:

Interfaccia della riga di comando di Azure
Python

az ml job stream -n $JOB_NAME

ml_client.jobs.get(name=job.name)

Per attendere il completamento del processo, eseguire il codice seguente:

ml_client.jobs.stream(name=job.name)

Pulire le risorse

Al termine, eliminare le risorse associate dall'area di lavoro:

Interfaccia della riga di comando di Azure
Python

Eseguire il codice seguente per eliminare l'endpoint batch e la relativa distribuzione sottostante. --yes viene usato per confermare l'eliminazione.

az ml batch-endpoint delete -n $ENDPOINT_NAME --yes

Eliminare l'endpoint:

ml_client.batch_endpoints.begin_delete(endpoint.name).result()

Condividi tramite