Настройка выходных данных в пакетных развертываниях

Статья
09/02/2024

ОБЛАСТЬ ПРИМЕНЕНИЯ:Расширение машинного обучения Azure CLI версии 2 (current)Python SDK azure-ai-ml версии 2 (current)

В этом руководстве объясняется, как создавать развертывания, которые создают пользовательские выходные данные и файлы. Иногда требуется более контроль над тем, что записывается в виде выходных данных из заданий вывода пакетной службы. К этим случаям относятся следующие ситуации:

Необходимо управлять записью прогнозов в выходных данных. Например, необходимо добавить прогноз к исходным данным, если данные табличные.
Вам нужно написать прогнозы в другом формате файла, отличном от того, который поддерживается в пакетном развертывании.
Модель — это созданная модель, которая не может записывать выходные данные в табличном формате. Например, модели, которые создают изображения в виде выходных данных.
Модель создает несколько табличных файлов вместо одного. Например, модели, выполняющие прогнозирование, учитывая несколько сценариев.

Пакетные развертывания позволяют контролировать выходные данные заданий, позволяя записывать данные непосредственно в выходные данные задания пакетного развертывания. В этом руководстве вы узнаете, как развернуть модель для выполнения пакетного вывода и записать выходные данные в формате parquet , добавив прогнозы к исходным входным данным.

Об этом примере

В этом примере показано, как развернуть модель для выполнения пакетного вывода и настроить способ записи прогнозов в выходные данные. Модель основана на наборе данных болезни сердца UCI. База данных содержит 76 атрибутов, но в этом примере используется подмножество из 14 из них. Модель пытается предсказать наличие сердечно-сосудистых заболеваний у пациента. Целочисленное значение от 0 (нет присутствия) до 1 (присутствие).

Модель была обучена с помощью XGBBoost классификатора, и все необходимые предварительной обработки были упаковированы в виде scikit-learn конвейера, что делает эту модель сквозным конвейером, который переходит от необработанных данных к прогнозам.

Пример в этой статье основан на примерах кода, содержащихся в репозитории azureml-examples . Чтобы выполнять команды локально, не копируя и вставляя YAML и другие файлы, используйте следующие команды, чтобы клонировать репозиторий и перейти в папку для языка программирования:

Azure CLI
Python

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/cli

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/sdk/python

Файлы для этого примера находятся в следующих файлах:

cd endpoints/batch/deploy-models/custom-outputs-parquet

Следуйте инструкциям в записной книжке Jupyter

Существует записная книжка Jupyter, которую можно использовать для выполнения этого примера. В клонированного репозитория откройте записную книжку с именем custom-output-batch.ipynb.

Необходимые компоненты

Подписка Azure. Если у вас еще нет подписки Azure, создайте бесплатную учетную запись, прежде чем начинать работу.
Рабочая область Машинного обучения Azure. Сведения о создании рабочей области см. в разделе "Управление Машинное обучение Azure рабочих областей".
Следующие разрешения в рабочей области Машинное обучение Azure:
- Для создания конечных точек и развертываний пакетной службы или управления ими используйте роль владельца, участника или настраиваемую роль, назначаемую Microsoft.MachineLearningServices/workspaces/batchEndpoints/* разрешениями.
- Для создания развертываний Azure Resource Manager в группе ресурсов рабочей области: используйте владельца, участника или настраиваемую роль, Microsoft.Resources/deployments/write назначаемую разрешением в группе ресурсов, в которой развернута рабочая область.
Интерфейс командной строки Машинное обучение Azure или пакет SDK Машинное обучение Azure для Python:
- Azure CLI
- Python
Выполните следующую команду, чтобы установить Azure CLI и mlрасширение для Машинное обучение Azure:
```
az extension add -n ml
```
Развертывания компонентов конвейера для конечных точек пакетной службы представлены в версии 2.7 ml расширения для Azure CLI. az extension update --name ml Используйте команду, чтобы получить последнюю версию.
Выполните следующую команду, чтобы установить пакет SDK Машинное обучение Azure для Python:
```
pip install azure-ai-ml
```
PipelineComponentBatchDeployment Классы ModelBatchDeployment представлены в пакете SDK версии 1.7.0. pip install -U azure-ai-ml Используйте команду, чтобы получить последнюю версию.

Подключение к рабочей области

Рабочая область — это ресурс верхнего уровня для Машинного обучения Azure. Он предоставляет централизованное место для работы со всеми артефактами, создаваемыми при использовании Машинное обучение Azure. В этом разделе описано, как подключиться к рабочей области, в которой выполняются задачи развертывания.

Azure CLI
Python

В следующей команде введите идентификатор подписки, имя рабочей области, имя группы ресурсов и расположение:

az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>

Импортируйте необходимые библиотеки:

from azure.ai.ml import MLClient, Input, load_component
from azure.ai.ml.entities import BatchEndpoint, ModelBatchDeployment, ModelBatchDeploymentSettings, PipelineComponentBatchDeployment, Model, AmlCompute, Data, BatchRetrySettings, CodeConfiguration, Environment, Data
from azure.ai.ml.constants import AssetTypes, BatchDeploymentOutputAction
from azure.ai.ml.dsl import pipeline
from azure.identity import DefaultAzureCredential

Настройте сведения о рабочей области и получите дескриптор для рабочей области:

В следующей команде введите идентификатор подписки, имя группы ресурсов и имя рабочей области:
```
subscription_id = "<subscription>"
resource_group = "<resource-group>"
workspace = "<workspace>"

ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace)
```

Создание пакетного развертывания с пользовательскими выходными данными

В этом примере создается развертывание, которое может записывать непосредственно в выходную папку задания пакетного развертывания. Развертывание использует эту функцию для записи пользовательских файлов Parquet.

Регистрация модели.

Можно развертывать только зарегистрированные модели с помощью пакетной конечной точки. В этом случае у вас уже есть локальная копия модели в репозитории, поэтому необходимо опубликовать модель только в реестре в рабочей области. Этот шаг можно пропустить, если модель, которую вы пытаетесь развернуть, уже зарегистрирована.

Azure CLI
Python

MODEL_NAME='heart-classifier-sklpipe'
az ml model create --name $MODEL_NAME --type "custom_model" --path "model"

model_name = "heart-classifier-sklpipe"
model_description = "A heart condition classifier trained with XGBoosts and Scikit-Learn for feature processing."
model_local_path = "model"

model = ml_client.models.create_or_update(
    Model(
        name=model_name,
        path=model_local_path,
        type=AssetTypes.CUSTOM_MODEL,
        tags={"framework": "scikit-learn", "estimator": "xgboost"},
    )
)

Создание сценария оценки

Необходимо создать скрипт оценки, который может считывать входные данные, предоставляемые пакетным развертыванием, и возвращать оценки модели. Вы также собираетесь записать непосредственно в выходную папку задания. В итоге предлагаемый сценарий оценки выполняется следующим образом:

Считывает входные данные в виде CSV-файлов.
Выполняет функцию модели predict MLflow по входным данным.
Добавляет прогнозы pandas.DataFrame наряду с входными данными.
Записывает данные в файл с именем входного файла, но в parquet формате.

код/batch_driver.py

import os
import pickle
import glob
import pandas as pd
from pathlib import Path
from typing import List


def init():
    global model
    global output_path

    # AZUREML_MODEL_DIR is an environment variable created during deployment
    # It is the path to the model folder
    # Please provide your model's folder name if there's one:
    output_path = os.environ["AZUREML_BI_OUTPUT_PATH"]
    model_path = os.environ["AZUREML_MODEL_DIR"]
    model_file = glob.glob(f"{model_path}/*/*.pkl")[-1]

    with open(model_file, "rb") as file:
        model = pickle.load(file)


def run(mini_batch: List[str]):
    for file_path in mini_batch:
        data = pd.read_csv(file_path)
        pred = model.predict(data)

        data["prediction"] = pred

        output_file_name = Path(file_path).stem
        output_file_path = os.path.join(output_path, output_file_name + ".parquet")
        data.to_parquet(output_file_path)

    return mini_batch

Примечания:

Обратите внимание, как переменная AZUREML_BI_OUTPUT_PATH среды используется для получения доступа к выходному пути задания развертывания.
Функция init() заполняет глобальную переменную output_path , которая может использоваться позже для определения места записи.
Метод run возвращает список обработанных файлов. Для возврата list объекта или pandas.DataFrame объекта требуется run функция.

Предупреждение

Учитывайте, что все исполнители пакетной службы имеют доступ на запись к этому пути одновременно. Это означает, что необходимо учитывать параллелизм. В этом случае убедитесь, что каждый исполнитель записывает собственный файл с помощью входного имени файла в качестве имени выходной папки.

Создание конечной точки

Теперь вы создадите пакетную конечную точку с именем heart-classifier-batch , в которой развернута модель.

Определите имя конечной точки. Имя конечной точки отображается в URI, связанном с конечной точкой, поэтому имена пакетных конечных точек должны быть уникальными в пределах региона Azure. Например, в ней может быть только одна конечная точка пакетной службы с именем mybatchendpointwestus2.
- Azure CLI
- Python
В этом случае поместите имя конечной точки в переменную, чтобы можно было легко ссылаться на нее позже.
```
ENDPOINT_NAME="heart-classifier-custom"
```
В этом случае поместите имя конечной точки в переменную, чтобы можно было легко ссылаться на нее позже.
```
endpoint_name = "heart-classifier-custom"
```

Настройте конечную точку пакетной службы.

Azure CLI
Python

Следующий ФАЙЛ YAML определяет конечную точку пакетной службы:

endpoint.yml

$schema: https://azuremlschemas.azureedge.net/latest/batchEndpoint.schema.json
name: heart-classifier-batch
description: A heart condition classifier for batch inference
auth_mode: aad_token

endpoint = BatchEndpoint(
    name=endpoint_name,
    description="A heart condition classifier for batch inference",
)

Создание конечной точки:

Azure CLI
Python

az ml batch-endpoint create -n $ENDPOINT_NAME -f endpoint.yml

ml_client.batch_endpoints.begin_create_or_update(endpoint).result()

Создание развертывания

Выполните следующие действия, чтобы создать развертывание с помощью предыдущего скрипта оценки:

Сначала создайте среду, в которой можно выполнить скрипт оценки:
- Azure CLI
- Python
Для Машинное обучение Azure CLI не требуется дополнительный шаг. Определение среды включается в файл развертывания.
```
environment:
  name: batch-mlflow-xgboost
  image: mcr.microsoft.com/azureml/openmpi4.1.0-ubuntu20.04:latest
  conda_file: environment/conda.yaml
```
Получите ссылку на среду:
```
environment = Environment(
    name="batch-mlflow-xgboost",
    conda_file="environment/conda.yaml",
    image="mcr.microsoft.com/azureml/openmpi4.1.0-ubuntu20.04:latest",
)
```

Создайте развертывание. Обратите внимание, что output_action теперь задано значение SUMMARY_ONLY.

Примечание.

В этом примере предполагается, что у вас есть вычислительный кластер с именем batch-cluster. Измените это имя соответствующим образом.

Azure CLI
Python

Чтобы создать развертывание в созданной конечной точке, создайте конфигурацию YAML, как показано ниже. Вы можете проверить схему YAML полной пакетной конечной точки для получения дополнительных свойств.

$schema: https://azuremlschemas.azureedge.net/latest/modelBatchDeployment.schema.json
endpoint_name: heart-classifier-batch
name: classifier-xgboost-custom
description: A heart condition classifier based on XGBoost and Scikit-Learn pipelines that append predictions on parquet files.
type: model
model: azureml:heart-classifier-sklpipe@latest
environment:
  name: batch-mlflow-xgboost
  image: mcr.microsoft.com/azureml/openmpi4.1.0-ubuntu20.04:latest
  conda_file: environment/conda.yaml
code_configuration:
  code: code
  scoring_script: batch_driver.py
compute: azureml:batch-cluster
resources:
  instance_count: 2
settings:
  max_concurrency_per_instance: 2
  mini_batch_size: 2
  output_action: summary_only
  retry_settings:
    max_retries: 3
    timeout: 300
  error_threshold: -1
  logging_level: info

Затем создайте развертывание с помощью следующей команды:

az ml batch-deployment create --file deployment.yml --endpoint-name $ENDPOINT_NAME --set-default

Чтобы создать новое развертывание в созданной конечной точке, используйте следующий сценарий:

deployment = ModelBatchDeployment(
    name="classifier-xgboost-custom",
    description="A heart condition classifier based on XGBoost which writes outputs in parquet format.",
    endpoint_name=endpoint.name,
    model=model,
    environment=environment,
    code_configuration=CodeConfiguration(
        code="code",
        scoring_script="batch_driver.py",
    ),
    compute=compute_name,
    settings=ModelBatchDeploymentSettings(
        mini_batch_size=2,
        instance_count=2,
        max_concurrency_per_instance=2,
        output_action=BatchDeploymentOutputAction.SUMMARY_ONLY,
        retry_settings=BatchRetrySettings(max_retries=3, timeout=300),
        logging_level="info",
    ),
)

Затем создайте развертывание с помощью следующей команды:

ml_client.batch_deployments.begin_create_or_update(deployment).result()

На этом этапе наша конечная точка пакетной службы готова к использованию.

Тестирование развертывания

Чтобы протестировать конечную точку, используйте пример неназначенных данных, расположенных в этом репозитории, который можно использовать с моделью. Конечные точки пакетной службы могут обрабатывать только данные, расположенные в облаке и доступные из рабочей области Машинное обучение Azure. В этом примере вы отправляете его в хранилище данных Машинное обучение Azure. Вы создадите ресурс данных, который можно использовать для вызова конечной точки для оценки. Однако обратите внимание, что конечные точки пакетной службы принимают данные, которые можно разместить в нескольких типах расположений.

Вызов конечной точки с данными из учетной записи хранения:
- Azure CLI
- Python
```
JOB_NAME = $(az ml batch-endpoint invoke --name $ENDPOINT_NAME --input https://azuremlexampledata.blob.core.windows.net/data/heart-disease-uci/data --query name -o tsv)
```
Примечание.

jq Программа может не быть установлена во всех установках. Инструкции можно получить на сайте GitHub.
Совет

Какова разница между inputs параметром и input параметром при вызове конечной точки?

Как правило, можно использовать параметр словаря inputs = {} с invoke методом для предоставления произвольного количества необходимых входных данных конечной точке пакетной службы, содержащей развертывание модели или развертывание конвейера.

Для развертывания модели можно использовать input параметр в качестве более короткого способа указать расположение входных данных для развертывания. Этот подход работает, так как развертывание модели всегда принимает только один вход данных.

Настройте входные данные:
```
input = Input(
    type=AssetTypes.URI_FOLDER,
    path="https://azuremlexampledata.blob.core.windows.net/data/heart-disease-uci/data",
)
```
Создание задания:
```
job = ml_client.batch_endpoints.invoke(
    endpoint_name=endpoint.name, deployment_name=deployment.name, input=input
)
```
Пакетное задание запускается сразу после возврата команды. Вы можете отслеживать состояние задания, пока оно не завершится:
- Azure CLI
- Python
```
az ml job show -n $JOB_NAME --web
```
```
ml_client.jobs.get(job.name)
```

Анализ выходных данных

Задание создает именованные выходные данные, вызываемые score при размещении всех созданных файлов. Так как вы написали в каталог непосредственно, один файл на каждый входной файл, то вы можете ожидать, что и одно и то же количество файлов. В этом примере присвойте выходным файлам то же имя, что и входные данные, но у них есть расширение parquet.

Примечание.

Обратите внимание, что файл predictions.csv также включен в выходную папку. Этот файл содержит сводку обработанных файлов.

Результаты задания можно скачать с помощью имени задания:

Azure CLI
Python

Чтобы скачать прогнозы, используйте следующую команду:

az ml job download --name $JOB_NAME --output-name score --download-path ./

ml_client.jobs.download(name=scoring_job.name, download_path=".", output_name="score")

После скачивания файла его можно открыть с помощью избранного средства. В следующем примере прогнозы загружаются с помощью Pandas кадра данных.

import pandas as pd
import glob

output_files = glob.glob("named-outputs/score/*.parquet")
score = pd.concat((pd.read_parquet(f) for f in output_files))
score

Выходные данные выглядят следующим образом:

возраст	sex	...	thal	прогноз
63	1	...	fixed	0
67	1	...	Обычная	1
67	1	...	обратимый	0
37	1	...	Обычная	0

Выполните следующий код, чтобы удалить пакетную конечную точку и все базовые развертывания. Задания оценки пакетной службы не удаляются.

az ml batch-endpoint delete --name $ENDPOINT_NAME --yes

ml_client.batch_endpoints.begin_delete(endpoint_name).result()

Поделиться через

Настройка выходных данных в пакетных развертываниях

Об этом примере

Следуйте инструкциям в записной книжке Jupyter

Необходимые компоненты

Подключение к рабочей области

Создание пакетного развертывания с пользовательскими выходными данными

Регистрация модели.

Создание сценария оценки

Создание конечной точки

Создание развертывания

Тестирование развертывания

Анализ выходных данных

Очистка ресурсов

Обратная связь

Дополнительные ресурсы

Поделиться через

Настройка выходных данных в пакетных развертываниях

Об этом примере

Следуйте инструкциям в записной книжке Jupyter

Необходимые компоненты

Подключение к рабочей области

Создание пакетного развертывания с пользовательскими выходными данными

Регистрация модели.

Создание сценария оценки

Создание конечной точки

Создание развертывания

Тестирование развертывания

Анализ выходных данных

Очистка ресурсов

Связанный контент

Обратная связь

Дополнительные ресурсы