Развертывание языковых моделей в пакетных конечных точках

Статья
09/02/2024

ОБЛАСТЬ ПРИМЕНЕНИЯ:Расширение машинного обучения Azure CLI версии 2 (current)Python SDK azure-ai-ml версии 2 (current)

Конечные точки пакетной службы можно использовать для развертывания дорогостоящих моделей, таких как языковые модели, по текстовым данным. В этом руководстве вы узнаете, как развернуть модель, которая может выполнять сводку текста длинных последовательностей текста с помощью модели из HuggingFace. В нем также показано, как выполнять оптимизацию вывода с помощью HuggingFace optimum и accelerate библиотек.

Об этом примере

Модель, с которыми мы будем работать, была создана с использованием популярных преобразователей библиотеки из HuggingFace вместе с предварительно обученной моделью из Facebook с архитектурой BART. Она была представлена в документе BART: отмена предварительного обучения последовательности и последовательности для создания естественного языка. Эта модель имеет следующие ограничения, которые важно учитывать при развертывании:

Он может работать с последовательности до 1024 токенов.
Он обучен для суммирования текста на английском языке.
Мы будем использовать Факел в качестве серверной части.

Пример в этой статье основан на примерах кода, содержащихся в репозитории azureml-examples . Чтобы выполнять команды локально, не копируя и вставляя YAML и другие файлы, используйте следующие команды, чтобы клонировать репозиторий и перейти в папку для языка программирования:

Azure CLI
Python

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/cli

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/sdk/python

Файлы для этого примера находятся в следующих файлах:

cd endpoints/batch/deploy-models/huggingface-text-summarization

Следуйте инструкциям в Jupyter Notebooks

Вы можете следовать этому примеру в Jupyter Notebook. В клонируемом репозитории откройте записную книжку: text-summarization-batch.ipynb.

Необходимые компоненты

Подписка Azure. Если у вас еще нет подписки Azure, создайте бесплатную учетную запись, прежде чем начинать работу.
Рабочая область Машинного обучения Azure. Сведения о создании рабочей области см. в разделе "Управление Машинное обучение Azure рабочих областей".
Следующие разрешения в рабочей области Машинное обучение Azure:
- Для создания конечных точек и развертываний пакетной службы или управления ими используйте роль владельца, участника или настраиваемую роль, назначаемую Microsoft.MachineLearningServices/workspaces/batchEndpoints/* разрешениями.
- Для создания развертываний Azure Resource Manager в группе ресурсов рабочей области: используйте владельца, участника или настраиваемую роль, Microsoft.Resources/deployments/write назначаемую разрешением в группе ресурсов, в которой развернута рабочая область.
Интерфейс командной строки Машинное обучение Azure или пакет SDK Машинное обучение Azure для Python:
- Azure CLI
- Python
Выполните следующую команду, чтобы установить Azure CLI и mlрасширение для Машинное обучение Azure:
```
az extension add -n ml
```
Развертывания компонентов конвейера для конечных точек пакетной службы представлены в версии 2.7 ml расширения для Azure CLI. az extension update --name ml Используйте команду, чтобы получить последнюю версию.
Выполните следующую команду, чтобы установить пакет SDK Машинное обучение Azure для Python:
```
pip install azure-ai-ml
```
PipelineComponentBatchDeployment Классы ModelBatchDeployment представлены в пакете SDK версии 1.7.0. pip install -U azure-ai-ml Используйте команду, чтобы получить последнюю версию.

Подключение к рабочей области

Рабочая область — это ресурс верхнего уровня для Машинного обучения Azure. Он предоставляет централизованное место для работы со всеми артефактами, создаваемыми при использовании Машинное обучение Azure. В этом разделе описано, как подключиться к рабочей области, в которой выполняются задачи развертывания.

Azure CLI
Python

В следующей команде введите идентификатор подписки, имя рабочей области, имя группы ресурсов и расположение:

az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>

Импортируйте необходимые библиотеки:

from azure.ai.ml import MLClient, Input, load_component
from azure.ai.ml.entities import BatchEndpoint, ModelBatchDeployment, ModelBatchDeploymentSettings, PipelineComponentBatchDeployment, Model, AmlCompute, Data, BatchRetrySettings, CodeConfiguration, Environment, Data
from azure.ai.ml.constants import AssetTypes, BatchDeploymentOutputAction
from azure.ai.ml.dsl import pipeline
from azure.identity import DefaultAzureCredential

Настройте сведения о рабочей области и получите дескриптор для рабочей области:

В следующей команде введите идентификатор подписки, имя группы ресурсов и имя рабочей области:
```
subscription_id = "<subscription>"
resource_group = "<resource-group>"
workspace = "<workspace>"

ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace)
```

Регистрация модели

Из-за размера модели он не был включен в этот репозиторий. Вместо этого можно скачать копию из центра модели HuggingFace. Вам нужны пакеты transformers и torch установленные в среде, которую вы используете.

%pip install transformers torch

Используйте следующий код, чтобы скачать модель в папку model:

from transformers import pipeline

model = pipeline("summarization", model="facebook/bart-large-cnn")
model_local_path = 'model'
summarizer.save_pretrained(model_local_path)

Теперь эту модель можно зарегистрировать в реестре Машинное обучение Azure:

Azure CLI
Python

MODEL_NAME='bart-text-summarization'
az ml model create --name $MODEL_NAME --path "model"

model_name = 'bart-text-summarization'
model = ml_client.models.create_or_update(
    Model(name=model_name, path='model', type=AssetTypes.CUSTOM_MODEL)
)

Создание конечной точки

Мы создадим пакетную конечную точку с именем text-summarization-batch , в которой будет развернута модель HuggingFace для выполнения сводных данных по текстовым файлам на английском языке.

Определите имя конечной точки. Имя конечной точки заканчивается в URI, связанном с конечной точкой. Из-за этого имена конечных точек пакетной службы должны быть уникальными в пределах региона Azure. Например, в ней может быть только одна конечная точка пакетной службы с именем mybatchendpointwestus2.
- Azure CLI
- Python
В этом случае давайте поместим имя конечной точки в переменную, чтобы можно было легко ссылаться на нее позже.
```
ENDPOINT_NAME="text-summarization-batch"
```
В этом случае давайте поместим имя конечной точки в переменную, чтобы можно было легко ссылаться на нее позже.
```
endpoint_name="text-summarization-batch"
```

Настройка конечной точки пакетной службы

Azure CLI
Python

Следующий ФАЙЛ YAML определяет конечную точку пакетной службы:

endpoint.yml

$schema: https://azuremlschemas.azureedge.net/latest/batchEndpoint.schema.json
name: text-summarization-batch
description: A batch endpoint for summarizing text using a HuggingFace transformer model.
auth_mode: aad_token

endpoint = BatchEndpoint(
    name=endpoint_name,
    description="A batch endpoint for summarizing text using a HuggingFace transformer model.",
)

Создание конечной точки:

Azure CLI
Python

az ml batch-endpoint create --file endpoint.yml  --name $ENDPOINT_NAME

ml_client.batch_endpoints.begin_create_or_update(endpoint)

Создание развертывания

Создадим развертывание, на котором размещена модель:

Нам нужно создать скрипт оценки, который может считывать CSV-файлы, предоставляемые пакетным развертыванием, и возвращать оценки модели с сводкой. Следующий скрипт выполняет следующие действия:
- Указывает init функцию, которая обнаруживает конфигурацию оборудования (ЦП и GPU) и загружает модель соответствующим образом. Модель и маркеризатор загружаются в глобальные переменные. Мы не используем pipeline объект из HuggingFace для учета ограничения последовательности lenghs модели, используемой в настоящее время.
- Обратите внимание, что мы выполняем оптимизацию моделей для повышения производительности использования optimum и accelerate библиотек. Если модель или оборудование не поддерживает ее, мы будем запускать развертывание без такой оптимизации.
- Указывает функцию, выполняемую run для каждого мини-пакета, которую предоставляет пакетное развертывание.
- Функция run считывает весь пакет с помощью библиотеки datasets . Текст, который нужно свести к сводные данные, находится в столбце text.
- Метод run выполняет итерацию по каждой строке текста и выполняет прогноз. Так как это очень дорогая модель, выполнение прогноза по всем файлам приведет к исключению из памяти. Обратите внимание, что модель не выполняется с pipeline объектом из transformers. Это делается для учета длинных последовательностей текста и ограничения 1024 маркеров в базовой модели, используемой нами.
- Он возвращает сводку предоставленного текста.
код/batch_driver.py
```
import os
import time
import torch
import subprocess
import mlflow
from pprint import pprint
from transformers import AutoTokenizer, BartForConditionalGeneration
from optimum.bettertransformer import BetterTransformer
from datasets import load_dataset


def init():
    global model
    global tokenizer
    global device

    cuda_available = torch.cuda.is_available()
    device = "cuda" if cuda_available else "cpu"

    if cuda_available:
        print(f"[INFO] CUDA version: {torch.version.cuda}")
        print(f"[INFO] ID of current CUDA device: {torch.cuda.current_device()}")
        print("[INFO] nvidia-smi output:")
        pprint(
            subprocess.run(["nvidia-smi"], stdout=subprocess.PIPE).stdout.decode(
                "utf-8"
            )
        )
    else:
        print(
            "[WARN] CUDA acceleration is not available. This model takes hours to run on medium size data."
        )

    # AZUREML_MODEL_DIR is an environment variable created during deployment
    model_path = os.path.join(os.environ["AZUREML_MODEL_DIR"], "model")

    # load the tokenizer
    tokenizer = AutoTokenizer.from_pretrained(
        model_path, truncation=True, max_length=1024
    )

    # Load the model
    try:
        model = BartForConditionalGeneration.from_pretrained(
            model_path, device_map="auto"
        )
    except Exception as e:
        print(
            f"[ERROR] Error happened when loading the model on GPU or the default device. Error: {e}"
        )
        print("[INFO] Trying on CPU.")
        model = BartForConditionalGeneration.from_pretrained(model_path)
        device = "cpu"

    # Optimize the model
    if device != "cpu":
        try:
            model = BetterTransformer.transform(model, keep_original_model=False)
            print("[INFO] BetterTransformer loaded.")
        except Exception as e:
            print(
                f"[ERROR] Error when converting to BetterTransformer. An unoptimized version of the model will be used.\n\t> {e}"
            )

    mlflow.log_param("device", device)
    mlflow.log_param("model", type(model).__name__)


def run(mini_batch):
    resultList = []

    print(f"[INFO] Reading new mini-batch of {len(mini_batch)} file(s).")
    ds = load_dataset("csv", data_files={"score": mini_batch})

    start_time = time.perf_counter()
    for idx, text in enumerate(ds["score"]["text"]):
        # perform inference
        inputs = tokenizer.batch_encode_plus(
            [text], truncation=True, padding=True, max_length=1024, return_tensors="pt"
        )
        input_ids = inputs["input_ids"].to(device)
        summary_ids = model.generate(
            input_ids, max_length=130, min_length=30, do_sample=False
        )
        summaries = tokenizer.batch_decode(
            summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
        )

        # Get results:
        resultList.append(summaries[0])
        rps = idx / (time.perf_counter() - start_time + 00000.1)
        print("Rows per second:", rps)

    mlflow.log_metric("rows_per_second", rps)
    return resultList
```
Совет

Хотя файлы предоставляются в мини-пакетах развертывания, этот скрипт оценки обрабатывает одну строку за раз. Это распространенный шаблон при работе с дорогостоящими моделями (например, преобразователями), так как попытка загрузить весь пакет и отправить его в модель одновременно может привести к высокой нагрузке на пакетный исполнитель (OOM exeptions).
Нам нужно указать, в какой среде мы будем запускать развертывание. В нашем случае наша модель выполняется Torch и требует transformersбиблиотек, accelerateа также optimum от HuggingFace. Машинное обучение Azure уже имеет среду с поддержкой Torch и GPU. Мы просто добавим пару зависимостей в conda.yaml файл.

environment/torch200-conda.yaml
```
name: huggingface-env
channels:
  - conda-forge
dependencies:
  - python=3.8.5
  - pip
  - pip:
    - torch==2.0
    - transformers
    - accelerate
    - optimum
    - datasets
    - mlflow
    - azureml-mlflow
    - azureml-core
    - azureml-dataset-runtime[fuse]
```
Мы можем использовать файл conda, упомянутый выше, как показано ниже.
- Azure CLI
- Python
Определение среды включается в файл развертывания.

deployment.yml
```
compute: azureml:gpu-cluster
environment:
  name: torch200-transformers-gpu
  image: mcr.microsoft.com/azureml/openmpi4.1.0-cuda11.8-cudnn8-ubuntu22.04:latest
```
Давайте получите ссылку на среду:
```
environment = Environment(
    name="torch200-transformers-gpu",
    conda_file="environment/torch200-conda.yaml",
    image="mcr.microsoft.com/azureml/openmpi4.1.0-cuda11.8-cudnn8-ubuntu22.04:latest",
)
```
Внимание

Для созданной среды torch200-transformers-gpu требуется устройство, совместимое с CUDA 11.8, для запуска Torch 2.0 и Ubuntu 20.04. Если устройство GPU не поддерживает эту версию CUDA, можно проверить альтернативную torch113-conda.yaml среду conda (также доступной в репозитории), которая запускает Torch 1.3 в Ubuntu 18.04 с CUDA 10.1. Однако ускорение с помощью optimumaccelerate библиотек не будет поддерживаться в этой конфигурации.
Каждое развертывание выполняется в вычислительных кластерах. Они поддерживают оба кластера Машинное обучение Azure вычислительных кластеров (AmlCompute) или Кластеры Kubernetes. В этом примере наша модель может воспользоваться ускорением GPU, поэтому мы используем кластер GPU.
- Azure CLI
- Python
```
az ml compute create -n gpu-cluster --type amlcompute --size STANDARD_NV6 --min-instances 0 --max-instances 2
```
```
compute_name = "gpu-cluster"
compute_cluster = AmlCompute(
    name=compute_name,
    description="GPU cluster compute",
    size="Standard_NV6",
    min_instances=0,
    max_instances=2,
)
ml_client.begin_create_or_update(compute_cluster)
```
Примечание.

Плата за вычислительные ресурсы на этом этапе не взимается, так как кластер остается на 0 узлах до вызова конечной точки пакетной службы и отправки задания пакетной оценки. Узнайте больше об управлении и оптимизации затрат для AmlCompute.
Теперь создадим развертывание.
- Azure CLI
- Python
Чтобы создать развертывание в созданной конечной точке, создайте YAML конфигурацию, как показано ниже. Вы можете проверить схему YAML полной пакетной конечной точки для получения дополнительных свойств.

deployment.yml
```
$schema: https://azuremlschemas.azureedge.net/latest/modelBatchDeployment.schema.json
endpoint_name: text-summarization-batch
name: text-summarization-optimum
description: A text summarization deployment implemented with HuggingFace and BART architecture with GPU optimization using Optimum.
type: model
model: azureml:bart-text-summarization@latest
compute: azureml:gpu-cluster
environment:
  name: torch200-transformers-gpu
  image: mcr.microsoft.com/azureml/openmpi4.1.0-cuda11.8-cudnn8-ubuntu22.04:latest
  conda_file: environment/torch200-conda.yaml
code_configuration:
  code: code
  scoring_script: batch_driver.py
resources:
  instance_count: 2
settings:
  max_concurrency_per_instance: 1
  mini_batch_size: 1
  output_action: append_row
  output_file_name: predictions.csv
  retry_settings:
    max_retries: 1
    timeout: 3000
  error_threshold: -1
  logging_level: info
```
Затем создайте развертывание с помощью следующей команды:
```
az ml batch-deployment create --file deployment.yml --endpoint-name $ENDPOINT_NAME --set-default
```
Чтобы создать новое развертывание с указанной средой и скриптом оценки, используйте следующий код:
```
deployment = BatchDeployment(
    name="text-summarization-hfbart",
    description="A text summarization deployment implemented with HuggingFace and BART architecture",
    endpoint_name=endpoint.name,
    model=model,
    environment=environment,
    code_configuration=CodeConfiguration(
        code="code",
        scoring_script="batch_driver.py",
    ),
    compute=compute_name,
    instance_count=2,
    max_concurrency_per_instance=1,
    mini_batch_size=1,
    output_action=BatchDeploymentOutputAction.APPEND_ROW,
    output_file_name="predictions.csv",
    retry_settings=BatchRetrySettings(max_retries=3, timeout=3000),
    logging_level="info",
)
```
Затем создайте развертывание с помощью следующей команды:
```
ml_client.batch_deployments.begin_create_or_update(deployment)
```
Внимание

В этом развертывании вы заметите большое значение в timeout параметре retry_settings. Причина этого обусловлена характером выполняемой модели. Это очень дорогая модель и вывод по одной строке может занять до 60 секунд. Параметры timeout управляют временем, сколько времени пакетное развертывание должно ожидать завершения обработки каждого мини-пакета скрипта оценки. Так как наша модель выполняет прогнозы по строкам, обработка длинного файла может занять некоторое время. Кроме того, обратите внимание, что для каждого пакета задано значение 1 (mini_batch_size=1). Это снова связано с характером выполняемой работы. Обработка одного файла за один пакет достаточно дорого, чтобы оправдать его. Вы заметите, что это шаблон в обработке NLP.
Хотя вы можете вызвать определенное развертывание внутри конечной точки, обычно требуется вызвать саму конечную точку и разрешить конечной точке решить, какое развертывание следует использовать. Такое развертывание называется развертыванием по умолчанию. Это дает возможность изменять развертывание по умолчанию и, следовательно, изменять модель, обслуживающую развертывание, без изменения контракта с пользователем, вызывающим конечную точку. Чтобы обновить развертывание по умолчанию, используйте следующую инструкцию:
- Azure CLI
- Python
```
DEPLOYMENT_NAME="text-summarization-hfbart"
az ml batch-endpoint update --name $ENDPOINT_NAME --set defaults.deployment_name=$DEPLOYMENT_NAME
```
```
endpoint.defaults.deployment_name = deployment.name
ml_client.batch_endpoints.begin_create_or_update(endpoint)
```
На этом этапе наша конечная точка пакетной службы готова к использованию.

Тестирование развертывания

Для тестирования нашей конечной точки мы будем использовать пример набора данных BillSum: Корпус для автоматической сводки законодательства США. Этот пример включен в репозиторий в папку data. Обратите внимание, что формат данных — CSV, и содержимое, которое нужно свести в столбец text, как ожидается, моделью.

Давайте вызовем конечную точку:
- Azure CLI
- Python
```
JOB_NAME=$(az ml batch-endpoint invoke --name $ENDPOINT_NAME --input data --input-type uri_folder --query name -o tsv)
```
Примечание.

jq Программа не может быть установлена во всех установках. Вы можете получить инструкции по этой ссылке.
Совет

Какова разница между inputs параметром и input параметром при вызове конечной точки?

Как правило, можно использовать параметр словаря inputs = {} с invoke методом для предоставления произвольного количества необходимых входных данных конечной точке пакетной службы, содержащей развертывание модели или развертывание конвейера.

Для развертывания модели можно использовать input параметр в качестве более короткого способа указать расположение входных данных для развертывания. Этот подход работает, так как развертывание модели всегда принимает только один вход данных.
```
input = Input(type=AssetTypes.URI_FOLDER, path="data")
job = ml_client.batch_endpoints.invoke(
   endpoint_name=endpoint.name,
   input=input,
)
```
Совет

Обратите внимание, что, указывая локальный путь в качестве входных данных, данные передаются в учетную запись хранения Машинное обучение Azure по умолчанию.
Пакетное задание запускается сразу после возврата команды. Вы можете отслеживать состояние задания, пока оно не завершится:
- Azure CLI
- Python
```
az ml job show -n $JOB_NAME --web
```
```
ml_client.jobs.get(job.name)
```
После завершения развертывания можно скачать прогнозы:
- Azure CLI
- Python
Чтобы скачать прогнозы, используйте следующую команду:
```
az ml job download --name $JOB_NAME --output-name score --download-path .
```
```
ml_client.jobs.download(name=job.name, output_name='score', download_path='./')
```

Поделиться через

Развертывание языковых моделей в пакетных конечных точках

Об этом примере

Следуйте инструкциям в Jupyter Notebooks

Необходимые компоненты

Подключение к рабочей области

Регистрация модели

Создание конечной точки

Создание развертывания

Тестирование развертывания

Рекомендации при развертывании моделей, обрабатывающих текст

Рекомендации по модели MLflow, обрабатывающие текст

Обратная связь

Дополнительные ресурсы