Obsługa wysokiej wydajności za pomocą serwera wnioskowania Triton

Artykuł
10/16/2024

DOTYCZY: Rozszerzenie interfejsu wiersza polecenia platformy Azure w wersji 2 (current)Zestaw PYTHON SDK azure-ai-ml v2 (bieżąca)

Dowiedz się, jak używać serwera NVIDIA Triton Inference Server w usłudze Azure Machine Learning z punktami końcowymi online.

Triton to wieloplatplatowe oprogramowanie typu open source zoptymalizowane pod kątem wnioskowania. Obsługuje ona popularne platformy uczenia maszynowego, takie jak TensorFlow, ONNX Runtime, PyTorch, NVIDIA TensorRT i inne. Może być używany na potrzeby obciążeń procesora CPU lub procesora GPU.

Istnieją głównie dwa podejścia, które można wykorzystać podczas wdrażania modeli Triton w punkcie końcowym online: wdrożenie bez kodu lub wdrożenie pełnego kodu (Bring your own container).

Wdrożenie bez kodu dla modeli Triton jest prostym sposobem ich wdrożenia, ponieważ wystarczy wdrożyć tylko modele Triton.
Wdrożenie pełnego kodu (Bring your own container) dla modeli Triton jest bardziej zaawansowanym sposobem ich wdrażania, ponieważ masz pełną kontrolę nad dostosowywaniem konfiguracji dostępnych dla serwera wnioskowania Triton.

W przypadku obu opcji serwer wnioskowania Triton będzie wykonywać wnioskowanie na podstawie modelu Triton zdefiniowanego przez firmę NVIDIA. Na przykład modele grupowe mogą być używane w bardziej zaawansowanych scenariuszach.

Triton jest obsługiwany zarówno w zarządzanych punktach końcowych online, jak i w punktach końcowych online platformy Kubernetes.

W tym artykule dowiesz się, jak wdrożyć model przy użyciu wdrożenia bez kodu dla tritona w zarządzanym punkcie końcowym online. Informacje są udostępniane przy użyciu interfejsu wiersza polecenia (wiersza polecenia), zestawu Python SDK w wersji 2 i usługi Azure Machine Learning Studio. Jeśli chcesz dostosować dalej bezpośrednio przy użyciu konfiguracji serwera wnioskowania Triton, zapoznaj się z tematem Używanie niestandardowego kontenera do wdrażania modelu i przykładu BYOC dla tritonu (definicja wdrożenia i skrypt end-to-end).

Uwaga

Korzystanie z kontenera serwera NVIDIA Triton Inference Server podlega umowie licencyjnej NVIDIA AI Enterprise Software i może być używane przez 90 dni bez subskrypcji produktu enterprise. Aby uzyskać więcej informacji, zobacz NVIDIA AI Enterprise w usłudze Azure Machine Learning.

Wymagania wstępne

Przed wykonaniem kroków opisanych w tym artykule upewnij się, że masz następujące wymagania wstępne:

Interfejs wiersza polecenia platformy ml Azure i rozszerzenie interfejsu wiersza polecenia platformy Azure. Aby uzyskać więcej informacji, zobacz Instalowanie, konfigurowanie i używanie interfejsu wiersza polecenia (wersja 2).

Ważne

W przykładach interfejsu wiersza polecenia w tym artykule założono, że używasz powłoki Bash (lub zgodnej). Na przykład z systemu Linux lub Podsystem Windows dla systemu Linux.
Obszar roboczy usługi Azure Machine Learning. Jeśli go nie masz, wykonaj kroki opisane w temacie Instalowanie, konfigurowanie i używanie interfejsu wiersza polecenia (wersja 2), aby go utworzyć.

Działające środowisko języka Python w wersji 3.8 (lub nowszej).
Aby oceniać, musisz mieć zainstalowane dodatkowe pakiety języka Python i zainstalować je przy użyciu poniższego kodu. To na przykład:
- Numpy — tablica i biblioteka obliczeniowa liczbowa
- Klient serwera wnioskowania Triton — ułatwia żądania do serwera wnioskowania Triton
- Pillow — biblioteka do obsługi obrazów
- Gevent — biblioteka sieci używana podczas nawiązywania połączenia z serwerem Triton

pip install numpy
pip install tritonclient[http]
pip install pillow
pip install gevent

Dostęp do maszyn wirtualnych serii NCv3 dla subskrypcji platformy Azure.

Ważne

Może być konieczne zażądanie zwiększenia limitu przydziału dla subskrypcji, zanim będzie można użyć tej serii maszyn wirtualnych. Aby uzyskać więcej informacji, zobacz seria NCv3.

Serwer wnioskowania NVIDIA Triton wymaga określonej struktury repozytorium modeli, w której istnieje katalog dla każdego modelu i podkatalogów dla wersji modelu. Zawartość każdego podkatalogu wersji modelu jest określana przez typ modelu i wymagania zaplecza obsługującego model. Aby wyświetlić całą strukturę repozytorium modeli https://github.com/triton-inference-server/server/blob/main/docs/user_guide/model_repository.md#model-files

Informacje przedstawione w tym dokumencie są oparte na użyciu modelu przechowywanego w formacie ONNX, więc struktura katalogów repozytorium modeli to <model-repository>/<model-name>/1/model.onnx. W szczególności ten model wykonuje identyfikację obrazu.

Informacje przedstawione w tym artykule są oparte na przykładach kodu zawartych w repozytorium azureml-examples . Aby uruchomić polecenia lokalnie bez konieczności kopiowania/wklejania kodu YAML i innych plików, sklonuj repozytorium, a następnie zmień katalogi na cli katalog w repozytorium:

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples
cd cli

Jeśli nie ustawiono jeszcze ustawień domyślnych dla interfejsu wiersza polecenia platformy Azure, zapisz ustawienia domyślne. Aby uniknąć wielokrotnego przekazywania wartości dla subskrypcji, obszaru roboczego i grupy zasobów, użyj następujących poleceń. Zastąp następujące parametry wartościami dla określonej konfiguracji:

Zamień wartość <subscription> na identyfikator swojej subskrypcji platformy Azure.
Zastąp <workspace> ciąg nazwą obszaru roboczego usługi Azure Machine Learning.
Zastąp element <resource-group> grupą zasobów platformy Azure zawierającą obszar roboczy.
Zastąp element <location> regionem platformy Azure zawierającym obszar roboczy.

Napiwek

Bieżące wartości domyślne można zobaczyć za pomocą az configure -l polecenia .

az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>

DOTYCZY: Zestaw PYTHON SDK azure-ai-ml w wersji 2 (bieżąca)

Przed wykonaniem kroków opisanych w tym artykule upewnij się, że masz następujące wymagania wstępne:

Obszar roboczy usługi Azure Machine Learning. Jeśli go nie masz, wykonaj kroki opisane w artykule Szybki start: tworzenie zasobów obszaru roboczego, aby je utworzyć.
Aby zainstalować zestaw PYTHON SDK w wersji 2, użyj następującego polecenia:
```
pip install azure-ai-ml azure-identity
```
Aby zaktualizować istniejącą instalację zestawu SDK do najnowszej wersji, użyj następującego polecenia:
```
pip install --upgrade azure-ai-ml azure-identity
```
Aby uzyskać więcej informacji, zobacz Instalowanie zestawu PYTHON SDK w wersji 2 dla usługi Azure Machine Learning.

Działające środowisko języka Python w wersji 3.8 (lub nowszej).
Aby oceniać, musisz mieć zainstalowane dodatkowe pakiety języka Python i zainstalować je przy użyciu poniższego kodu. To na przykład:
- Numpy — tablica i biblioteka obliczeniowa liczbowa
- Klient serwera wnioskowania Triton — ułatwia żądania do serwera wnioskowania Triton
- Pillow — biblioteka do obsługi obrazów
- Gevent — biblioteka sieci używana podczas nawiązywania połączenia z serwerem Triton
```
pip install numpy
pip install tritonclient[http]
pip install pillow
pip install gevent
```
Dostęp do maszyn wirtualnych serii NCv3 dla subskrypcji platformy Azure.

Ważne

Może być konieczne zażądanie zwiększenia limitu przydziału dla subskrypcji, zanim będzie można użyć tej serii maszyn wirtualnych. Aby uzyskać więcej informacji, zobacz seria NCv3.

Informacje zawarte w tym artykule są oparte na notesie online-endpoints-triton.ipynb znajdującym się w repozytorium azureml-examples . Aby uruchomić polecenia lokalnie bez konieczności kopiowania/wklejania plików, sklonuj repozytorium, a następnie zmień katalogi na sdk/endpoints/online/triton/single-model/ katalog w repozytorium:

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/sdk/python/endpoints/online/triton/single-model/

Definiowanie konfiguracji wdrożenia

DOTYCZY: Rozszerzenie interfejsu wiersza polecenia platformy Azure ml w wersji 2 (bieżąca)

W tej sekcji przedstawiono sposób wdrażania w zarządzanym punkcie końcowym online przy użyciu interfejsu wiersza polecenia platformy Azure z rozszerzeniem Usługi Machine Learning (wersja 2).

Ważne

W przypadku wdrożenia rozwiązania Triton no-code testowanie za pośrednictwem lokalnych punktów końcowych nie jest obecnie obsługiwane.

Aby uniknąć wpisywania w ścieżce dla wielu poleceń, użyj następującego polecenia, aby ustawić zmienną środowiskową BASE_PATH . Ta zmienna wskazuje katalog, w którym znajduje się model i skojarzone pliki konfiguracji YAML:
```
BASE_PATH=endpoints/online/triton/single-model
```
Użyj następującego polecenia, aby ustawić nazwę punktu końcowego, który zostanie utworzony. W tym przykładzie dla punktu końcowego jest tworzona losowa nazwa:
```
export ENDPOINT_NAME=triton-single-endpt-`echo $RANDOM`
```
Utwórz plik konfiguracji YAML dla punktu końcowego. W poniższym przykładzie skonfigurowana jest nazwa i tryb uwierzytelniania punktu końcowego. Element używany w poniższych poleceniach znajduje się /cli/endpoints/online/triton/single-model/create-managed-endpoint.yml w sklonowanym wcześniej repozytorium azureml-examples:

create-managed-endpoint.yaml
```
$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineEndpoint.schema.json
name: my-endpoint
auth_mode: aml_token
```
Utwórz plik konfiguracji YAML dla wdrożenia. Poniższy przykład umożliwia skonfigurowanie wdrożenia o nazwie blue do punktu końcowego zdefiniowanego w poprzednim kroku. Element używany w poniższych poleceniach znajduje się /cli/endpoints/online/triton/single-model/create-managed-deployment.yml w sklonowanym wcześniej repozytorium azureml-examples:

Ważne

Aby wdrożenie triton no-code-deployment (NCD) działało, wymagane type: triton_modeljest ustawienie .typetriton_model Aby uzyskać więcej informacji, zobacz Schemat YAML modelu interfejsu wiersza polecenia (wersja 2).

To wdrożenie używa maszyny wirtualnej Standard_NC6s_v3. Aby można było użyć tej maszyny wirtualnej, może być konieczne zażądanie zwiększenia limitu przydziału dla subskrypcji. Aby uzyskać więcej informacji, zobacz seria NCv3.
```
$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineDeployment.schema.json
name: blue
endpoint_name: my-endpoint
model:
  name: sample-densenet-onnx-model
  version: 1
  path: ./models
  type: triton_model
instance_count: 1
instance_type: Standard_NC6s_v3
```

DOTYCZY: Zestaw PYTHON SDK azure-ai-ml w wersji 2 (bieżąca)

W tej sekcji pokazano, jak zdefiniować wdrożenie Triton do wdrożenia w zarządzanym punkcie końcowym online przy użyciu zestawu SDK języka Python usługi Azure Machine Learning (wersja 2).

Ważne

W przypadku wdrożenia rozwiązania Triton no-code testowanie za pośrednictwem lokalnych punktów końcowych nie jest obecnie obsługiwane.

Aby nawiązać połączenie z obszarem roboczym, potrzebujemy parametrów identyfikatora — subskrypcji, grupy zasobów i nazwy obszaru roboczego.
```
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
```
Użyj następującego polecenia, aby ustawić nazwę punktu końcowego, który zostanie utworzony. W tym przykładzie dla punktu końcowego jest tworzona losowa nazwa:
```
import random

endpoint_name = f"endpoint-{random.randint(0, 10000)}"
```
Użyjemy powyższych szczegółów w MLClient sekcji z azure.ai.ml , aby uzyskać dojście do wymaganego obszaru roboczego usługi Azure Machine Learning. Zapoznaj się z notesem konfiguracji, aby uzyskać więcej informacji na temat konfigurowania poświadczeń i nawiązywania połączenia z obszarem roboczym.
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient(
    DefaultAzureCredential(),
    subscription_id,
    resource_group,
    workspace_name,
)
```
ManagedOnlineEndpoint Utwórz obiekt w celu skonfigurowania punktu końcowego. W poniższym przykładzie skonfigurowana jest nazwa i tryb uwierzytelniania punktu końcowego.
```
from azure.ai.ml.entities import ManagedOnlineEndpoint

endpoint = ManagedOnlineEndpoint(name=endpoint_name, auth_mode="key")
```

ManagedOnlineDeployment Utwórz obiekt w celu skonfigurowania wdrożenia. Poniższy przykład umożliwia skonfigurowanie wdrożenia o nazwie blue do punktu końcowego zdefiniowanego w poprzednim kroku i zdefiniowanie wbudowanego modelu lokalnego.

from azure.ai.ml.entities import ManagedOnlineDeployment, Model

model_name = "densenet-onnx-model"
model_version = 1

deployment = ManagedOnlineDeployment(
    name="blue",
    endpoint_name=endpoint_name,
    model=Model(
        name=model_name, 
        version=model_version,
        path="./models",
        type="triton_model"
    ),
    instance_type="Standard_NC6s_v3",
    instance_count=1,
)

W tej sekcji pokazano, jak zdefiniować wdrożenie Triton w zarządzanym punkcie końcowym online przy użyciu usługi Azure Machine Learning Studio.

Zarejestruj model w formacie Triton przy użyciu następującego polecenia YAML i interfejsu wiersza polecenia. Język YAML używa modelu densenet-onnx z https://github.com/Azure/azureml-examples/tree/main/cli/endpoints/online/triton/single-model

create-triton-model.yaml
```
name: densenet-onnx-model
version: 1
path: ./models
type: triton_model
description: Registering my Triton format model.
```
```
az ml model create -f create-triton-model.yaml
```
Poniższy zrzut ekranu przedstawia wygląd zarejestrowanego modelu na stronie Modele w usłudze Azure Machine Learning Studio.
W programie Studio wybierz obszar roboczy, a następnie użyj strony punktów końcowych lub modeli , aby utworzyć wdrożenie punktu końcowego:
- Strona Punktów końcowych
- Strona modeli
1. Na stronie Punkty końcowe wybierz pozycję Utwórz.
2. Podaj nazwę i typ uwierzytelniania dla punktu końcowego, a następnie wybierz pozycję Dalej.
3. Podczas wybierania modelu wybierz wcześniej zarejestrowany model Triton. Wybierz przycisk Dalej, aby kontynuować.
4. Po wybraniu modelu zarejestrowanego w formacie Triton w kroku Środowisko kreatora nie trzeba oceniać skryptu i środowiska oceniania.
1. Wybierz model Triton, a następnie wybierz pozycję Wdróż. Po wyświetleniu monitu wybierz pozycję Wdróż do punktu końcowego w czasie rzeczywistym.

Wdróż na platformie Azure

DOTYCZY: Rozszerzenie interfejsu wiersza polecenia platformy Azure ml w wersji 2 (bieżąca)

Aby utworzyć nowy punkt końcowy przy użyciu konfiguracji YAML, użyj następującego polecenia:
```
az ml online-endpoint create -n $ENDPOINT_NAME -f $BASE_PATH/create-managed-endpoint.yaml
```

Aby utworzyć wdrożenie przy użyciu konfiguracji YAML, użyj następującego polecenia:

az ml online-deployment create --name blue --endpoint $ENDPOINT_NAME -f $BASE_PATH/create-managed-deployment.yaml --all-traffic

DOTYCZY: Zestaw PYTHON SDK azure-ai-ml w wersji 2 (bieżąca)

Aby utworzyć nowy punkt końcowy przy użyciu ManagedOnlineEndpoint obiektu, użyj następującego polecenia:
```
endpoint = ml_client.online_endpoints.begin_create_or_update(endpoint)
```
Aby utworzyć wdrożenie przy użyciu ManagedOnlineDeployment obiektu , użyj następującego polecenia:
```
ml_client.online_deployments.begin_create_or_update(deployment)
```
Po zakończeniu wdrażania jego wartość ruchu zostanie ustawiona na 0%wartość . Zaktualizuj ruch do 100%.
```
endpoint.traffic = {"blue": 100}
ml_client.online_endpoints.begin_create_or_update(endpoint)
```

Testowanie punktu końcowego

DOTYCZY: Rozszerzenie interfejsu wiersza polecenia platformy Azure ml w wersji 2 (bieżąca)

Po zakończeniu wdrażania użyj następującego polecenia, aby wysłać żądanie oceniania do wdrożonego punktu końcowego.

Napiwek

Plik /cli/endpoints/online/triton/single-model/triton_densenet_scoring.py w repozytorium azureml-examples jest używany do oceniania. Obraz przekazany do punktu końcowego wymaga wstępnego przetwarzania w celu spełnienia wymagań dotyczących rozmiaru, typu i formatu oraz przetwarzania końcowego w celu wyświetlenia przewidywanej etykiety. Biblioteka triton_densenet_scoring.py używa biblioteki tritonclient.http do komunikowania się z serwerem wnioskowania Triton. Ten plik jest uruchamiany po stronie klienta.

Aby uzyskać identyfikator URI oceniania punktu końcowego, użyj następującego polecenia:

scoring_uri=$(az ml online-endpoint show -n $ENDPOINT_NAME --query scoring_uri -o tsv)
scoring_uri=${scoring_uri%/*}

Aby uzyskać klucz uwierzytelniania, użyj następującego polecenia:

auth_token=$(az ml online-endpoint get-credentials -n $ENDPOINT_NAME --query accessToken -o tsv)

Aby ocenić dane za pomocą punktu końcowego, użyj następującego polecenia. Przesyła obraz pawia (https://aka.ms/peacock-pic) do punktu końcowego:

python $BASE_PATH/triton_densenet_scoring.py --base_url=$scoring_uri --token=$auth_token --image_path $BASE_PATH/data/peacock.jpg

Odpowiedź skryptu jest podobna do następującego tekstu:

Is server ready - True
Is model ready - True
/azureml-examples/cli/endpoints/online/triton/single-model/densenet_labels.txt
84 : PEACOCK

DOTYCZY: Zestaw PYTHON SDK azure-ai-ml w wersji 2 (bieżąca)

Aby uzyskać identyfikator URI oceniania punktu końcowego, użyj następującego polecenia:

endpoint = ml_client.online_endpoints.get(endpoint_name)
scoring_uri = endpoint.scoring_uri

Aby uzyskać klucz uwierzytelniania, użyj następującego polecenia: keys = ml_client.online_endpoints.list_keys(endpoint_name) auth_key = keys.primary_key

Poniższy kod oceniania używa klienta serwera Triton Inference Server do przesłania obrazu pawia do punktu końcowego. Ten skrypt jest dostępny w notesie towarzyszącym w tym przykładzie — wdrażanie modelu w punktach końcowych online przy użyciu rozwiązania Triton.

# Test the blue deployment with some sample data
import requests
import gevent.ssl
import numpy as np
import tritonclient.http as tritonhttpclient
from pathlib import Path
import prepost

img_uri = "http://aka.ms/peacock-pic"

# We remove the scheme from the url
url = scoring_uri[8:]

# Initialize client handler
triton_client = tritonhttpclient.InferenceServerClient(
    url=url,
    ssl=True,
    ssl_context_factory=gevent.ssl._create_default_https_context,
)

# Create headers
headers = {}
headers["Authorization"] = f"Bearer {auth_key}"

# Check status of triton server
health_ctx = triton_client.is_server_ready(headers=headers)
print("Is server ready - {}".format(health_ctx))

# Check status of model
model_name = "model_1"
status_ctx = triton_client.is_model_ready(model_name, "1", headers)
print("Is model ready - {}".format(status_ctx))

if Path(img_uri).exists():
    img_content = open(img_uri, "rb").read()
else:
    agent = f"Python Requests/{requests.__version__} (https://github.com/Azure/azureml-examples)"
    img_content = requests.get(img_uri, headers={"User-Agent": agent}).content

img_data = prepost.preprocess(img_content)

# Populate inputs and outputs
input = tritonhttpclient.InferInput("data_0", img_data.shape, "FP32")
input.set_data_from_numpy(img_data)
inputs = [input]
output = tritonhttpclient.InferRequestedOutput("fc6_1")
outputs = [output]

result = triton_client.infer(model_name, inputs, outputs=outputs, headers=headers)
max_label = np.argmax(result.as_numpy("fc6_1"))
label_name = prepost.postprocess(max_label)
print(label_name)

Odpowiedź skryptu jest podobna do następującego tekstu:

Is server ready - True
Is model ready - True
/azureml-examples/sdk/endpoints/online/triton/single-model/densenet_labels.txt
84 : PEACOCK

Usuwanie punktu końcowego i modelu

DOTYCZY: Rozszerzenie interfejsu wiersza polecenia platformy Azure ml w wersji 2 (bieżąca)

Po zakończeniu pracy z punktem końcowym użyj następującego polecenia, aby go usunąć:
```
az ml online-endpoint delete -n $ENDPOINT_NAME --yes
```

Użyj następującego polecenia, aby zarchiwizować model:

az ml model archive --name $MODEL_NAME --version $MODEL_VERSION

DOTYCZY: Zestaw PYTHON SDK azure-ai-ml w wersji 2 (bieżąca)

Usuń punkt końcowy. Usunięcie punktu końcowego powoduje również usunięcie wszystkich wdrożeń podrzędnych, jednak nie będzie archiwizować skojarzonych środowisk ani modeli.
```
ml_client.online_endpoints.begin_delete(name=endpoint_name)
```

Zarchiwizuj model przy użyciu następującego kodu.

ml_client.models.archive(name=model_name, version=model_version)

Następne kroki

Aby dowiedzieć się więcej, zapoznaj się z następującymi artykułami:

Udostępnij za pośrednictwem

Obsługa wysokiej wydajności za pomocą serwera wnioskowania Triton

Wymagania wstępne

Definiowanie konfiguracji wdrożenia

Wdróż na platformie Azure

Testowanie punktu końcowego

Usuwanie punktu końcowego i modelu

Następne kroki

Opinia

Dodatkowe zasoby