Skalowanie usługi Azure OpenAI dla języka JavaScript przy użyciu usługi Azure API Management

Artykuł
2025-04-01

Dowiedz się, jak dodać równoważenie obciążenia na poziomie korporacyjnym do swojej aplikacji, aby rozszerzyć aplikację czatu ponad limity przydziału tokenów i modeli usługi Azure OpenAI Service. To podejście używa usługi Azure API Management do inteligentnego kierowania ruchem między trzema zasobami usługi Azure OpenAI.

Ten artykuł wymaga wdrożenia dwóch oddzielnych przykładów:

Aplikacja do czatu:
- Jeśli aplikacja czatu nie została jeszcze wdrożona, poczekaj na wdrożenie przykładu modułu równoważenia obciążenia.
- Jeśli aplikacja czatu została już wdrożona raz, zmień zmienną środowiskową tak, aby obsługiwała niestandardowy punkt końcowy modułu równoważenia obciążenia i ponownie ją wdrożyć.
Moduł równoważenia obciążenia za pomocą usługi Azure API Management.

Uwaga

W tym artykule wykorzystano jeden lub więcej szablonów aplikacji sztucznej inteligencji jako podstawę przykładów i wskazówek w artykule. Szablony aplikacji sztucznej inteligencji zapewniają dobrze utrzymywane implementacje referencyjne, które można łatwo wdrożyć. Pomagają one zapewnić wysokiej jakości punkt wyjścia dla aplikacji sztucznej inteligencji.

Architektura równoważenia obciążenia usługi Azure OpenAI za pomocą usługi Azure API Management

Ponieważ zasób usługi Azure OpenAI ma określone limity przydziału tokenu i modelu, aplikacja czatu korzystająca z jednego zasobu usługi Azure OpenAI jest podatna na błędy konwersacji z powodu tych limitów.

Diagram przedstawiający architekturę aplikacji czatu z wyróżnionym zasobem usługi Azure OpenAI.

Aby użyć aplikacji do czatu bez osiągnięcia tych limitów, użyj rozwiązania o zrównoważonym obciążeniu z usługą API Management. To rozwiązanie bezproblemowo uwidacznia pojedynczy punkt końcowy z usługi API Management do serwera aplikacji czatu.

Diagram przedstawiający architekturę aplikacji czatu za pomocą usługi Azure API Management przed trzema zasobami usługi Azure OpenAI.

Zasób usługi API Management, jako warstwa interfejsu API, znajduje się przed zestawem zasobów usługi Azure OpenAI. Warstwa API ma zastosowanie do dwóch scenariuszy: normalny i przepustowość ograniczona. W normalnym scenariuszu, w którym jest dostępny limit przydziału tokenu i modelu, zasób usługi Azure OpenAI zwraca 200 z powrotem za pośrednictwem warstwy interfejsu API i serwera aplikacji zaplecza.

Diagram przedstawiający normalny scenariusz z trzema grupami punktów końcowych usługi Azure OpenAI. Pierwsza grupa dwóch punktów końcowych uzyskuje pomyślny ruch.

Gdy zasób jest ograniczony z powodu limitów przydziału, warstwa API może natychmiast ponowić próbę użycia innego zasobu Azure OpenAI w celu realizacji oryginalnego żądania aplikacji czatu.

Diagram przedstawiający scenariusz ograniczania przepustowości z kodem odpowiedzi z błędem 429 i nagłówkiem odpowiedzi, ile sekund klient musi poczekać na ponowną próbę.

Wymagania wstępne

Subskrypcja platformy Azure. Utwórz bezpłatnie
Kontenery deweloperskie są dostępne dla obu przykładów, z wszystkimi zależnościami wymaganymi do ukończenia tego artykułu. Kontenery deweloperskie można uruchamiać w usłudze GitHub Codespaces (w przeglądarce) lub lokalnie przy użyciu programu Visual Studio Code.
- Codespaces (zalecane)
- Visual Studio Code
- Do korzystania z Codespaces wymagane jest tylko konto GitHub.
- Docker Desktop — uruchom Docker Desktop, jeśli jeszcze nie jest uruchomiony
- Visual Studio Code
- Rozszerzenie Dev Container

Otwórz przykładową aplikację lokalnego modułu równoważenia obciążenia usługi Azure API Management

GitHub Codespaces (zalecane)
Visual Studio Code

GitHub Codespaces uruchamia kontener deweloperski, zarządzany przez GitHub, z użyciem Visual Studio Code for the Web jako interfejsu użytkownika. W przypadku najprostszego środowiska programistycznego użyj usługi GitHub Codespaces, aby wstępnie zainstalować odpowiednie narzędzia deweloperskie i zależności, aby ukończyć ten artykuł.

Ważne

Wszystkie konta GitHub mogą korzystać z GitHub Codespaces przez maksymalnie 60 godzin bezpłatnie każdego miesiąca z dwoma rdzeniowymi instancjami. pl-PL: Aby uzyskać więcej informacji, zobacz miesięczny limit przestrzeni dyskowej i godzin rdzeni dla GitHub Codespaces.

Wdrażanie modułu równoważenia obciążenia usługi Azure API Management

Aby wdrożyć moduł równoważenia obciążenia na platformie Azure, zaloguj się do interfejsu wiersza polecenia dewelopera platformy Azure (AZD):
```
azd auth login
```
Zakończ instrukcje logowania.
Wdróż aplikację modułu równoważenia obciążenia:
```
azd up
```
Wybierz subskrypcję i region wdrożenia. Nie muszą być tą samą subskrypcją i tym samym regionem co aplikacja do czatu.
Poczekaj na zakończenie wdrożenia, zanim przejdziesz dalej. Ten proces może potrwać do 30 minut.

Pobierz punkt końcowy równoważnika obciążenia

Uruchom następujące polecenie Bash, aby wyświetlić zmienne środowiskowe z wdrożenia. Te informacje będą potrzebne później.

azd env get-values | grep APIM_GATEWAY_URL

Ponowne wdrażanie aplikacji czatu przy użyciu punktu końcowego modułu równoważenia obciążenia

Te przykłady są wykonane na próbce aplikacji czatu.

Początkowe wdrożenie
Ponowne przydzielenie

Otwórz kontener deweloperski przykładowej aplikacji czatu, korzystając z jednej z następujących opcji.

Język	GitHub Codespaces	Visual Studio Code
.NET	Otwórz w GitHub Codespaces	Otwórz w kontenerach deweloperskich
JavaScript	Otwórz w GitHub Codespaces	Otwórz w kontenerach deweloperskich
Python	Otwórz w GitHub Codespaces	Otwórz w kontenerach deweloperskich

Zaloguj się do Azure Developer CLI (AZD):
```
azd auth login
```
Zakończ instrukcje logowania.
Utwórz środowisko AZD o nazwie takiej jak chat-app:
```
azd env new <name>
```
Dodaj następującą zmienną środowiskową, która informuje zaplecze aplikacji czatu o użyciu niestandardowego adresu URL dla żądań usługi Azure OpenAI:
```
azd env set OPENAI_HOST azure_custom
```
Dodaj następującą zmienną środowiskową, która informuje zaplecze aplikacji czatu o tym, jaka jest wartość niestandardowego adresu URL żądania usługi Azure OpenAI:
```
azd env set AZURE_OPENAI_CUSTOM_URL <APIM_GATEWAY_URL>
```
Wdróż aplikację czatu:
```
azd up
```

Otwórz ponownie kontener deweloperski przykładowej aplikacji czatu, korzystając z jednej z następujących opcji.

Język	GitHub Codespaces	Visual Studio Code
.NET	Otwórz w GitHub Codespaces	Otwórz w kontenerach deweloperskich
JavaScript	Otwórz w GitHub Codespaces	Otwórz w kontenerach deweloperskich
Python	Otwórz w GitHub Codespaces	```html Otwórz w kontenerach deweloperskich ```

Dodaj następującą zmienną środowiskową, która informuje zaplecze aplikacji czatu o użyciu niestandardowego adresu URL dla żądań usługi Azure OpenAI:
```
azd env set OPENAI_HOST azure_custom
```
Dodaj następującą zmienną środowiskową, która informuje zaplecze aplikacji czatu o tym, jaka jest wartość niestandardowego adresu URL żądania usługi Azure OpenAI:
```
azd env set set AZURE_OPENAI_CUSTOM_URL <APIM_GATEWAY_URL>
```
Wdróż aplikację czatu:
```
azd up
```
Przed kontynuowaniem poczekaj na zakończenie tego procesu.

Konfigurowanie limitu modułu TPM

Domyślnie każde wystąpienie usługi Azure OpenAI w module równoważenia obciążenia jest wdrażane z pojemnością 30 000 tokenów na minutę (TPM). Możesz użyć aplikacji czatu z ufnością, że została utworzona tak, by mogła obsługiwać wielu użytkowników bez wyczerpania limitu. Zmień tę wartość, gdy:

Pojawiają się błędy związane z pojemnością wdrożenia: zmniejsz wartość.
Potrzebna jest większa pojemność: podnieś wartość.

Użyj następującego polecenia, aby zmienić wartość:
```
azd env set OPENAI_CAPACITY 50
```
Ponownie wdróż moduł równoważenia obciążenia:
```
azd up
```

Czyszczenie zasobów

Po zakończeniu pracy z aplikacją czatu i modułem równoważenia obciążenia wyczyść zasoby. Zasoby platformy Azure utworzone w tym artykule są rozliczane z subskrypcją platformy Azure. Jeśli nie spodziewasz się, że te zasoby będą potrzebne w przyszłości, usuń je, aby uniknąć naliczania dodatkowych opłat.

Czyszczenie zasobów aplikacji do czatu

Powróć do artykułu dotyczącego aplikacji czatu, aby wyczyścić te zasoby.

.NET
JavaScript
Python

Czyszczenie zasobów modułu równoważenia obciążenia

Uruchom następujące polecenie interfejsu wiersza polecenia dla deweloperów platformy Azure, aby usunąć zasoby platformy Azure i usunąć kod źródłowy:

azd down --purge --force

Przełączniki zapewniają:

purge: Usunięte zasoby są natychmiast usuwane. Tokeny usługi Azure OpenAI można ponownie używać co minutę.
force: Usunięcie odbywa się bez informowania i bez konieczności wyrażania zgody użytkownika.

Usunięcie środowiska GitHub Codespaces pozwala na maksymalne wykorzystanie przydzielonych darmowych godzin procesora dla twojego konta.

Ważne

Aby uzyskać więcej informacji na temat uprawnień konta GitHub, zobacz GitHub Codespaces: miesięczna zawarta przestrzeń do przechowywania i godziny rdzeni.

Zaloguj się do pulpitu nawigacyjnego usługi GitHub Codespaces.
Znajdź aktualnie uruchomione przestrzenie kodu pochodzące z repozytorium azure-samples/openai-apim-lb GitHub.
Otwórz menu kontekstowe elementu GitHub Codespaces, a następnie wybierz pozycję Usuń.

Uzyskaj pomoc

Jeśli masz problemy z wdrożeniem modułu równoważenia obciążenia w usłudze Azure API Management, dodaj swój problem na stronie sekcji Zgłoszenia repozytorium.

Przykładowy kod

Przykłady używane w tym artykule obejmują:

Aplikacja do czatu w języku JavaScript z narzędziem RAG
Load Balancer z usługą Azure API Management

Następne kroki

Wyświetlanie danych diagnostycznych usługi Azure API Management w usłudze Azure Monitor
Użyj Azure Load Testing do testowania obciążenia aplikacji czatu.

Dowiedz się więcej o sposobie użycia usługi AZD w tym szablonie:
- wpis na blogu technicznej społeczności
- seria filmów wideo Reactor

Udostępnij za pośrednictwem

Skalowanie usługi Azure OpenAI dla języka JavaScript przy użyciu usługi Azure API Management

Architektura równoważenia obciążenia usługi Azure OpenAI za pomocą usługi Azure API Management

Wymagania wstępne

Otwórz przykładową aplikację lokalnego modułu równoważenia obciążenia usługi Azure API Management

Wdrażanie modułu równoważenia obciążenia usługi Azure API Management

Pobierz punkt końcowy równoważnika obciążenia

Ponowne wdrażanie aplikacji czatu przy użyciu punktu końcowego modułu równoważenia obciążenia

Konfigurowanie limitu modułu TPM

Czyszczenie zasobów

Czyszczenie zasobów aplikacji do czatu

Czyszczenie zasobów modułu równoważenia obciążenia

Czyszczenie zasobów

Uzyskaj pomoc

Przykładowy kod

Następne kroki

Opinia

Dodatkowe zasoby