Azure Container Apps で RAG を使用して Azure OpenAI for Java チャットをスケーリングする

[アーティクル]
01/13/2025

アプリケーションに負荷分散を追加して、Azure OpenAI サービストークンとモデルクォータの制限を超えてチャットアプリを拡張する方法について説明します。この方法では、Azure Container Apps を使用して、3 つの Azure OpenAI エンドポイントと、受信トラフィックを 3 つのエンドポイントのいずれかに送信するプライマリコンテナーを作成します。

この記事では、2 つの個別のサンプルをデプロイする必要があります。

チャットアプリ
- チャットアプリをまだデプロイしていない場合は、ロードバランサーサンプルがデプロイされるまで待ちます。
- チャットアプリを既に 1 回デプロイした場合は、ロードバランサーのカスタムエンドポイントをサポートするように環境変数を変更し、再デプロイします。
- チャットアプリは、次の言語で利用できます。
  - .NET
  - JavaScript
  - Python
ロードバランサーアプリ

メモ

この記事では、記事内の例とガイダンスの土台として、1 つ以上の AI アプリテンプレートを使用しています。 AI アプリテンプレートを使用すると、デプロイが容易な保守性の高い参照実装が提供されます。 AI アプリの高品質な開始点を確保するのに役立ちます。

Azure OpenAI と Azure Container Apps の負荷分散のアーキテクチャ

Azure OpenAI リソースには特定のトークンとモデルのクォータ制限があるため、1 つの Azure OpenAI リソースを使用するチャットアプリでは、これらの制限のために会話エラーが発生する傾向があります。

Azure OpenAI リソースが強調表示されたチャットアプリのアーキテクチャを示す図。

これらの制限に達せずにチャットアプリを使用するには、Container Apps で負荷分散ソリューションを使用します。このソリューションは、Container Apps からチャットアプリサーバーに単一のエンドポイントをシームレスに公開します。

3 つの Azure OpenAI リソースの前にある Azure Container Apps を使用したチャットアプリのアーキテクチャを示す図。

コンテナーアプリは、一連の Azure OpenAI リソースの前に配置されます。コンテナーアプリは、通常のシナリオと制限されたシナリオの 2 つを解決します。トークンとモデルのクォータを使用できる通常のシナリオでは、Azure OpenAI リソースはコンテナーアプリとアプリサーバーを通じて 200 を返します。

通常のシナリオを示す図。通常のシナリオでは、3 つの Azure OpenAI エンドポイントグループが示され、2 つのエンドポイントの最初のグループでトラフィックが成功します。

リソースがクォータ制限のために調整されたシナリオにある場合、コンテナーアプリは別の Azure OpenAI リソースを直ちに再試行して、元のチャットアプリ要求を満たすことができます。

429 の失敗した応答コードと、クライアントが再試行を待機する必要がある秒数の応答ヘッダーを含む、サロットリングシナリオを示す図。

必須コンポーネント

Azure サブスクリプション。無料で1つ作成
目的の Azure サブスクリプション内の Azure OpenAI に付与されたアクセス権。現時点では、このサービスへのアクセスは申請によってのみ許可されます。 Azure OpenAI へのアクセスを申請するには、https://aka.ms/oai/access のフォームに入力してください。
Dev コンテナーは両方のサンプルで使用でき、この記事を完了するために必要なすべての依存関係が含まれています。開発コンテナーは、ブラウザーの GitHub Codespaces で実行することも、Visual Studio Code を使用してローカルで実行することもできます。
- Codespaces (推奨)
- Visual Studio Code
- GitHub アカウント。
- Docker Desktop - Docker Desktop がまだ実行されていない場合は起動します。
- Visual Studio Code
- 開発コンテナー拡張機能

GitHub Codespaces は、 Visual Studio Code for the Web をユーザーインターフェイスとして使用して、GitHub によって管理される開発コンテナーを実行します。最も簡単な開発環境では、GitHub Codespaces を使用して、この記事を完了するために正しい開発者ツールと依存関係がプレインストールされるようにします。

重要

すべての GitHub アカウントでは、2 つのコアインスタンスで毎月最大 60 時間無料で GitHub Codespaces を使用できます。詳細については、GitHub Codespaces の毎月含まれるストレージおよびコア時間を参照してください。

Azure Container Apps ロードバランサーをデプロイする

Azure Developer CLI にサインインして、プロビジョニングとデプロイの手順に対する認証を提供します。
```
azd auth login --use-device-code
```
プロビジョニング後の手順で Azure CLI 認証を使用するように環境変数を設定します。
```
azd config set auth.useAzCliAuth "true"
```
ロードバランサーアプリをデプロイします。
```
azd up
```
デプロイのサブスクリプションとリージョンを選択します。チャットアプリと同じサブスクリプションとリージョンである必要はありません。
デプロイが完了するまで待ってから続行します。

デプロイエンドポイントを取得する

次のコマンドを使用して、コンテナーアプリのデプロイされたエンドポイントを表示します。
```
azd env get-values
```
CONTAINER_APP_URL 値をコピーします。次のセクションで使用します。

ロードバランサーエンドポイントを使用してチャットアプリを再デプロイする

これらの例は、チャットアプリのサンプルで完了しています。

初期デプロイ
再デプロイ

次のいずれかの選択肢を使用して、チャットアプリサンプルの開発コンテナーを開きます。

言語 GitHub Codespaces Visual Studio Code

.NET で開く

JavaScript で開く

Python（プログラミング言語）で開く
Azure Developer CLI (AZD) にサインインします。
```
azd auth login
```
サインイン手順を完了します。
chat-appなどの名前を持つ AZD 環境を作成します。
```
azd env new <name>
```
次の環境変数を追加します。これは、チャットアプリのバックエンドに、Azure OpenAI 要求にカスタム URL を使用するように指示します。
```
azd env set OPENAI_HOST azure_custom
```
次の環境変数を追加します。前のセクションで示したURLを <CONTAINER_APP_URL> に置き換えてください。このアクションは、チャットアプリのバックエンドに、Azure OpenAI 要求のカスタム URL の値を通知します。
```
azd env set AZURE_OPENAI_CUSTOM_URL <CONTAINER_APP_URL>
```
チャットアプリを展開します。
```
azd up
```

言語	GitHub Codespaces	Visual Studio Code
.NET	で開く
JavaScript	で開く
Python（プログラミング言語）	で開く

次のいずれかの選択肢を使用して、チャットアプリサンプルの開発コンテナーをもう一度開きます。

言語 GitHub Codespaces Visual Studio Code

.NET で開く

JavaScript で開く

Python（プログラミング言語）で開く
次の環境変数を追加します。これは、チャットアプリのバックエンドに、Azure OpenAI 要求にカスタム URL を使用するように指示します。
```
azd env set OPENAI_HOST azure_custom
```
次の環境変数を追加します。これは、チャットアプリのバックエンドに、Azure OpenAI 要求のカスタム URL の値を示します。
```
azd env set CONTAINER_APP_URL <CONTAINER_APP_URL>
```
チャットアプリを展開します。
```
azd up
```
続行する前に、このプロセスが完了するまで待ちます。

言語	GitHub Codespaces	Visual Studio Code
.NET	で開く
JavaScript	で開く
Python（プログラミング言語）	で開く

これで、クォータを使い果たすことなく、多数のユーザーにスケーリングするように構築されているという確信を持ってチャットアプリを使用できるようになりました。

ログをストリーミングしてロードバランサーの結果を表示します

Azure portal で、リソースグループを検索します。
グループ内のリソースの一覧から、Azure Container Apps リソースを選択します。
[監視]>[ログストリーム] を選択してログを表示します。
ログでトラフィックを生成するには、チャットアプリを使用します。
Azure OpenAI リソースを参照するログを探します。 3 つの各リソースのログコメントには、Proxying to https://openai3で始まる数値 ID があります。ここで、3 は 3 番目の Azure OpenAI リソースを示します。

要求がクォータを超えたという状態をロードバランサーが受信すると、ロードバランサーは自動的に別のリソースにローテーションされます。

TPM クォータを構成する

既定では、ロードバランサー内の各 Azure OpenAI インスタンスは、30,000 TPM (1 分あたりのトークン数) のキャパシティでデプロイされます。クォータを使い果たすことなく、多数のユーザーにスケーリングするように構築されているという確信を持ってチャットアプリを使用できます。次の場合にこの値を変更します。

デプロイ容量エラーが発生した場合: 値を小さくします。
より高い容量が必要です。値を上げてください。

値を変更するには、次のコマンドを使用します。
```
azd env set OPENAI_CAPACITY 50
```
ロードバランサーを再デプロイします。
```
azd up
```

リソースをクリーンアップする

チャットアプリとロードバランサーの使用が完了したら、リソースをクリーンアップします。この記事で作成した Azure リソースは、Azure サブスクリプションに課金されます。今後これらのリソースが必要になるとは思わない場合は、削除して、より多くの料金が発生しないようにします。

チャットアプリのリソースをクリーンアップします

チャットアプリの記事に戻り、リソースをクリーンアップします。

アップロードバランサーのリソースをクリーンアップします

次の Azure Developer CLI コマンドを実行して、Azure リソースを削除し、ソースコードを削除します:

azd down --purge --force

スイッチには次の機能が備わっています。

purge: 削除されたリソースは直ちに消去されるため、1 分あたりに Azure OpenAI サービストークンを再利用できます。
force: 削除はサイレントモードで行われ、ユーザーの同意は必要ありません。

GitHub Codespaces と Visual Studio Code をクリーンアップする

GitHub Codespaces
Visual Studio Code

GitHub Codespaces 環境を削除すると、アカウントに対して取得するコア時間単位の無料エンタイトルメントの量を最大化できます。

重要

GitHub アカウントのエンタイトルメントの詳細については、「 GitHub Codespaces に月単位で含まれるストレージとコア時間」を参照してください。

GitHub Codespaces ダッシュボードにサインインします。
azure-samples/openai-aca-lb GitHub リポジトリから提供されている現在実行中のコードスペースを見つけます。
コードスペースのコンテキストメニューを開き、[削除] を選択します。

ヘルプを受ける

Azure API Management ロードバランサーのデプロイで問題が発生した場合は、リポジトリの Issues Web ページに問題を追加します。

サンプルコード

この記事では、次のサンプルを使用します。

次のステップ

Azure Load Testing を使用して、チャットアプリをロードテストします。

次の方法で共有

Azure Container Apps で RAG を使用して Azure OpenAI for Java チャットをスケーリングする

Azure OpenAI と Azure Container Apps の負荷分散のアーキテクチャ

必須コンポーネント

Container Apps ロードバランサーのサンプルアプリを開く

Azure Container Apps ロードバランサーをデプロイする

デプロイエンドポイントを取得する

ロードバランサーエンドポイントを使用してチャットアプリを再デプロイする

ログをストリーミングしてロードバランサーの結果を表示します

TPM クォータを構成する

リソースをクリーンアップする

チャットアプリのリソースをクリーンアップします

アップロードバランサーのリソースをクリーンアップします

GitHub Codespaces と Visual Studio Code をクリーンアップする

ヘルプを受ける

サンプルコード

次のステップ

フィードバック

その他のリソース

次の方法で共有

Azure Container Apps で RAG を使用して Azure OpenAI for Java チャットをスケーリングする

Azure OpenAI と Azure Container Apps の負荷分散のアーキテクチャ

必須コンポーネント

Container Apps ロード バランサーのサンプル アプリを開く

Azure Container Apps ロード バランサーをデプロイする

デプロイ エンドポイントを取得する

ロード バランサー エンドポイントを使用してチャット アプリを再デプロイする

ログをストリーミングしてロード バランサーの結果を表示します

TPM クォータを構成する

リソースをクリーンアップする

チャット アプリのリソースをクリーンアップします

アップロード バランサーのリソースをクリーンアップします

GitHub Codespaces と Visual Studio Code をクリーンアップする

ヘルプを受ける

サンプル コード

次のステップ

フィードバック

その他のリソース

Container Apps ロードバランサーのサンプルアプリを開く

Azure Container Apps ロードバランサーをデプロイする

デプロイエンドポイントを取得する

ロードバランサーエンドポイントを使用してチャットアプリを再デプロイする

ログをストリーミングしてロードバランサーの結果を表示します

チャットアプリのリソースをクリーンアップします

アップロードバランサーのリソースをクリーンアップします

サンプルコード