次の方法で共有


AZURE Container Apps で RAG を使用して Azure OpenAI for .NET チャットをスケーリングする

アプリケーションに負荷分散を追加して、Azure OpenAI トークンとモデル クォータの制限を超えてチャット アプリを拡張する方法について説明します。 この方法では、Azure Container Apps を使用して 3 つの Azure OpenAI エンドポイントを作成し、3 つのエンドポイントのいずれかに受信トラフィックを送信するプライマリ コンテナーを作成します。

この記事では、次の 2 つの個別のサンプルをデプロイする必要があります。

  • チャット アプリ

    • チャット アプリをまだデプロイしていない場合は、ロード バランサーのサンプルがデプロイされるまで待ちます。

    • チャット アプリを既に 1 回デプロイしている場合は、ロード バランサーのカスタム エンドポイントをサポートするように環境変数を変更し、再デプロイします。

    • チャット アプリは、次の言語で利用できます。

  • ロード バランサー アプリ

手記

この記事では、記事の例とガイダンスの基礎として 1 つ以上の AI アプリ テンプレートを使用します。 AI アプリ テンプレートを使用すると、AI アプリの高品質な開始点を確保するのに役立つ、保守性が高く、簡単にデプロイできる参照実装が提供されます。

Azure Container Apps を使用して Azure OpenAI を負荷分散するためのアーキテクチャ

Azure OpenAI リソースには特定のトークンとモデルのクォータ制限があるため、単一の Azure OpenAI リソースを使用するチャット アプリでは、これらの制限により会話エラーが発生する傾向があります。

Azure OpenAI リソースが強調表示されたチャット アプリのアーキテクチャを示す図。

これらの制限に達せずにチャット アプリを使用するには、Azure Container Apps で負荷分散ソリューションを使用します。 このソリューションは、Azure Container Apps からチャット アプリ サーバーに単一のエンドポイントをシームレスに公開します。

3 つの Azure OpenAI リソースの前に Azure Container Apps を使用したチャット アプリのアーキテクチャを示す図。

Azure Container アプリは、一連の Azure OpenAI リソースの前に配置されます。 Container Apps は、通常と調整の 2 つのシナリオを解決します。 トークンとモデルのクォータを使用できる 通常のシナリオでは、Azure OpenAI リソースはコンテナー アプリとアプリ サーバーを通じて 200 を返します。

通常のシナリオを表示する図。通常のシナリオでは、3 つの Azure OpenAI エンドポイント グループが示され、2 つのエンドポイントの最初のグループでトラフィックが成功します。

リソースがクォータ制限などの 調整されたシナリオにある場合、Azure Container アプリは、別の Azure OpenAI リソースをすぐに再試行して、元のチャット アプリ要求を満たすことができます。

クライアントが再試行するまでの秒数を示す応答ヘッダーを含む、429 エラー応答コードが発生するスロットリングシナリオを示す図。

前提 条件

  • Azure サブスクリプション。 無料で一つ作成

  • 目的の Azure サブスクリプションで Azure OpenAI に付与されるアクセス。

    現時点では、このサービスへのアクセスはアプリケーションによってのみ付与されます。 Azure OpenAI へのアクセスを申請する必要があります。

  • 開発コンテナー は両方のサンプルで使用でき、この記事を完了するために必要なすべての依存関係があります。 開発コンテナーは、GitHub Codespaces (ブラウザー) で実行することも、Visual Studio Code を使用してローカルで実行することもできます。

オープンコンテナアプリ用ローカルバランサーのサンプルアプリケーション

GitHub Codespaces は、Web 用の Visual Studio Code ユーザー インターフェイスとして GitHub によって管理される開発コンテナーを実行します。 最も簡単な開発環境では、GitHub Codespaces を使用して、この記事を完了するために正しい開発者ツールと依存関係がプレインストールされるようにします。

GitHub Codespaces でこのプロジェクトを開きます

重要

すべての GitHub アカウントでは、コア インスタンスが 2 つあり、毎月最大 60 時間無料で Codespaces を使用できます。 詳細については、GitHub Codespaces の毎月含まれるストレージとコア時間を参照してください。

Azure Container Apps ロード バランサーをデプロイする

  1. Azure Developer CLI にサインインして、プロビジョニングとデプロイの手順に対する認証を提供します。

    azd auth login --use-device-code
    
  2. プロビジョニング後の手順で Azure CLI 認証を使用するように環境変数を設定します。

    azd config set auth.useAzCliAuth "true"
    
  3. ロード バランサー アプリをデプロイします。

    azd up
    

    デプロイのサブスクリプションとリージョンを選択する必要があります。 これらは、チャット アプリと同じサブスクリプションとリージョンである必要はありません。

  4. デプロイが完了するまで待ってから続行します。

デプロイ エンドポイントを取得する

  1. 次のコマンドを使用して、Azure Container アプリのデプロイされたエンドポイントを表示します。

    azd env get-values
    
  2. CONTAINER_APP_URL 値をコピーします。 次のセクションで使用します。

ロード バランサー エンドポイントを使用してチャット アプリを再デプロイする

これらは、チャット アプリのサンプルで完了します。

  1. 次のいずれかの選択肢を使用して、チャット アプリ サンプルの開発コンテナーを開きます。

    言語 Codespaces Visual Studio Code
    .NET GitHub Codespaces で開く Dev Containers で開く
    JavaScript GitHub Codespaces で開く Dev Containers で開く
    パイソン GitHub Codespaces で開く Dev Containers で開く
  2. Azure Developer CLI (AZD) にサインインします。

    azd auth login
    

    サインイン手順を完了します。

  3. chat-appなどの名前を持つ AZD 環境を作成します。

    azd env new <name>
    
  4. 次の環境変数を追加します。これは、OpenAI 要求にカスタム URL を使用するようにチャット アプリのバックエンドに指示します。

    azd env set OPENAI_HOST azure_custom
    
  5. 前のセクションの URL の <CONTAINER_APP_URL> を置き換えて、次の環境変数を追加します。 このアクションは、OpenAI 要求のカスタム URL の値がチャット アプリのバックエンドに通知されます。

    azd env set AZURE_OPENAI_CUSTOM_URL <CONTAINER_APP_URL>
    
  6. チャット アプリを展開します。

    azd up
    

これで、チャット アプリは、クォータを使い切ることなく、多くのユーザーにスケーリングできるように構築されているという確信を持って使用できるようになりました。

ログをストリーミングしてロード バランサーの結果を確認する

  1. Azure portalで、リソース グループを検索します。

  2. グループ内のリソースの一覧から、コンテナー アプリ リソースを選択します。

  3. 監視 -> ログ ストリーム を選択して、ログを表示します。

  4. チャット アプリを使用して、ログにトラフィックを生成します。

  5. Azure OpenAI リソースを参照するログを探します。 3 つの各リソースのログ コメントには、Proxying to https://openai3で始まる数値 ID があり、3 は 3 番目の Azure OpenAI リソースを示します。

    ログ コメントを示す 2 つのログ行が強調表示された Azure Container App ストリーミング ログを示すスクリーンショット。

  6. チャット アプリを使用すると、ロード バランサーが要求がクォータを超えたという状態を受信すると、ロード バランサーは自動的に別のリソースにローテーションされます。

TPM クォータを構成する

既定では、ロード バランサー内の各 Azure OpenAI インスタンスは、1 分あたり 30,000 トークン (TPM) の容量でデプロイされます。 チャット アプリは、クォータを使い切ることなく、多くのユーザー間でスケーリングできるように構築されているという確信を持って使用できます。 この値は、次の場合に変更します。

  • デプロイ容量エラーが発生する: 値を小さくします。
  • 容量を増やす必要があります。値を上げてください。
  1. 次のコマンドを使用して値を変更します。

    azd env set OPENAI_CAPACITY 50
    
  2. ロード バランサーを再デプロイします。

    azd up
    

リソースのクリーンアップ

チャット アプリとロード バランサーの両方を使い終わったら、リソースをクリーンアップします。 この記事で作成した Azure リソースは、Azure サブスクリプションに課金されます。 今後これらのリソースが必要になるとは思わない場合は、削除して、より多くの料金が発生しないようにします。

チャット アプリリソースをクリーンアップする

これらのリソースをクリーンアップするには、チャット アプリの記事に戻ります。

アップロード バランサーのリソースをクリーンアップする

次の Azure Developer CLI コマンドを実行して、Azure リソースを削除し、ソース コードを削除します。

azd down --purge --force

スイッチは次の機能を提供します。

  • purge: 削除されたリソースは直ちに消去されます。 これにより、Azure OpenAI TPM を再利用できます。
  • force: 削除は、ユーザーの同意を必要とせずに、自動的に行われます。

GitHub Codespaces をクリーンアップする

GitHub Codespaces 環境を削除すると、アカウントに対して取得するコア時間単位の無料エンタイトルメントの量を最大化できます。

重要

GitHub アカウントのエンタイトルメントの詳細については、「 GitHub Codespaces に月単位で含まれるストレージとコア時間」を参照してください。

  1. GitHub Codespaces ダッシュボード (https://github.com/codespaces) にサインインします。

  2. azure-samples/openai-aca-lb GitHub リポジトリをソースとして現在実行中の Codespaces を見つけます。

    状態とテンプレートを含むすべての実行中の Codespace のスクリーンショット。

  3. コードスペースのコンテキスト メニューを開き、[の削除] 選択します。

    削除オプションが強調表示されている 1 つのコードスペースのコンテキスト メニューのスクリーンショット。

助けを求める

Azure API Management ロード バランサーのデプロイで問題が発生した場合は、リポジトリの Issuesに問題を記録します。

サンプル コード

この記事で使用されるサンプルは次のとおりです。

次の手順