ゲートウェイ経由で Azure OpenAI などの言語モデルにアクセスする

Azure AI サービス

Azure OpenAI Service

Azure API Management

Azure OpenAI Service は、アプリケーションで OpenAI の言語モデルを使用することで、埋め込みや補完を実行するための HTTP API を公開します。インテリジェントアプリケーションは、これらの HTTP API をクライアントまたはオーケストレーターから直接呼び出します。クライアントの例としては、チャット UI コードやカスタムデータ処理パイプラインなどがあります。オーケストレーターの例としては、Azure AI Foundry の LangChain、セマンティックカーネル、プロンプトフローなどがあります。ワークロードが 1 つ以上の Azure OpenAI インスタンスに接続する場合、これらのコンシューマーが直接接続するか、リバースプロキシ API ゲートウェイ経由で接続するかを決定する必要があります。

このガイドでは、コンシューマーから Azure OpenAI データプレーン API への直接アクセスが含まれるワークフロー設計で発生する、 Azure Well-Architected Framework の 5 つの柱に関する主要な課題について説明します。次に、アーキテクチャにゲートウェイを導入して、こうした直接アクセスに関する課題を解決する方法について説明し、新しい課題についても紹介します。この記事では、アーキテクチャパターンについて説明しますが、ゲートウェイの実装方法については説明しません。

ゲートウェイは特定のシナリオを解決するために使用できますが、これらはどのワークロードにも該当するわけではないため、ゲートウェイの特定のユースケースの詳細については、特定のシナリオに関するガイダンスを参照してください。

主な課題

API ゲートウェイがない場合、または Azure OpenAI HTTP API にロジックを追加する機能がない場合は、再試行メカニズムや回線の中断などの API クライアントロジックをクライアント側で処理する必要があります。この状況は、クライアントコードを直接制御できない場合や、特定の SDK を使用したコードに制限される場合は、困難になる可能性があります。複数のクライアントまたは複数の Azure OpenAI インスタンスとデプロイでは、安全なデプロイや監視の調整など、さらなる課題が生じます。

このセクションでは、コンシューマーから Azure OpenAI への直接アクセスのみをサポートしているアーキテクチャで生じる可能性がある、アーキテクチャ上の主な課題の例を示します。課題は、 Azure Well-Architected Framework の柱に従って整理されています。

信頼性に関する課題

ワークロードの信頼性は、自己保持と自己回復の能力など、いくつかの要因によって決まります。これらは多くの場合、レプリケーションとフェールオーバーのメカニズムを通じて実装されます。ゲートウェイを使用していない場合、信頼性に関するすべての問題に、クライアントロジックと Azure OpenAI Service 機能のみで対処する必要があります。これら 2 つのどちらでも十分な信頼性制御が利用できない場合、ワークロードの信頼性が損なわれます。

負荷分散または冗長性: サービスの可用性に基づく複数の Azure OpenAI インスタンス間のフェールオーバーは、構成とカスタムロジックを使用して制御する必要があるクライアントの責任です。

グローバル、標準またはプロビジョニング済み、およびデータゾーン(標準またはプロビジョニング) は、リージョンエンドポイントの可用性の観点から Azure OpenAI サービスの可用性に影響しません。フェールオーバーロジックを自分で実装する必要があります。
スパイクを処理するためのスケールアウト: 調整時に容量のある Azure OpenAI インスタンスにフェールオーバーすることもクライアントの責任であり、構成とカスタムロジックを通じて制御する必要があります。新しい Azure OpenAI インスタンスに関する複数のクライアント構成を更新すると、高リスクにつながり、適時性が懸念されます。要求の多い期間中に優先度の低い要求をキューに送信するなど、ロジックの変更を実装するためにクライアントコードを更新する場合も同様です。
調整: Azure OpenAI API は、標準モデルのトークンPer-Minute (TPM) または Requests-Per-Minute (RPM) を超える要求に HTTP 429 エラー応答コードを返すことによって要求を調整します。 Azure OpenAI API では、事前プロビジョニングされた課金モデルのプロビジョニングされた容量を超える要求も調整されます。適切なバックオフおよび再試行ロジックの処理は、クライアント実装のみに委ねられます。

ほとんどのワークロードでは、Azure OpenAI のグローバルとデータゾーンデプロイ使用して、この特定の問題を解決する必要があります。これらのデプロイでは、各要求に十分な容量を持つデータセンターからのモデル容量を使用します。グローバルおよびデータゾーンのデプロイを使用すると、カスタムゲートウェイの複雑さが増すことなく、サービスの調整が大幅に減少します。グローバルおよびデータゾーンのデプロイは、それ自体がゲートウェイの実装です。

セキュリティに関する課題

セキュリティ制御により、ワークロードの機密性、整合性、可用性の保護を支援する必要があります。ゲートウェイを使用していない場合、セキュリティに関するすべての問題に、クライアントロジックと Azure OpenAI Service 機能のみで対処する必要があります。ワークロード要件によっては、直接通信のために、クライアントセグメント化、クライアント制御、サービスセキュリティ機能で利用できる以上のものが要求される場合があります。

ID 管理 - 認証スコープ: Azure OpenAI によって公開されるデータプレーン API は、API キーと Azure ロールベースのアクセス制御 (RBAC) のうち、いずれかを使用して保護できます。どちらの場合も、認証は個々のデプロイのレベルではなく、Azure OpenAI インスタンスのレベルで行われます。これにより、特定のデプロイモデルに最小特権アクセスと ID セグメント化を提供するための複雑さが生じます。
ID 管理 - ID プロバイダー: Azure OpenAI インスタンスを支援する Microsoft Entra テナントにある ID を使用できないクライアントは、単一のフルアクセス API キーを共有する必要があります。 API キーにはセキュリティ上の有用性に関する制限があるため、複数のクライアントが関係し、すべてが同じ ID を共有する場合には問題が生じやすくなります。
ネットワークセキュリティ: Azure OpenAI インスタンスから見たクライアントの場所によっては、言語モデルへのパブリックインターネットアクセスが必要になる場合があります。
データ主権: Azure OpenAI のコンテキストにおけるデータ主権とは、特定の国または地域の地理的境界内で行うデータの保存と処理に関連する法的要件と規制要件を指します。ワークロードでは、クライアントがデータ所在地とデータ主権に関する法律を遵守できるように、リージョンアフィニティを確認する必要があります。このプロセスには、複数の Azure OpenAI デプロイが必要になります。

Azure OpenAI のデプロイグローバルまたはデータゾーンを使用している場合、保存データは指定された Azure 地域に残りますが、データは任意の Azure OpenAI の場所で推論のために送信および処理される可能性があることに注意してください。

コスト最適化に関する課題

アーキテクチャで無駄を最小限に抑え、実用性を最大化すると、ワークロードのメリットにつながります。強力なコストモデリングとコスト監視は、あらゆるワークロードでの重要な要件です。ゲートウェイがない場合、プロビジョニング済みまたはクライアントごとのコスト追跡の使用率は、Azure OpenAI インスタンスの使用状況テレメトリを集計することからのみ、権限を持って実現できます。

コスト追跡: Azure OpenAI の使用状況に関する財務的な観点を提供できる対象は、Azure OpenAI インスタンスの使用状況テレメトリから集約されたデータに限定されます。チャージバックまたはショーバックを行う必要がある場合、その使用状況テレメトリを、さまざまな部門のさまざまなクライアント、またはマルチテナントシナリオの顧客に帰属させる必要があります。
プロビジョニング済みスループット使用率: ワークロードでは、料金に含まれるプロビジョニング済みスループットをフル活用することで無駄を回避する必要があります。つまり、クライアントは、標準モデルデプロイにスピルオーバーする前に、プロビジョニングされたモデルデプロイを使用するように信頼され、調整されている必要があります。

オペレーショナルエクセレンスに関する課題

ゲートウェイを使用していない場合、監視、変更制御、開発のプロセスは、クライアントからサーバーへの直接通信によって提供されるものに限定されます。

クォータ制御: HTTP API が調整されると、クライアントは Azure OpenAI から直接 429 応答コードを受け取ります。ワークロードオペレーターは、正当な使用に対して十分なクォータが利用可能であることと、不適切な動作を行うクライアントによる消費が過剰でないことを確認する責任があります。ワークロードが複数のモデルデプロイまたは複数のデータゾーンで構成されている場合、クォータの使用状況とクォータの可用性を理解することは、視覚化するのが難しい場合があります。
モニタリングと監視: Azure OpenAI の既定のメトリックは Azure Monitor を介して利用できます。ただし、データの可用性に伴う待機時間があり、リアルタイムの監視は提供されません。
安全なデプロイプラクティス: GenAIOps プロセスでは、Azure OpenAI でデプロイされたモデルとクライアントとの間で調整する必要があります。ブルーグリーンやカナリアなど高度なデプロイアプローチの場合は、ロジックをクライアント側で処理する必要があります。

パフォーマンス効率に関する課題

ゲートウェイを使用していない場合、ワークロードでは、個々が適切に動作し、限られた容量で他のクライアントと適切に連携することの責任がクライアントに課せられます。

パフォーマンスの最適化 - 優先順位によるトラフィック: 優先順位の高いクライアントが優先順位の低いクライアントよりも優先的にアクセスできるように、クライアント要求に優先順位を付けるには、クライアント間の調整が必要になります。この調整は広範囲にわたり、不合理である可能性があります。ワークロードによっては、モデルの使用率が低いときに、優先順位の低い要求をキューに入れて実行する方が望ましいことがあります。
パフォーマンスの最適化 - クライアントのコンプライアンス: 容量を共有するには、クライアントが適切に動作する必要があります。 max_tokens と best_of が承認済みの値に設定されているかどうかをクライアントが確認することは、その一例です。ゲートウェイを使用していない場合、Azure OpenAI インスタンスの容量を維持するためにクライアントが最善の動作を行うことを信頼する必要があります。
待機時間の最小化: 通常、ネットワーク待機時間は、プロンプトと完了要求フロー全体から見ると小さな要素ですが、クライアントがネットワークエンドポイントとそれらに近いモデルにルーティングされるようにしておくとプラスになる可能性があります。ゲートウェイを使用していない場合、クライアントは、使用するモデルデプロイエンドポイントと、その特定の Azure OpenAI データプレーン API に必要な資格情報を自己選択する必要があります。

解決策

図 1: ゲートウェイ経由で Azure OpenAI にアクセスする概念アーキテクチャ

「主な課題」に記載されている多くの課題に対処するには、リバースプロキシゲートウェイを挿入して、インテリジェントアプリケーションを Azure OpenAI から切り離すことができます。このゲートウェイオフロードにより、責任、複雑さ、監視をクライアントから切り離すことができ、組み込まれていない他の機能を提供して Azure OpenAI を拡張する機会を得られます。いくつかの例を次に示します。

フェデレーション認証の実装が可能。
レート制限を通じてモデルへの負荷を制御する機能。
分野やモデルを横断したモニタリング。
キューベースの負荷平準化のために優先度の低いメッセージをキューにルーティングしたり、タスクを実行するために計算したりするなど、ゲートウェイ集約と高度なルーティングを複数のサービスに導入する機能。
正常性エンドポイント監視を使用する負荷分散では、使用できない、またはオーバーロードされたモデルのデプロイで回線切断をして正常なエンドポイントにのみルーティングします。

特定のシナリオには、API ゲートウェイと Azure OpenAI インスタンスを直接扱うガイダンスがさらに多く用意されていることがあります。これらのシナリオについては、「次のステップ」セクションを参照してください。

考慮事項

ゲートウェイを追加する決定と使用するテクノロジは、Azure Well-Architected Framework の Azure での AI ワークロードのガイダンスで説明されているアプリケーション設計の一部として行われます。アーキテクトは、このコンポーネントを含めるか除外するかを決定する必要があります。

新しいコンポーネントをアーキテクチャに導入する際は、新たに生じるトレードオフを評価する必要があります。いずれかの主な課題に対処するためにクライアントと Azure OpenAI データプレーンの間に API ゲートウェイを挿入すると、アーキテクチャに新たな考慮事項が生じます。アーキテクチャに関するこれらの考慮事項にワークロードが及ぼす効果が、ゲートウェイの付加価値や実用性の十分な根拠になるかどうかを慎重に評価してください。

信頼性

信頼性とは、顧客に確約したことをアプリケーションで確実に実現することです。詳細については、「信頼性の設計レビューチェックリスト」を参照してください。

ゲートウェイソリューションによって、単一障害点が生じる可能性があります。この障害は、ゲートウェイプラットフォームのサービス可用性、コードまたは構成のデプロイによる中断、さらにはゲートウェイ内のクリティカルな API エンドポイントの構成ミスが原因で発生する可能性があります。ワークロードの可用性要件が確実に満たされるように実装を設計してください。実装における復元性とフォールトトレランス機能を考慮して、ワークロードの障害モード分析にゲートウェイを含めることをご検討ください。
リージョンの障害が発生した場合に要求を引き続き処理する機能など、Azure OpenAI エンドポイントの可用性を向上させるために、アーキテクチャで複数のリージョンの Azure OpenAI インスタンスが必要な場合は、ソリューションでグローバルルーティング機能が必要になる場合があります。この状況により、余分の完全修飾ドメイン名、TLS 証明書、およびさらに多くのグローバルルーティングコンポーネントの管理が必要になるため、トポロジがさらに複雑になります。

重要

ゲートウェイを実装することで、合意済みのサービスレベル目標 (SLO) を達成するための能力がワークロードから損なわれる場合は、実装しないでください。

セキュリティ

API ゲートウェイがアーキテクチャにどのようにメリットをもたらすかを検討する場合は、セキュリティに関する設計レビューチェックリストを使用して設計を評価します。セキュリティについては、次のような考慮事項に対処する必要があります。

ゲートウェイを追加すると、ワークロードの対象領域が増加します。この増加に伴い、Azure リソースの ID およびアクセス管理 (IAM) に関する考慮事項や、強化作業などが増えます。
ゲートウェイは、クライアントネットワーク空間とプライベート Azure OpenAI ネットワーク空間の間を移行するためのネットワーク境界として使用できます。ゲートウェイにより、以前はインターネットに接続していた Azure OpenAI エンドポイントがプライベートリンクの使用を通じてプライベートになりますが、ゲートウェイが新しいエントリポイントになり、適切な保護が必要になります。
ゲートウェイは、未加工の要求データと言語モデルからの定型応答を参照できる独自の立場にあります。これらのデータや応答には、いずれかのソースからの機密データが含まれる可能性があります。データコンプライアンスと規制の範囲は、現在、このような他のコンポーネントにまで拡張されています。
ゲートウェイにより、Microsoft Entra ID と API キーの認証を超えて、場合によっては複数の ID プロバイダー (IdP) にまたがって、クライアントの承認と認証の範囲を拡張できます。
複数のリージョンを実装する場合、実装におけるデータ主権の考慮が必要になります。ゲートウェイのコンピューティングおよびルーティングロジックが、ワークロードに対する主権要件に準拠していることを確認してください。

重要

ゲートウェイの実装により、ワークロード自体またはユーザーのデータの機密性、整合性、可用性を保護できなくなる場合は、実装しないでください。

コストの最適化

コストの最適化とは、不要な費用を削減し、運用効率を向上させる方法を検討することです。詳細については、「コスト最適化の設計レビューチェックリスト」を参照してください。

実装したすべての API ゲートウェイから、ランタイムコストが発生します。これについては、予算を策定して考慮する必要があります。これらのコストは通常、ゲートウェイ自体の信頼性、セキュリティ、パフォーマンスに対処するための追加機能に加え、APIOps 管理の追加によって生じる運用コストによって増加します。これらの追加コストは、ゲートウェイを備えたシステムから提供される新しい価値に照らし合わせて評価する必要があります。ゲートウェイを使用することで導入される新しい機能によるメリットが、ゲートウェイの実装と保守にかかるコストを上回る状態に達することが望まれます。ワークロードとユーザーの関係によっては、使用分をチャージバックできる場合があります。

ゲートウェイの開発とテスト時のコストを管理するには、Azure OpenAI のシミュレートされたエンドポイントの使用を検討してください。たとえば、Azure OpenAI API シミュレーター GitHub リポジトリでソリューションを使用します。

オペレーショナルエクセレンス

API ゲートウェイがアーキテクチャにどのようにメリットをもたらすかを検討する場合は、オペレーショナルエクセレンスに関する設計レビューチェックリストを使用して設計を評価します。オペレーショナルエクセレンスについては、次のような考慮事項に対処する必要があります。

ゲートウェイ自体は、ワークロードの監視ソリューションで、また場合によってはクライアントで監視する必要があります。これは、ゲートウェイのコンピューティングと操作をワークロードの正常性モデリングに含める必要があることを意味します。
安全なデプロイプラクティスでは、API ゲートウェイインフラストラクチャのデプロイと、ゲートウェイルーティングのコードまたは構成に対処する必要があります。インフラストラクチャの自動化と IaC (コードとしてのインフラストラクチャ) ソリューションでは、ゲートウェイをワークロード内で有効期間の長いリソースとして扱う方法を検討する必要があります。
ゲートウェイで公開されている API をカバーするには、APIOps アプローチを構築または拡張する必要があります。
Azure AI サービスリソースや Azure OpenAI データゾーンの負荷分散機能などのソリューションを通じて利用できる機能を複製します。

パフォーマンス効率

API ゲートウェイがアーキテクチャにどのようにメリットをもたらすかを検討する場合は、パフォーマンス効率に関する設計レビューチェックリストを使用して設計を評価します。パフォーマンス効率については、次のような考慮事項に対処する必要があります。

ゲートウェイサービスにより、スループットのボトルネックが発生する可能性があります。ゲートウェイが完全な同時負荷を処理できる十分なパフォーマンスを備えており、成長予測に合わせて簡単に拡張できることを確認します。普通営業日の使用など、需要が低いときにゲートウェイが供給を削減 (スケールダウン) できるように、ソリューションの弾力性を確保してください。
ゲートウェイサービスには要求ごとに実行を要する処理があり、API 呼び出しごとに追加の待ち時間が発生します。要求のパフォーマンスを良好に保つには、ルーティングロジックを最適化する必要があります。
ほとんどの場合、待機時間を短縮するには、ゲートウェイをユーザーと Azure OpenAI インスタンスの両方から地理的に近い場所に配置する必要があります。通常、ネットワーク待機時間が言語モデルへの API 呼び出し全体の時間に占める割合はわずかですが、ワークロードの競合要因となる可能性があります。
ストリーミング応答や、Assistants API などのステートフルなやり取りを行うためのインスタンスの固定など、Azure OpenAI の機能に対するゲートウェイの影響を評価します。

重要

ゲートウェイを実装することで、取り決められたパフォーマンス目標の達成が不可能になったり、他のトレードオフが過度に犠牲になったりする場合は、ゲートウェイを実装しないでください。

実装オプション

Azure では、Azure OpenAI の HTTP API またはその他のカスタム言語モデル推論 API をプロキシして、これらすべてのシナリオに対応するように特別に設計されたターンキーソリューションは提供されていません。ただし、Azure にゲートウェイを実装するなど、ワークロードチームが実装できるオプションはいくつかあります。

Azure API Management の使用

Azure API Management は、HTTP ベースの API に関する横断的な問題を軽減するために設計されたプラットフォーム管理サービスです。これは構成駆動型であり、受信および送信した要求を処理するポリシーシステムによるカスタマイズをサポートします。単一のコントロールプレーンを使用することで、高可用性、ゾーン冗長、さらには複数リージョンのレプリカをサポートします。

ゲートウェイルーティングと要求処理ロジックのほとんどは、API Management のポリシーシステムに実装する必要があります。 Azure OpenAI API トークンの使用の制限や、Azure OpenAI トークンの使用に関するメトリックの出力、独自のカスタムポリシーなど、Azure OpenAI に固有の組み込みポリシーを組み合わせることができます。 GenAI ゲートウェイツールキットの GitHub リポジトリには、多数のカスタム API Management ポリシーと、ポリシーの動作をテストするためのロードテストセットアップが含まれています。

Azure API Management を含むソリューションを設計する場合は、 API Management の Well-Architected Framework サービスガイドを使用します。ワークロードがアプリケーションランディングゾーンの一部として存在する場合は、Azure API Management ランディングゾーンの実装に関する Azure のクラウド導入フレームワークで利用可能なガイダンスを確認。

一般に、ゲートウェイの実装に Azure API Management を使用することが、Azure OpenAI ゲートウェイの構築と運用に推奨されるアプローチです。このサービスが推奨されるのは、豊富な組み込み機能、高可用性、ネットワークオプションを備えた PaaS (サービスとしてのプラットフォーム) オファリングであるためです。また、完了 API を管理するための堅牢な APIOps アプローチも用意されています。

カスタムコードを使用する

カスタムコードのアプローチでは、ソフトウェア開発チームがカスタムコードのソリューションを作成し、チームが選択した Azure アプリケーションプラットフォームにソリューションをデプロイする必要があります。ゲートウェイロジックを処理する自己管理ソリューションの構築は、ネットワークとルーティングコードの管理に熟練したワークロードチームに適しています。

ワークロードでは通常、Azure App Services、Azure Container Apps、または Azure Kubernetes Service でゲートウェイコードをホストするなど、使い慣れたコンピューティングを使用できます。

カスタムコードのデプロイには API Management を使用することもできます。この場合、API Management は、クライアントとカスタムコードの間のコア HTTP API ゲートウェイ機能のみに使用されます。このように、カスタムコードでは、必要なビジネスロジックに基づいて、Azure OpenAI HTTP API のみとやり取りします。

Azure によってネイティブ提供されていない製品またはサービスである、Microsoft 以外のゲートウェイテクノロジの使用を、このアプローチの一部として検討することもできます。

サンプルアーキテクチャ

図 2: Azure API Management ベースのゲートウェイを介して Azure OpenAI にアクセスするアーキテクチャの例

次のステップ

インテリジェントアプリケーションと Azure OpenAI デプロイの間にゲートウェイをデプロイしてワークロード要件に対処する特定のシナリオについて説明します。

Azure OpenAI モデルのログと監視を実装する方法について説明します。

Azure OpenAI Service
Azure API Managementの API ゲートウェイ
生成 AI シナリオをカバーする API Management ランディングゾーン GitHub リポジトリ
API Management ゲートウェイツールキット
OpenAI API シミュレーター

次の方法で共有

ゲートウェイ経由で Azure OpenAI などの言語モデルにアクセスする

主な課題

信頼性に関する課題

セキュリティに関する課題

コスト最適化に関する課題

オペレーショナルエクセレンスに関する課題

パフォーマンス効率に関する課題

解決策

考慮事項

信頼性

セキュリティ

コストの最適化

オペレーショナルエクセレンス

パフォーマンス効率

実装オプション

Azure API Management の使用

カスタムコードを使用する

サンプルアーキテクチャ

次のステップ

フィードバック

その他のリソース

次の方法で共有

ゲートウェイ経由で Azure OpenAI などの言語モデルにアクセスする

主な課題

信頼性に関する課題

セキュリティに関する課題

コスト最適化に関する課題

オペレーショナル エクセレンスに関する課題

パフォーマンス効率に関する課題

解決策

考慮事項

信頼性

セキュリティ

コストの最適化

オペレーショナル エクセレンス

パフォーマンス効率

実装オプション

Azure API Management の使用

カスタム コードを使用する

サンプル アーキテクチャ

次のステップ

関連リソース

フィードバック

その他のリソース

オペレーショナルエクセレンスに関する課題

オペレーショナルエクセレンス

カスタムコードを使用する

サンプルアーキテクチャ