Azure OpenAI Service での事業継続とディザスター リカバリー (BCDR) の考慮事項
Azure OpenAI は複数のリージョンで利用できます。 Azure OpenAI リソースを作成するときに、リージョンを指定します。 それ以降、ご使用のリソースとそのすべての操作は、その Azure サーバー リージョンに関連付けられたままになります。
リージョン全体に影響が及ぶネットワークの問題が発生することはまれですが、まったくないわけではありません。 自分のサービスを常に使用できるようにする必要がある場合は、別のリージョンにフェールオーバーするか、複数のリージョン間でワークロードを分割するように設計する必要があります。 どちらのアプローチでも、別々のリージョンで少なくとも 2 つの Azure OpenAI リソースが必要です。 この記事では、Azure OpenAI アプリケーションにビジネス継続性とディザスター リカバリー (BCDR) を実装する方法に関する一般的な推奨事項について説明します。
BCDR にはカスタム コードが必要になる
現在、顧客はデプロイ時に提供されたエンドポイントを推論に対して呼び出します。 推論操作はステートレスであるため、リージョンが使用できなくなった場合でもデータは失われません。
リージョンが運用されていない場合は、顧客はサービス継続性を確保するための手順を実行する必要があります。
基本モデルとカスタマイズしたモデルの BCDR
基本モデルを使用する場合は、エラーを監視するようにクライアント コードを構成する必要があり、エラーが解決しない場合は、Azure OpenAI サブスクリプションがある別の選択したリージョンにリダイレクトするように準備する必要があります。
エラーを監視するようにクライアントを構成するには、次の手順に従います。
モデル ページを使用して、適切なデータセンターとリージョンを選択します。
プライマリ リージョンと 1 つ (以上) のセカンダリ リージョンまたはバックアップ リージョンをリストから選択します。
選択したリージョンごとに Azure OpenAI リソースを作成します。
プライマリ リージョンとすべてのバックアップ リージョンについては、コードによって次のことが認識されている必要があります。
- リソースのベース URI
- リージョン アクセス キーまたは Microsoft Entra ID アクセス
接続エラー (通常は接続タイムアウトとサービス利用不能エラー) を監視するためにコードを構成します。
- ネットワークでは一時的なエラーが発生するので、単一の接続の問題が発生した場合は、再試行することをお勧めします。
- 永続的な接続の問題については、作成したリージョン内のバックアップ リソースにトラフィックをリダイレクトします。
プライマリ リージョンでモデルを微調整した場合は、同じトレーニング データを使用してセカンダリ リージョンの基本モデルを再トレーニングする必要があります。 その後、上記の手順に従います。