Azure OpenAI のデプロイの種類
Azure OpenAI では、お客様はビジネスと使用のパターンに合ったホスティング構造を選択できます。 このサービスで提供されるデプロイの 2 つの主要な種類は、標準とプロビジョニング済みです。 特定のデプロイの種類に対して、お客様は、Azure 地域 (Standard
または Provisioned-Managed
)、Microsoft が指定したデータ ゾーン (DataZone-Standard
または DataZone Provisioned-Managed
)、またはグローバル (Global-Standard
または Global Provisioned-Managed
) の処理オプションを選択することで、データ処理要件に合わせてワークロードを調整することができます。
実行される推論操作はどのデプロイもまったく同じですが、課金、スケール、パフォーマンスは大きく異なります。 ソリューション設計の一環として、2 つの重要な決定を行う必要があります。
- データ処理の場所
- 呼び出し量
Azure OpenAI のデプロイ データ処理の場所
標準デプロイの場合、グローバル、データ ゾーン、Azure 地域という 3 種類のデプロイ オプションから選択できます。 プロビジョニング デプロイの場合、グローバルと Azure 地域という 2 種類のデプロイ オプションから選択できます。 グローバル標準は、初めて使用する場合に推奨されます。
グローバル デプロイでは、Azure のグローバル インフラストラクチャが利用され、お客様のトラフィックはお客様の推論要求に最適な可用性を持つデータ センターに動的にルーティングされます。 これは、グローバルでは最高の初期スループット制限と最適なモデル可用性が手に入るだけでなく、アップタイムに関する SLA と低い待機時間が提供されることを意味します。 標準およびグローバル標準上の指定された使用レベルを超える大量のワークロードでは、待機時間の変動が増加する可能性があります。 大規模なワークロードの使用時に待ち時間の変動を低く抑える必要があるお客様の場合、プロビジョニング デプロイの種類を利用することをお勧めします。
グローバル デプロイは、すべての新しいモデルと特徴の最初の場所になります。 大規模かつ低待ち時間の変動要件があるお客様は、呼び出し量に応じて、プロビジョニング デプロイの種類を検討する必要があります。
データ ゾーンのデプロイでは、Azure のグローバル インフラストラクチャを利用して、Microsoft が定義したデータ ゾーン内でお客様の推論要求に最適な可用性を持つデータ センターに、お客様のトラフィックを動的にルーティングします。 データ ゾーンのデプロイは、Azure 地域とグローバル デプロイ オファリングの間に位置し、クォータ制限を引き上げられるだけでなく、Microsoft が指定したデータ ゾーン内にデータ処理をとどめることができます。 格納データは、引き続き Azure OpenAI リソースの地域にとどまります (たとえば、スウェーデン中部 Azure リージョンで作成された Azure OpenAI リソースの場合、Azure 地域はスウェーデンです)。
データ ゾーンのデプロイで使用される Azure OpenAI リソースが米国内にある場合、データは米国内で処理されます。 データ ゾーンのデプロイで使用される Azure OpenAI リソースが欧州連合加盟国内にある場合、データは欧州連合加盟国の地域内で処理されます。 Azure OpenAI Service デプロイのどの種類についても、すべての格納データは引き続き Azure OpenAI リソースの地域にとどまります。 Azure のデータ処理とコンプライアンスのコミットメントは引き続き適用されます。
"グローバル" というラベルが付いたデプロイの種類の場合、プロンプトと応答は、関連する Azure OpenAI モデルがデプロイされている任意の地域で処理される可能性があります (リージョン別のモデルの利用可用性の詳細を確認してください)。 "DataZone" というラベルが付いたデプロイの種類の場合、プロンプトと応答は、Microsoft が定義している、指定されたデータ ゾーン内の任意の地域で処理される可能性があります。 米国内にある Azure OpenAI リソース内に DataZone デプロイを作成した場合、プロンプトと応答は米国内の任意の場所で処理される可能性があります。 欧州連合加盟国内にある Azure OpenAI リソース内に DataZone デプロイを作成した場合、プロンプトと応答は、その加盟国またはその他の欧州連合加盟国内で処理される可能性があります。 グローバルと DataZone の両方のデプロイの種類で、アップロードされたデータなど、すべての格納データは、お客様が指定した地域に保存されます。 お客様が Azure OpenAI Service でグローバル デプロイの種類または DataZone デプロイの種類を使用する場合、処理の場所のみが影響を受けます。Azure のデータ処理とコンプライアンスのコミットメントは引き続き適用されます。
グローバル標準
重要
保存されたデータは指定された Azure の地理的な場所に留まりますが、推論のためのデータ処理は任意の Azure OpenAI の場所で実行される可能性があります。 データ所在地の詳細を確認する。
Global デプロイは、非グローバル デプロイ タイプと同じ Azure OpenAI リソースで利用できます。ただし、Azure のグローバル インフラストラクチャを利用して、トラフィックを要求ごとに最適な可用性のデータ センターに動的にルーティングできます。 グローバル標準では、最大の既定クォータが提供され、複数のリソース間での負荷分散の必要がなくなります。
一貫して使用量が多いお客様は、待ち時間の変動が大きくなる可能性があります。 しきい値はモデルごとに設定されます。 詳しくはクォータに関するページを参照してください。 大規模なワークロードの使用時に、変動の少ない待ち時間を必要とするアプリケーションには、プロビジョニング済みスループットを購入することをお勧めします。
グローバル プロビジョニング済み
重要
保存されたデータは指定された Azure の地理的な場所に留まりますが、推論のためのデータ処理は任意の Azure OpenAI の場所で実行される可能性があります。 データ所在地の詳細を確認する。
Global デプロイは、非グローバル デプロイ タイプと同じ Azure OpenAI リソースで利用できます。ただし、Azure のグローバル インフラストラクチャを利用して、トラフィックを要求ごとに最適な可用性のデータ センターに動的にルーティングできます。 グローバルなプロビジョニング済みデプロイでは、Azure グローバル インフラストラクチャを使用して、予測可能な高いスループットを実現するための予約済みのモデル処理容量が提供されます。
Global Batch
重要
保存されたデータは指定された Azure の地理的な場所に留まりますが、推論のためのデータ処理は任意の Azure OpenAI の場所で実行される可能性があります。 データ所在地の詳細を確認する。
Global Batch は、大規模で大量の処理タスクを効率的に処理するように設計されています。 個別のクォータ、24 時間のターゲット ターンアラウンド、Global Standard と比較した場合の 50% 低いコストで要求の非同期グループを処理します。 バッチ処理では、一度に 1 つの要求を送信するのではなく、1 つのファイル内で多数の要求を送信します。 グローバル バッチ要求には、オンライン ワークロードの中断を回避する個別のエンキュー トークン クォータがあります。
主なユース ケースは次のとおりです。
大規模なデータ処理: 広範なデータセットを並列ですばやく分析します。
コンテンツ生成: 製品の説明や記事など、大量のテキストを作成します。
ドキュメントの校閲と要約: 長いドキュメントの校閲と要約を自動化します。
カスタマー サポートの自動化: 多数の問い合わせを同時に処理して迅速な対応を実現します。
データの抽出と分析: 膨大な量の非構造化データから情報を抽出して分析します。
自然言語処理 (NLP) タスク: 大規模なデータセットに対して感情分析や翻訳などのタスクを実行します。
マーケティングとパーソナル化: パーソナル化されたコンテンツとレコメンデーションを大規模に生成します。
データ ゾーン標準
重要
格納データは指定された Azure 地域にとどまりますが、Microsoft が指定したデータ ゾーン内の任意の Azure OpenAI の場所で、推論対象のデータが処理される可能性があります。 データ所在地の詳細を確認する。
データ ゾーン標準デプロイは、Azure OpenAI のその他すべての種類のデプロイと同じ Azure OpenAI リソースで利用できます。ただし、Azure のグローバル インフラストラクチャを利用して、トラフィックを要求ごとに最適な可用性の Microsoft によって定義されたデータ ゾーン内のデータ センターに動的にルーティングできます。 データ ゾーン標準では、Azure の地理ベースのデプロイの種類よりも高い既定のクォータが提供されます。
一貫して使用量が多いお客様は、待ち時間の変動が大きくなる可能性があります。 しきい値はモデルごとに設定されます。 詳細については、「クォータと制限」ページを参照してください。 大規模な処理で低待ち時間の変動を必要とするワークロードの場合は、プロビジョニング デプロイ オファリングを利用することをお勧めします。
プロビジョニング済みのデータ ゾーン
重要
格納データは指定された Azure 地域にとどまりますが、Microsoft が指定したデータ ゾーン内の任意の Azure OpenAI の場所で、推論対象のデータが処理される可能性があります。詳細については、データ所在地に関する記事を参照してください。
データ ゾーン プロビジョニング済みデプロイは、Azure OpenAI のその他すべての種類のデプロイと同じ Azure OpenAI リソースで利用できますが、Azure のグローバル インフラストラクチャを利用して、要求ごとに最適な可用性の Microsoft によって指定されたデータ ゾーン内のデータ センターに、トラフィックを動的にルーティングできます。 データ ゾーン プロビジョニング済みデプロイでは、Microsoft が指定したデータ ゾーン内の Azure インフラストラクチャを使用して、高くて予測可能なスループットを実現するための予約されたモデル処理容量を提供します。
データ ゾーン バッチ
重要
格納データは指定された Azure 地域にとどまりますが、Microsoft が指定したデータ ゾーン内の任意の Azure OpenAI の場所で、推論対象のデータが処理される可能性があります。 データ所在地の詳細を確認する。
データ ゾーン バッチ デプロイはグローバル バッチ デプロイとすべて同じ機能を備え、さらに、Azure のグローバル インフラストラクチャを利用して、各要求に対して可用性が最も高い Microsoft 定義のデータ ゾーン内のデータ センターのみにトラフィックを動的にルーティングできます。
Standard
標準デプロイでは、選択されたモデルで呼び出し単位の支払いの課金モデルが提供されます。 消費した分だけ支払うので、最も早く使い始めることができます。 各リージョンで使用できるモデルとスループットは、制限される場合があります。
標準デプロイは、バースト性が高い中程度以下のボリューム用に最適化されています。 一貫して使用量が多いお客様は、待ち時間の変動が大きくなる可能性があります。
プロビジョニング済み
プロビジョニング済みデプロイを使うと、デプロイで必要なスループットの量を指定できます。 その後、サービスは必要なモデル処理容量を割り当て、その準備が整っていることを確認します。 スループットは、デプロイのスループットを表す正規化された方法であるプロビジョニング スループット ユニット (PTU) という観点で定義されます。 各モデルバージョン ペアでは、デプロイして PTU ごとにさまざまな量のスループットを提供するために、さまざまな量の PTU が必要となります。 詳しくは、プロビジョニング済みスループットの概念に関する記事をご覧ください。
サブスクリプションでグローバル デプロイへのアクセスを無効にする方法
Azure Policy は、組織の標準を適用し、コンプライアンスを大規模に評価するのに役立ちます。 コンプライアンス ダッシュボードを通じて、環境の全体的な状態を評価するための集計ビューを提供します。これには、リソースごと、およびポリシーごとの粒度でドリルダウンできる機能が備わっています。 既存のリソースの一括修復と新しいリソースの自動修復を使用して、お客様のリソースでコンプライアンスを実現するのにも便利です。 AI サービスに関する Azure Policy と具体的な組み込みコントロールの詳細を参照してください。
次のポリシーを使用して、任意の Azure OpenAI デプロイの種類に対するアクセスを無効にすることができます。 特定のデプロイの種類に対するアクセスを無効にするには、GlobalStandard
を、アクセスを無効にするデプロイの種類の SKU 名に置き換えます。
{
"mode": "All",
"policyRule": {
"if": {
"allOf": [
{
"field": "type",
"equals": "Microsoft.CognitiveServices/accounts/deployments"
},
{
"field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
"equals": "GlobalStandard"
}
]
}
}
}
モデルをデプロイする
リソースの作成とモデルのデプロイについては、リソース作成ガイドに関する記事をご覧ください。