次の方法で共有


Azure OpenAI のデプロイの種類

Azure OpenAI では、お客様はビジネスと使用のパターンに合ったホスティング構造を選択できます。 このサービスで提供されるデプロイの 2 つの主要な種類は、標準プロビジョニング済みです。 特定のデプロイの種類に対して、お客様は、Azure 地域 (Standard または Provisioned)、Microsoft が指定したデータ ゾーン (DataZone-Standard)、またはグローバル (Global-Standard または Global Provisioned-Managed) の処理オプションを選択することで、データ処理要件に合わせてワークロードを調整することができます。

実行される推論操作はどのデプロイもまったく同じですが、課金、スケール、パフォーマンスは大きく異なります。 ソリューション設計の一環として、2 つの重要な決定を行う必要があります。

  • データ処理の場所
  • 呼び出し量

Azure OpenAI のデプロイ データ処理の場所

標準デプロイの場合、グローバル、データ ゾーン、Azure 地域という 3 種類のデプロイ オプションから選択できます。 プロビジョニング デプロイの場合、グローバルと Azure 地域という 2 種類のデプロイ オプションから選択できます。 グローバル標準は、初めて使用する場合に推奨されます。

グローバル デプロイでは、Azure のグローバル インフラストラクチャが利用され、お客様のトラフィックはお客様の推論要求に最適な可用性を持つデータ センターに動的にルーティングされます。 これは、グローバルでは最高の初期スループット制限と最適なモデル可用性が手に入るだけでなく、アップタイムに関する SLA と低い待機時間が提供されることを意味します。 標準およびグローバル標準上の指定された使用レベルを超える大量のワークロードでは、待機時間の変動が増加する可能性があります。 大規模なワークロードの使用時に待ち時間の変動を低く抑える必要があるお客様の場合、プロビジョニング デプロイの種類を利用することをお勧めします。

グローバル デプロイは、すべての新しいモデルと特徴の最初の場所になります。 大規模かつ低待ち時間の変動要件があるお客様は、呼び出し量に応じて、プロビジョニング デプロイの種類を検討する必要があります。

データ ゾーンのデプロイでは、Azure のグローバル インフラストラクチャを利用して、Microsoft が定義したデータ ゾーン内でお客様の推論要求に最適な可用性を持つデータ センターに、お客様のトラフィックを動的にルーティングします。 データ ゾーンのデプロイは、Azure 地域とグローバル デプロイ オファリングの間に位置し、クォータ制限を引き上げられるだけでなく、Microsoft が指定したデータ ゾーン内にデータ処理をとどめることができます。 格納データは、引き続き Azure OpenAI リソースの地域にとどまります (たとえば、スウェーデン中部 Azure リージョンで作成された Azure OpenAI リソースの場合、Azure 地域はスウェーデンです)。

データ ゾーンのデプロイで使用される Azure OpenAI リソースが米国内にある場合、データは米国内で処理されます。 データ ゾーンのデプロイで使用される Azure OpenAI リソースが欧州連合加盟国内にある場合、データは欧州連合加盟国の地域内で処理されます。 Azure OpenAI Service デプロイのどの種類についても、すべての格納データは引き続き Azure OpenAI リソースの地域にとどまります。 Azure のデータ処理とコンプライアンスのコミットメントは引き続き適用されます。

デプロイのタイプ

Azure OpenAI には、3 種類のデプロイが用意されています。 これらで提供される異なるレベルの機能の間には、スループット、SLA、価格に関するトレードオフがあります。 オプションの概要と、それぞれの詳細な説明を次に示します。

サービス Global-Batch グローバル標準 グローバル プロビジョニング済み Standard プロビジョニング済み
最適な用途 オフライン スコアリング

遅延に敏感ではなく数時間で完了できるワークロード。

お客様に推奨される出発点。

Global-Standard では、Standard よりも高い既定クォータとより多くのモデルを利用できます。
大きくて一貫したボリューム用のリアルタイム スコアリング。 最高のコミットメントと制限が含まれます。 データ所在地の要件があるお客様向け。 中程度以下のボリューム用に最適化。 大きくて一貫したボリューム用のリアルタイム スコアリング。 最高のコミットメントと制限が含まれます。 データ所在地に関する要件があるユース ケース向け
動作のしくみ ファイルを介したオフライン処理 世界中のどこにでもトラフィックをルーティングできます 世界中のどこにでもトラフィックをルーティングできます
作業の開始 Global-Batch モデル デプロイ プロビジョニング済みのオンボード モデル デプロイ プロビジョニング済みのオンボード
原価 最も安価なオプション
Global Standard の価格と比べて 50% 低いコスト。 クォータ割り当てが大きい新しいモデルすべてにアクセス可能。
グローバル デプロイの価格 一貫した使用ではコストを節約できる可能性があります リージョンの価格 一貫した使用ではコストを節約できる可能性があります
取得内容 Global Standard と比較した場合の大幅な割引 最も高い既定の呼び出し単位の支払い制限で、すべての新しいモデルに簡単にアクセスできます。

使用量が多いお客様は、待ち時間の変動が大きくなる可能性があります
Azure グローバル インフラストラクチャ全体での高くて予測可能なスループットへのアクセス。 提供されている容量計算ツールを使用して PTU あたりのスループットを決定します。 可用性に関するSLA で簡単にアクセスできます。 バースト性が高い中程度以下のボリューム用に最適化。

一貫して使用量が多いお客様は、待ち時間の変動が大きくなる可能性があります。
非常に高く予測可能なスループットでのリージョン アクセス。 提供されている容量計算ツールを使用して PTU あたりのスループットを決定します
得られないもの ❌リアルタイム呼び出しのパフォーマンス

❌データ処理の保証

保存されたデータは指定された Azure の地理的な場所に留まりますが、推論のためのデータ処理は任意の Azure OpenAI の場所で実行される可能性があります。 データ所在地の詳細を確認する
❌データ処理の保証

保存されたデータは指定された Azure の地理的な場所に留まりますが、推論のためのデータ処理は任意の Azure OpenAI の場所で実行される可能性があります。 データ所在地の詳細を確認する
❌呼び出し単位の支払いの柔軟性

❌データ処理の保証

保存されたデータは指定された Azure の地理的な場所に留まりますが、推論のためのデータ処理は任意の Azure OpenAI の場所で実行される可能性があります。 データ所在地の詳細を確認する
❌一貫した低遅延での高いボリューム ❌呼び出し単位の支払いの柔軟性
呼び出しごとの待ち時間 該当なし (ファイルベースの非同期プロセス) リアルタイムの呼び出しと、中程度以下の使用量に最適化。 使用量が多いお客様は、待ち時間の変動が大きくなる可能性があります。 モデルごとに設定されたしきい値 リアルタイム呼び出しと高い使用量向けに最適化されています。 リアルタイムの呼び出しと、中程度以下の使用量に最適化。 使用量が多いお客様は、待ち時間の変動が大きくなる可能性があります。 モデルごとに設定されたしきい値 リアルタイム呼び出しと高い使用量向けに最適化されています。
コード内の SKU 名 GlobalBatch GlobalStandard GlobalProvisionedManaged Standard ProvisionedManaged
課金モデル トークン単位の支払い トークン単位の支払い 時間単位の課金とオプションとしての月単位または年単位の予約の購入 トークン単位の支払い 時間単位の課金とオプションとしての月単位または年単位の予約の購入

グローバル標準

重要

保存されたデータは指定された Azure の地理的な場所に留まりますが、推論のためのデータ処理は任意の Azure OpenAI の場所で実行される可能性があります。 データ所在地の詳細を確認する

Global デプロイは、非グローバル デプロイ タイプと同じ Azure OpenAI リソースで利用できます。ただし、Azure のグローバル インフラストラクチャを利用して、トラフィックを要求ごとに最適な可用性のデータ センターに動的にルーティングできます。 グローバル標準では、最大の既定クォータが提供され、複数のリソース間での負荷分散の必要がなくなります。

一貫して使用量が多いお客様は、待ち時間の変動が大きくなる可能性があります。 しきい値はモデルごとに設定されます。 詳しくはクォータに関するページを参照してください。 大規模なワークロードの使用時に、変動の少ない待ち時間を必要とするアプリケーションには、プロビジョニング済みスループットを購入することをお勧めします。

グローバル プロビジョニング済み

重要

保存されたデータは指定された Azure の地理的な場所に留まりますが、推論のためのデータ処理は任意の Azure OpenAI の場所で実行される可能性があります。 データ所在地の詳細を確認する

Global デプロイは、非グローバル デプロイ タイプと同じ Azure OpenAI リソースで利用できます。ただし、Azure のグローバル インフラストラクチャを利用して、トラフィックを要求ごとに最適な可用性のデータ センターに動的にルーティングできます。 グローバルなプロビジョニング済みデプロイでは、Azure グローバル インフラストラクチャを使用して、予測可能な高いスループットを実現するための予約済みのモデル処理容量が提供されます。

Global Batch

重要

保存されたデータは指定された Azure の地理的な場所に留まりますが、推論のためのデータ処理は任意の Azure OpenAI の場所で実行される可能性があります。 データ所在地の詳細を確認する

Global Batch は、大規模で大量の処理タスクを効率的に処理するように設計されています。 個別のクォータ、24 時間のターゲット ターンアラウンド、Global Standard と比較した場合の 50% 低いコストで要求の非同期グループを処理します。 バッチ処理では、一度に 1 つの要求を送信するのではなく、1 つのファイル内で多数の要求を送信します。 グローバル バッチ要求には、オンライン ワークロードの中断を回避する個別のエンキュー トークン クォータがあります。

主なユース ケースは次のとおりです。

  • 大規模なデータ処理: 広範なデータセットを並列ですばやく分析します。

  • コンテンツ生成: 製品の説明や記事など、大量のテキストを作成します。

  • ドキュメントの校閲と要約: 長いドキュメントの校閲と要約を自動化します。

  • カスタマー サポートの自動化: 多数の問い合わせを同時に処理して迅速な対応を実現します。

  • データの抽出と分析: 膨大な量の非構造化データから情報を抽出して分析します。

  • 自然言語処理 (NLP) タスク: 大規模なデータセットに対して感情分析や翻訳などのタスクを実行します。

  • マーケティングとパーソナル化: パーソナル化されたコンテンツとレコメンデーションを大規模に生成します。

データ ゾーン標準

重要

格納データは指定された Azure 地域にとどまりますが、Microsoft が指定したデータ ゾーン内の任意の Azure OpenAI の場所で、推論対象のデータが処理される可能性があります。 データ所在地の詳細を確認する

データ ゾーン標準デプロイは、Azure OpenAI のその他すべての種類のデプロイと同じ Azure OpenAI リソースで利用できます。ただし、Azure のグローバル インフラストラクチャを利用して、トラフィックを要求ごとに最適な可用性の Microsoft によって定義されたデータ ゾーン内のデータ センターに動的にルーティングできます。 データ ゾーン標準では、Azure の地理ベースのデプロイの種類よりも高い既定のクォータが提供されます。

一貫して使用量が多いお客様は、待ち時間の変動が大きくなる可能性があります。 しきい値はモデルごとに設定されます。 詳細については、「クォータと制限」ページを参照してください。 大規模な処理で低待ち時間の変動を必要とするワークロードの場合は、プロビジョニング デプロイ オファリングを利用することをお勧めします。

Standard

標準デプロイでは、選択されたモデルで呼び出し単位の支払いの課金モデルが提供されます。 消費した分だけ支払うので、最も早く使い始めることができます。 各リージョンで使用できるモデルとスループットは、制限される場合があります。

標準デプロイは、バースト性が高い中程度以下のボリューム用に最適化されています。 一貫して使用量が多いお客様は、待ち時間の変動が大きくなる可能性があります。

プロビジョニング済み

プロビジョニング済みデプロイを使うと、デプロイで必要なスループットの量を指定できます。 その後、サービスは必要なモデル処理容量を割り当て、その準備が整っていることを確認します。 スループットは、デプロイのスループットを表す正規化された方法であるプロビジョニング スループット ユニット (PTU) という観点で定義されます。 各モデルバージョン ペアでは、デプロイして PTU ごとにさまざまな量のスループットを提供するために、さまざまな量の PTU が必要となります。 詳しくは、プロビジョニング済みスループットの概念に関する記事をご覧ください。

サブスクリプションでグローバル デプロイへのアクセスを無効にする方法

Azure Policy は、組織の標準を適用し、コンプライアンスを大規模に評価するのに役立ちます。 コンプライアンス ダッシュボードを通じて、環境の全体的な状態を評価するための集計ビューを提供します。これには、リソースごと、およびポリシーごとの粒度でドリルダウンできる機能が備わっています。 既存のリソースの一括修復と新しいリソースの自動修復を使用して、お客様のリソースでコンプライアンスを実現するのにも便利です。 AI サービスに関する Azure Policy と具体的な組み込みコントロールの詳細を参照してください

次のポリシーを使用して、Azure OpenAI のグローバル標準デプロイへのアクセスを無効にできます。 Azure のグローバル プロビジョニング済み、またはグローバル バッチ デプロイへのアクセスを無効にするには、目的の SKU 名で GlobalStandardGlobalProvisionedManaged または GlobalBatch に置き換えます。

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

モデルをデプロイする

3 種類のデプロイが強調されている、Azure AI Studio のモデルのデプロイ ダイアログを示すスクリーンショット。

リソースの作成とモデルのデプロイについては、リソース作成ガイドに関する記事をご覧ください。

関連項目