Vision 対応チャットモデルの概念

[アーティクル]
02/04/2025

ビジョン対応チャットモデルは、OpenAI によって開発された大規模なマルチモーダルモデル (LMM) であり、画像を分析し、それらに関する質問に対してテキストでの応答を提供できます。自然言語処理とビジュアル解釈の両方が組み込まれています。現在のビジョン対応モデルは、GPT-4 Turbo with Vision、GPT-4o、GPT-4o-mini です。このガイドでは、その機能と制限事項について詳しく説明します。

Vision 対応チャットモデルを試すには、クイックスタートを参照してください。

ビジョン対応チャット

Vision 対応モデルは、アップロードする画像またはビデオに何が存在するかに関する一般的な質問に回答します。

特別価格情報

重要

価格の詳細は、今後変更される可能性があります。

Vision 対応モデルでは、他の Azure OpenAI チャットモデルと同様に料金が発生します。価格ページ上で詳しく説明されているように、プロンプトと入力候補に対してトークンごとに料金を支払います。基本料金と追加機能の概要を次に示します。

GPT-4 Turbo with Vision の基本価格は次のとおりです。

入力: 1000 トークンあたり $0.01
出力: 1000 トークンあたり $0.03

テキストと画像をトークンに変換する方法については、概要の「トークン」セクションをご参照ください。

イメージ価格計算例

重要

次のコンテンツはただの一例であり、価格は将来変更される可能性があります。

一般的なユースケースとして、表示されるオブジェクトとテキストの両方と 100 トークンのプロンプト入力を含むイメージを取り上げます。サービスでプロンプトが処理されると、100 個の出力トークンが生成されます。イメージでは、テキストとオブジェクトの両方を検出できます。このトランザクションの価格は次のようになります。

項目	詳細	コスト
テキストプロンプトの入力	100 個のテキストトークン	$0.001
画像入力の例 (「画像トークン」を参照)	170 + 85 個の画像トークン	$0.00255
OCR 用の拡張アドオン機能	1.50 ドル/1,000 トランザクション	0.0015 ドル
オブジェクトグラウンディング用の拡張アドオン機能	1.50 ドル/1,000 トランザクション	0.0015 ドル
出力トークン	100 個のトークン (想定)	$0.003
合計		$0.00955

ビデオ価格計算例

重要

次のコンテンツはただの一例であり、価格は将来変更される可能性があります。

一般的なユースケースの場合は、3 分間のビデオに 100 トークンのプロンプト入力を使用します。このビデオには 100 トークンの長さの音声テキストがあり、このサービスがこのプロンプトを処理すると、100 出力トークンが生成されます。このトランザクションの価格は次のようになります。

項目	詳細	コスト
GPT-4 Turbo with Vision 入力トークン	100 個のテキストトークン	$0.001
フレームを識別するための追加コスト	100 入力トークン + 700 トークン + 1 ビデオ検索トランザクション	$0.00825
画像入力とトランスクリプト入力	20 個の画像 (それぞれ 85 個のトークン) + 100 個のトランスクリプトトークン	$0.018
出力トークン	100 個のトークン (想定)	$0.003
合計		$0.03025

また、この 3 分間のビデオのビデオ検索インデックスを生成するために、$0.15 の 1 回限りのインデックス作成コストがかかります。このインデックスは、任意の回数のビデオ検索と GPT-4 Turbo with Vision API 呼び出しで再利用することができます。

入力制限

このセクションでは、Vision 対応チャットモデルの制限事項について説明します。

画像のサポート

最大入力画像サイズ: 入力画像の最大サイズは 20 MB に制限されます。
低解像度の正確性: "低解像度" 設定を使用して画像を分析すると、応答を高速にして、特定のユースケースに使用する入力トークンを減らすことができます。ただし、これは、画像内のオブジェクトとテキスト認識の正確性に影響する可能性があります。
画像チャットの制限: Azure AI Foundry ポータルまたは API 内で画像をアップロードする場合、チャットの呼び出しあたり 10 画像までという制限があります。

ビデオのサポート

低解像度: ビデオフレームは、GPT-4 Turbo with Vision の "低解像度" 設定を使用して分析されます。これは、ビデオ内の小さなオブジェクトとテキスト認識の正確性に影響を与える可能性があります。
ビデオファイルの制限: MP4 と MOV の両方のファイルの種類がサポートされています。 Azure AI Foundry ポータルでは、ビデオの長さは 3 分未満である必要があります。 API を使用する場合、このような制限はありません。
プロンプトの制限: ビデオプロンプトに含まれるビデオは 1 つだけで、画像はありません。 Azure AI Foundry ポータル内では、セッションをクリアすることで、別のビデオまたは画像を試すことができます。
限られたフレームの選択: サービスではビデオ全体から 20 フレームを選択します。これでは、重要なすべての瞬間や詳細がキャプチャされない場合があります。フレームの選択は、プロンプトに応じて、ビデオ全体にほぼ均等に分散するか、特定のビデオ検索クエリでフォーカスすることができます。
言語のサポート: サービスでは主に、トランスクリプトを使用したグラウディングに英語がサポートされています。トランスクリプトでは、曲の歌詞に関する正確な情報を提供しません。

次のステップ

クイックスタートに従って、Vision 対応モデルの使用を開始します。
API の詳細を確認し、チャット内でビデオプロンプトを使用するには、攻略ガイドに従ってください。
入力候補および埋め込み API リファレンスをご参照ください

次の方法で共有

Vision 対応チャットモデルの概念

ビジョン対応チャット

特別価格情報

イメージ価格計算例

ビデオ価格計算例

入力制限

画像のサポート

ビデオのサポート

次のステップ

フィードバック

その他のリソース

次の方法で共有

Vision 対応チャット モデルの概念

ビジョン対応チャット

特別価格情報

イメージ価格計算例

ビデオ価格計算例

入力制限

画像のサポート

ビデオのサポート

次のステップ

フィードバック

その他のリソース

Vision 対応チャットモデルの概念