共用方式為


已啟用視覺的聊天模型概念

啟用視覺的聊天模型是由 OpenAI 開發的大型多模式模型(LMM),可分析影像並提供文字回應,以回答有關影像的問題。 它們同時納入自然語言處理和視覺理解。 目前啟用視覺的模型是具有視覺功能的 GPT-4 Turbo、GPT-4o 和 GPT-4o-mini。 本指南提供其功能和限制的詳細數據。

若要試用已啟用視覺的聊天模型,請參閱 快速入門

已啟用視覺的聊天

啟用視覺的模型會回答有關您所上傳影像中存在的一般問題。

優惠價格資訊

重要

價格詳細資訊未來可能會變更。

啟用視覺的模型會像其他 Azure OpenAI 聊天模型一樣產生費用。 您要為提示和完成依每個權杖費率付費,詳細資料位於定價頁面上。 基本費用和其他功能如下所述:

包含視覺功能的 GPT-4 Turbo 基本價格為:

  • 輸入:每 1000 個權杖美金 $0.01 元
  • 輸出:每 1000 個權杖美金 $0.03 元

如需文字和影像如何轉譯為權杖的詳細資訊,請參閱概觀的權杖區段

範例影像價格計算

重要

下列內容僅作為範例使用,未來價格可能會變更。

針對一般使用案例,請同時以可見物件和文字及 100 個權杖提示輸入拍攝影像。 當服務處理提示時,會產生 100 個輸出權杖。 在影像中,可以偵測到文字和物件。 此交易的價格如下:

項目 詳細資料 成本
文字提示輸入 100 個文字權杖 $0.001
範例影像輸入 (請參閱影像權杖) 170 + 85 個影像權杖 $0.00255
OCR 的增強附加元件功能 $1.50 / 1000 筆交易 $0.0015
物件基礎的增強附加元件功能 $1.50 / 1000 筆交易 $0.0015
輸出權杖 100 個權杖 (假設) $0.003
總數 $0.00955

輸入限制

本節說明已啟用視覺的聊天模型限制。

影像支援

  • 輸入影像大小上限:輸入影像的大小上限限製為 20 MB。
  • 低解析度精確度:使用「低解析度」設定分析影像時,可加快回應速度,並針對特定使用案例使用較少的輸入權杖。 不過,這可能會影響影像中物件和文字辨識的精確度。
  • 影像聊天限制:當您在 Azure AI Foundry 入口網站或 API 中上傳影像時,每個聊天通話的限制為 10 個影像。

下一步