已啟用視覺的聊天模型概念
啟用視覺的聊天模型是由 OpenAI 開發的大型多模式模型(LMM),可分析影像並提供文字回應,以回答有關影像的問題。 它們同時納入自然語言處理和視覺理解。 目前啟用視覺的模型是具有視覺功能的 GPT-4 Turbo、GPT-4o 和 GPT-4o-mini。 本指南提供其功能和限制的詳細數據。
若要試用已啟用視覺的聊天模型,請參閱 快速入門。
已啟用視覺的聊天
啟用視覺的模型會回答有關您所上傳影像中存在的一般問題。
優惠價格資訊
重要
價格詳細資訊未來可能會變更。
啟用視覺的模型會像其他 Azure OpenAI 聊天模型一樣產生費用。 您要為提示和完成依每個權杖費率付費,詳細資料位於定價頁面上。 基本費用和其他功能如下所述:
包含視覺功能的 GPT-4 Turbo 基本價格為:
- 輸入:每 1000 個權杖美金 $0.01 元
- 輸出:每 1000 個權杖美金 $0.03 元
如需文字和影像如何轉譯為權杖的詳細資訊,請參閱概觀的權杖區段。
範例影像價格計算
重要
下列內容僅作為範例使用,未來價格可能會變更。
針對一般使用案例,請同時以可見物件和文字及 100 個權杖提示輸入拍攝影像。 當服務處理提示時,會產生 100 個輸出權杖。 在影像中,可以偵測到文字和物件。 此交易的價格如下:
項目 | 詳細資料 | 成本 |
---|---|---|
文字提示輸入 | 100 個文字權杖 | $0.001 |
範例影像輸入 (請參閱影像權杖) | 170 + 85 個影像權杖 | $0.00255 |
OCR 的增強附加元件功能 | $1.50 / 1000 筆交易 | $0.0015 |
物件基礎的增強附加元件功能 | $1.50 / 1000 筆交易 | $0.0015 |
輸出權杖 | 100 個權杖 (假設) | $0.003 |
總數 | $0.00955 |
輸入限制
本節說明已啟用視覺的聊天模型限制。
影像支援
- 輸入影像大小上限:輸入影像的大小上限限製為 20 MB。
- 低解析度精確度:使用「低解析度」設定分析影像時,可加快回應速度,並針對特定使用案例使用較少的輸入權杖。 不過,這可能會影響影像中物件和文字辨識的精確度。
- 影像聊天限制:當您在 Azure AI Foundry 入口網站或 API 中上傳影像時,每個聊天通話的限制為 10 個影像。
下一步
- 遵循快速入門,開始使用已啟用視覺的模型。
- 如需深入瞭解 API,請遵循 作說明指南。
- 請參閱完成和內嵌 API 參照