已啟用視覺的聊天模型概念

啟用視覺的聊天模型是由 OpenAI 開發的大型多模式模型（LMM），可分析影像並提供文字回應，以回答有關影像的問題。它們同時納入自然語言處理和視覺理解。目前啟用視覺的模型是具有視覺功能的 GPT-4 Turbo、GPT-4o 和 GPT-4o-mini。本指南提供其功能和限制的詳細數據。

若要試用已啟用視覺的聊天模型，請參閱快速入門。

已啟用視覺的聊天

啟用視覺的模型會回答有關您所上傳影像中存在的一般問題。

重要

價格詳細資訊未來可能會變更。

啟用視覺的模型會像其他 Azure OpenAI 聊天模型一樣產生費用。您要為提示和完成依每個權杖費率付費，詳細資料位於定價頁面上。基本費用和其他功能如下所述：

包含視覺功能的 GPT-4 Turbo 基本價格為：

如需文字和影像如何轉譯為權杖的詳細資訊，請參閱概觀的權杖區段。

重要

下列內容僅作為範例使用，未來價格可能會變更。

針對一般使用案例，請同時以可見物件和文字及 100 個權杖提示輸入拍攝影像。當服務處理提示時，會產生 100 個輸出權杖。在影像中，可以偵測到文字和物件。此交易的價格如下：

本節說明已啟用視覺的聊天模型限制。