Концепции модели чата с поддержкой визуального зрения

Статья
02/25/2025

Модели чата с поддержкой визуального распознавания — это большие многомодальные модели (LMM), разработанные OpenAI, которые могут анализировать изображения и предоставлять текстовые ответы на вопросы о них. Они включают как обработку естественного языка, так и визуальное понимание. Текущие модели с поддержкой визуального зрения — GPT-4 Turbo с Vision, GPT-4o и GPT-4o-mini. В этом руководстве содержатся сведения об их возможностях и ограничениях.

Сведения о модели чата с поддержкой визуального зрения см. в кратком руководстве.

Чаты с поддержкой визуального зрения

Модели с поддержкой визуального зрения отвечают на общие вопросы о том, что присутствует в отправленных изображениях.

Специальные сведения о ценах

Внимание

Сведения о ценах могут быть изменены в будущем.

Модели с поддержкой визуального зрения взимается плата, как и другие модели чата Azure OpenAI. Вы оплачиваете тариф на токены для запросов и завершения, подробные сведения на странице цен. Базовые расходы и дополнительные функции описаны здесь:

Базовая цена на GPT-4 Turbo с vision:

Входные данные: $0,01 за 1000 токенов
Выходные данные: $0,03 за 1000 токенов

Дополнительные сведения о том, как текст и изображения преобразуют в маркеры, см. в разделе "Маркеры".

Пример вычисления цен изображения

Внимание

Следующее содержимое является только примером, и цены могут быть изменены в будущем.

Для типичного варианта использования сделайте изображение как видимыми объектами, так и текстом, а также вводом запроса на 100 маркеров. При обработке запроса служба создает 100 маркеров выходных данных. На изображении можно обнаружить текст и объекты. Цена этой транзакции будет:

Товар	Подробный сведения	Себестоимость
Ввод текстового запроса	100 текстовых маркеров	$0,001
Пример входных данных изображения (см . маркеры изображения)	170 + 85 маркеров изображений	$0,00255
Расширенные функции надстроек для OCR	1,50 долл. США / 1000 транзакций	$0,0015
Расширенные функции надстройки для создания объектов	1,50 долл. США / 1000 транзакций	$0,0015
Выходные маркеры	100 токенов (предполагается)	$0,003
Всего		$0,00955

Ограничения ввода

В этом разделе описываются ограничения моделей чата с поддержкой визуального зрения.

Поддержка изображений

Максимальный размер входного изображения: максимальный размер входных изображений ограничен 20 МБ.
Низкая точность разрешения. При анализе изображений с помощью параметра "низкое разрешение" он позволяет ускорить ответы и использовать меньше маркеров ввода для определенных вариантов использования. Однако это может повлиять на точность распознавания объектов и текста в изображении.
Ограничение чата изображений: при отправке изображений на портале Azure AI Foundry или API существует ограничение в 10 изображений на звонок чата.

Следующие шаги

Начало работы с моделями с поддержкой визуального зрения, выполнив краткое руководство.
Дополнительные сведения об API см. в руководстве.
См. справочник по API завершения и внедрения

Поделиться через