Поделиться через


Концепции модели чата с поддержкой визуального зрения

Модели чата с поддержкой визуального распознавания — это большие многомодальные модели (LMM), разработанные OpenAI, которые могут анализировать изображения и предоставлять текстовые ответы на вопросы о них. Они включают как обработку естественного языка, так и визуальное понимание. Текущие модели с поддержкой визуального зрения — GPT-4 Turbo с Vision, GPT-4o и GPT-4o-mini. В этом руководстве содержатся сведения об их возможностях и ограничениях.

Сведения о модели чата с поддержкой визуального зрения см. в кратком руководстве.

Чаты с поддержкой визуального зрения

Модели с поддержкой визуального зрения отвечают на общие вопросы о том, что присутствует в отправленных изображениях.

Специальные сведения о ценах

Внимание

Сведения о ценах могут быть изменены в будущем.

Модели с поддержкой визуального зрения взимается плата, как и другие модели чата Azure OpenAI. Вы оплачиваете тариф на токены для запросов и завершения, подробные сведения на странице цен. Базовые расходы и дополнительные функции описаны здесь:

Базовая цена на GPT-4 Turbo с vision:

  • Входные данные: $0,01 за 1000 токенов
  • Выходные данные: $0,03 за 1000 токенов

Дополнительные сведения о том, как текст и изображения преобразуют в маркеры, см. в разделе "Маркеры".

Пример вычисления цен изображения

Внимание

Следующее содержимое является только примером, и цены могут быть изменены в будущем.

Для типичного варианта использования сделайте изображение как видимыми объектами, так и текстом, а также вводом запроса на 100 маркеров. При обработке запроса служба создает 100 маркеров выходных данных. На изображении можно обнаружить текст и объекты. Цена этой транзакции будет:

Товар Подробный сведения Себестоимость
Ввод текстового запроса 100 текстовых маркеров $0,001
Пример входных данных изображения (см . маркеры изображения) 170 + 85 маркеров изображений $0,00255
Расширенные функции надстроек для OCR 1,50 долл. США / 1000 транзакций $0,0015
Расширенные функции надстройки для создания объектов 1,50 долл. США / 1000 транзакций $0,0015
Выходные маркеры 100 токенов (предполагается) $0,003
Всего $0,00955

Ограничения ввода

В этом разделе описываются ограничения моделей чата с поддержкой визуального зрения.

Поддержка изображений

  • Максимальный размер входного изображения: максимальный размер входных изображений ограничен 20 МБ.
  • Низкая точность разрешения. При анализе изображений с помощью параметра "низкое разрешение" он позволяет ускорить ответы и использовать меньше маркеров ввода для определенных вариантов использования. Однако это может повлиять на точность распознавания объектов и текста в изображении.
  • Ограничение чата изображений: при отправке изображений на портале Azure AI Foundry или API существует ограничение в 10 изображений на звонок чата.

Следующие шаги