Концепции модели чата с поддержкой визуального зрения
Модели чата с поддержкой визуального распознавания — это большие многомодальные модели (LMM), разработанные OpenAI, которые могут анализировать изображения и предоставлять текстовые ответы на вопросы о них. Они включают как обработку естественного языка, так и визуальное понимание. Текущие модели с поддержкой визуального зрения — GPT-4 Turbo с Vision, GPT-4o и GPT-4o-mini. В этом руководстве содержатся сведения об их возможностях и ограничениях.
Сведения о модели чата с поддержкой визуального зрения см. в кратком руководстве.
Чаты с поддержкой визуального зрения
Модели с поддержкой визуального зрения отвечают на общие вопросы о том, что присутствует в отправленных изображениях.
Специальные сведения о ценах
Внимание
Сведения о ценах могут быть изменены в будущем.
Модели с поддержкой визуального зрения взимается плата, как и другие модели чата Azure OpenAI. Вы оплачиваете тариф на токены для запросов и завершения, подробные сведения на странице цен. Базовые расходы и дополнительные функции описаны здесь:
Базовая цена на GPT-4 Turbo с vision:
- Входные данные: $0,01 за 1000 токенов
- Выходные данные: $0,03 за 1000 токенов
Дополнительные сведения о том, как текст и изображения преобразуют в маркеры, см. в разделе "Маркеры".
Пример вычисления цен изображения
Внимание
Следующее содержимое является только примером, и цены могут быть изменены в будущем.
Для типичного варианта использования сделайте изображение как видимыми объектами, так и текстом, а также вводом запроса на 100 маркеров. При обработке запроса служба создает 100 маркеров выходных данных. На изображении можно обнаружить текст и объекты. Цена этой транзакции будет:
Товар | Подробный сведения | Себестоимость |
---|---|---|
Ввод текстового запроса | 100 текстовых маркеров | $0,001 |
Пример входных данных изображения (см . маркеры изображения) | 170 + 85 маркеров изображений | $0,00255 |
Расширенные функции надстроек для OCR | 1,50 долл. США / 1000 транзакций | $0,0015 |
Расширенные функции надстройки для создания объектов | 1,50 долл. США / 1000 транзакций | $0,0015 |
Выходные маркеры | 100 токенов (предполагается) | $0,003 |
Всего | $0,00955 |
Ограничения ввода
В этом разделе описываются ограничения моделей чата с поддержкой визуального зрения.
Поддержка изображений
- Максимальный размер входного изображения: максимальный размер входных изображений ограничен 20 МБ.
- Низкая точность разрешения. При анализе изображений с помощью параметра "низкое разрешение" он позволяет ускорить ответы и использовать меньше маркеров ввода для определенных вариантов использования. Однако это может повлиять на точность распознавания объектов и текста в изображении.
- Ограничение чата изображений: при отправке изображений на портале Azure AI Foundry или API существует ограничение в 10 изображений на звонок чата.
Следующие шаги
- Начало работы с моделями с поддержкой визуального зрения, выполнив краткое руководство.
- Дополнительные сведения об API см. в руководстве.
- См. справочник по API завершения и внедрения