GPT-4 Turbo с концепциями визуального зрения
GPT-4 Turbo с Vision — это большая многомодальная модель (LMM), разработанная OpenAI, которая может анализировать изображения и предоставлять текстовые ответы на вопросы о них. Он включает как обработку естественного языка, так и визуальное понимание. В этом руководстве содержатся сведения о возможностях и ограничениях GPT-4 Turbo с помощью Vision.
Чтобы попробовать GPT-4 Turbo с Vision, ознакомьтесь с кратким руководством.
Чаты с видением
GPT-4 Turbo с моделью визуального зрения отвечает на общие вопросы о том, что присутствует в изображениях или видео, которые вы отправляете.
Специальные сведения о ценах
Внимание
Сведения о ценах могут быть изменены в будущем.
GPT-4 Turbo с Vision взимает плату, как и другие модели чата Azure OpenAI. Вы оплачиваете тариф на токены для запросов и завершения, подробные сведения на странице цен. Базовые расходы и дополнительные функции описаны здесь:
Базовая цена на GPT-4 Turbo с vision:
- Входные данные: $0,01 за 1000 токенов
- Выходные данные: $0,03 за 1000 токенов
Дополнительные сведения о том, как текст и изображения преобразуют в маркеры, см. в разделе "Маркеры".
Пример вычисления цен изображения
Внимание
Следующее содержимое является только примером, и цены могут быть изменены в будущем.
Для типичного варианта использования сделайте изображение как видимыми объектами, так и текстом, а также вводом запроса на 100 маркеров. При обработке запроса служба создает 100 маркеров выходных данных. На изображении можно обнаружить текст и объекты. Цена этой транзакции будет:
Товар | Подробный сведения | Себестоимость |
---|---|---|
Ввод текстового запроса | 100 текстовых маркеров | $0,001 |
Пример входных данных изображения (см . маркеры изображения) | 170 + 85 маркеров изображений | $0,00255 |
Расширенные функции надстроек для OCR | 1,50 долл. США / 1000 транзакций | $0,0015 |
Расширенные функции надстройки для создания объектов | 1,50 долл. США / 1000 транзакций | $0,0015 |
Выходные маркеры | 100 токенов (предполагается) | $0,003 |
Всего | $0,00955 |
Пример вычисления цен на видео
Внимание
Следующее содержимое является только примером, и цены могут быть изменены в будущем.
Для типичного варианта использования выполните 3-минутное видео с вводом запроса на 100 маркеров. Видео имеет расшифровку, которая имеет 100 маркеров длиной, и когда служба обрабатывает запрос, он создает 100 маркеров выходных данных. Цены на эту транзакцию будут следующими:
Товар | Подробный сведения | Себестоимость |
---|---|---|
GPT-4 Turbo с маркерами ввода визуального зрения | 100 текстовых маркеров | $0,001 |
Дополнительные затраты для идентификации кадров | 100 входных маркеров + 700 маркеров + 1 транзакция получения видео | $0,00825 |
Входные данные изображения и входные данные транскрибирования | 20 изображений (85 токенов каждый) + 100 маркеров расшифровки | $0,018 |
Выходные маркеры | 100 токенов (предполагается) | $0,003 |
Всего | $0,03025 |
Кроме того, существует однократная стоимость индексирования $ 0,15 для создания индекса извлечения видео для этого 3-минутного видео. Этот индекс можно повторно использовать в любом количестве вызовов API видео и GPT-4 Turbo.
Ограничения ввода
В этом разделе описываются ограничения GPT-4 Turbo с vision.
Поддержка изображений
- Максимальный размер входного изображения: максимальный размер входных изображений ограничен 20 МБ.
- Низкая точность разрешения. При анализе изображений с помощью параметра "низкое разрешение" он позволяет ускорить ответы и использовать меньше маркеров ввода для определенных вариантов использования. Однако это может повлиять на точность распознавания объектов и текста в изображении.
- Ограничение чата изображений. При отправке изображений в Azure AI Studio или API существует ограничение в 10 изображений на звонок чата.
Поддержка видео
- Низкое разрешение: видеокадры анализируются с помощью GPT-4 Turbo с параметром "низкое разрешение", что может повлиять на точность небольшого объекта и распознавания текста в видео.
- Ограничения видеофайла: поддерживаются типы файлов MP4 и MOV. В Azure AI Studio видео должно быть менее 3 минут. При использовании API нет такого ограничения.
- Ограничения запроса. Запросы видео содержат только одно видео и не содержат изображения. В Azure AI Studio можно очистить сеанс, чтобы попробовать другое видео или изображения.
- Ограниченный выбор кадров: служба выбирает 20 кадров из всего видео, которые могут не записывать все критические моменты или детали. Выбор кадра может быть приблизительно равномерно распределен по видео или сосредоточиться на определенном запросе на получение видео в зависимости от запроса.
- Поддержка языка: служба в основном поддерживает английский язык для создания стенограмм. Расшифровки не предоставляют точную информацию о текстах песен.
Следующие шаги
- Начало работы с GPT-4 Turbo с Vision, выполнив краткое руководство.
- Дополнительные сведения об API и использовании видеосвязи в чате см . в руководстве.
- См. справочник по API завершения и внедрения