Conceitos de modelos de chat habilitados para Visão

Artigo
02/28/2025

Os modelos de chat habilitados para pesquisa visual são um grandes modelos multimodais (LMM) desenvolvidos pela OpenAI que podem analisar imagens e fornecer respostas textuais a perguntas sobre elas. Eles incorporam tanto o processamento de linguagem natural quanto o reconhecimento visual. Os modelos atuais habilitados para pesquisa visual são o GPT-4 Turbo com Visão, o GPT-4o e o GPT-4o-mini. Este guia fornece detalhes sobre seus recursos e limitações.

Para experimentar modelos de chat habilitados para Visão, confira o início rápido.

Chats habilitados para Visão

Os modelos atuais habilitados para pesquisa visual respondem a perguntas gerais sobre o que está presente nas imagens que você carrega.

Informações sobre preços especiais

Importante

Os detalhes de preços estão sujeitos a alterações no futuro.

Os modelos habilitados para visão acumulam cobranças como outros modelos de chat do OpenAI do Azure. Você paga uma tarifa por token para os prompts e preenchimentos, conforme detalhado na página Preços. As cobranças básicas e os recursos adicionais estão descritos abaixo:

O preço base do GPT-4 Turbo com Visão é:

Entrada: $0,01 por 1000 tokens
Saída: $0,03 por 1000 tokens

Confira a seção Tokens da visão geral para obter informações sobre como o texto e as imagens se traduzem em tokens.

Exemplo de cálculo de preço de imagem

Importante

O conteúdo a seguir é apenas um exemplo e os preços estão sujeitos a alterações no futuro.

Para um caso de uso típico, use uma imagem com objetos visíveis e texto e uma entrada de prompt de 100 tokens. Quando o serviço processa o prompt, ele gera 100 tokens de saída. Na imagem, texto e objetos podem ser detectados. O preço dessa transação seria:

Item	Detalhe	Custo
Entrada de prompt de texto	100 tokens de texto	US$ 0,001
Entrada de imagem de exemplo (consulte tokens de imagem)	170 + 85 tokens de imagem	$0.00255
Recursos avançados de complemento para OCR	US$ 1,50/1.000 transações	US$ 0,0015
Recursos avançados de complemento para Aterramento de Objeto	US$ 1,50/1.000 transações	US$ 0,0015
Tokens de saída	100 tokens (presumido)	$ 0,003
Total		$0.00955

Limitações de entrada

Esta seção descreve as limitações dos modelos de chat habilitados para visão.

Suporte à imagem

Tamanho máximo da imagem de entrada: o tamanho máximo para imagens de entrada é restrito a 20 MB.
Precisão de baixa resolução: quando as imagens são analisadas usando a configuração de "baixa resolução", ela permite respostas mais rápidas e usa menos tokens de entrada para determinados casos de uso. No entanto, isso pode afetar a precisão do reconhecimento de objeto e texto dentro da imagem.
Restrição de chat com imagem: ao carregar imagens no portal do Azure AI Foundry ou na API, há um limite de 10 imagens por chamada de chat.

Próximas etapas

Comece a usar modelos habilitados para visão seguindo o início rápido.
Para obter uma análise mais detalhada das APIs, siga o guia de instruções.
Confira a referência da API de preenchimentos e incorporações

Compartilhar via