Conceitos de modelos de chat habilitados para Visão
Os modelos de chat habilitados para pesquisa visual são um grandes modelos multimodais (LMM) desenvolvidos pela OpenAI que podem analisar imagens e fornecer respostas textuais a perguntas sobre elas. Eles incorporam tanto o processamento de linguagem natural quanto o reconhecimento visual. Os modelos atuais habilitados para pesquisa visual são o GPT-4 Turbo com Visão, o GPT-4o e o GPT-4o-mini. Este guia fornece detalhes sobre seus recursos e limitações.
Para experimentar modelos de chat habilitados para Visão, confira o início rápido.
Chats habilitados para Visão
Os modelos atuais habilitados para pesquisa visual respondem a perguntas gerais sobre o que está presente nas imagens que você carrega.
Informações sobre preços especiais
Importante
Os detalhes de preços estão sujeitos a alterações no futuro.
Os modelos habilitados para visão acumulam cobranças como outros modelos de chat do OpenAI do Azure. Você paga uma tarifa por token para os prompts e preenchimentos, conforme detalhado na página Preços. As cobranças básicas e os recursos adicionais estão descritos abaixo:
O preço base do GPT-4 Turbo com Visão é:
- Entrada: $0,01 por 1000 tokens
- Saída: $0,03 por 1000 tokens
Confira a seção Tokens da visão geral para obter informações sobre como o texto e as imagens se traduzem em tokens.
Exemplo de cálculo de preço de imagem
Importante
O conteúdo a seguir é apenas um exemplo e os preços estão sujeitos a alterações no futuro.
Para um caso de uso típico, use uma imagem com objetos visíveis e texto e uma entrada de prompt de 100 tokens. Quando o serviço processa o prompt, ele gera 100 tokens de saída. Na imagem, texto e objetos podem ser detectados. O preço dessa transação seria:
Item | Detalhe | Custo |
---|---|---|
Entrada de prompt de texto | 100 tokens de texto | US$ 0,001 |
Entrada de imagem de exemplo (consulte tokens de imagem) | 170 + 85 tokens de imagem | $0.00255 |
Recursos avançados de complemento para OCR | US$ 1,50/1.000 transações | US$ 0,0015 |
Recursos avançados de complemento para Aterramento de Objeto | US$ 1,50/1.000 transações | US$ 0,0015 |
Tokens de saída | 100 tokens (presumido) | $ 0,003 |
Total | $0.00955 |
Limitações de entrada
Esta seção descreve as limitações dos modelos de chat habilitados para visão.
Suporte à imagem
- Tamanho máximo da imagem de entrada: o tamanho máximo para imagens de entrada é restrito a 20 MB.
- Precisão de baixa resolução: quando as imagens são analisadas usando a configuração de "baixa resolução", ela permite respostas mais rápidas e usa menos tokens de entrada para determinados casos de uso. No entanto, isso pode afetar a precisão do reconhecimento de objeto e texto dentro da imagem.
- Restrição de chat com imagem: ao carregar imagens no portal do Azure AI Foundry ou na API, há um limite de 10 imagens por chamada de chat.
Próximas etapas
- Comece a usar modelos habilitados para visão seguindo o início rápido.
- Para obter uma análise mais detalhada das APIs, siga o guia de instruções.
- Confira a referência da API de preenchimentos e incorporações