Compartilhar via


Conceitos de modelos de chat habilitados para Visão

Os modelos de chat habilitados para pesquisa visual são um grandes modelos multimodais (LMM) desenvolvidos pela OpenAI que podem analisar imagens e fornecer respostas textuais a perguntas sobre elas. Eles incorporam tanto o processamento de linguagem natural quanto o reconhecimento visual. Os modelos atuais habilitados para pesquisa visual são o GPT-4 Turbo com Visão, o GPT-4o e o GPT-4o-mini. Este guia fornece detalhes sobre seus recursos e limitações.

Para experimentar modelos de chat habilitados para Visão, confira o início rápido.

Chats habilitados para Visão

Os modelos atuais habilitados para pesquisa visual respondem a perguntas gerais sobre o que está presente nas imagens que você carrega.

Informações sobre preços especiais

Importante

Os detalhes de preços estão sujeitos a alterações no futuro.

Os modelos habilitados para visão acumulam cobranças como outros modelos de chat do OpenAI do Azure. Você paga uma tarifa por token para os prompts e preenchimentos, conforme detalhado na página Preços. As cobranças básicas e os recursos adicionais estão descritos abaixo:

O preço base do GPT-4 Turbo com Visão é:

  • Entrada: $0,01 por 1000 tokens
  • Saída: $0,03 por 1000 tokens

Confira a seção Tokens da visão geral para obter informações sobre como o texto e as imagens se traduzem em tokens.

Exemplo de cálculo de preço de imagem

Importante

O conteúdo a seguir é apenas um exemplo e os preços estão sujeitos a alterações no futuro.

Para um caso de uso típico, use uma imagem com objetos visíveis e texto e uma entrada de prompt de 100 tokens. Quando o serviço processa o prompt, ele gera 100 tokens de saída. Na imagem, texto e objetos podem ser detectados. O preço dessa transação seria:

Item Detalhe Custo
Entrada de prompt de texto 100 tokens de texto US$ 0,001
Entrada de imagem de exemplo (consulte tokens de imagem) 170 + 85 tokens de imagem $0.00255
Recursos avançados de complemento para OCR US$ 1,50/1.000 transações US$ 0,0015
Recursos avançados de complemento para Aterramento de Objeto US$ 1,50/1.000 transações US$ 0,0015
Tokens de saída 100 tokens (presumido) $ 0,003
Total $0.00955

Limitações de entrada

Esta seção descreve as limitações dos modelos de chat habilitados para visão.

Suporte à imagem

  • Tamanho máximo da imagem de entrada: o tamanho máximo para imagens de entrada é restrito a 20 MB.
  • Precisão de baixa resolução: quando as imagens são analisadas usando a configuração de "baixa resolução", ela permite respostas mais rápidas e usa menos tokens de entrada para determinados casos de uso. No entanto, isso pode afetar a precisão do reconhecimento de objeto e texto dentro da imagem.
  • Restrição de chat com imagem: ao carregar imagens no portal do Azure AI Foundry ou na API, há um limite de 10 imagens por chamada de chat.

Próximas etapas