Compartilhar via


Conceitos de modelos de chat habilitados para Visão

Os modelos de chat habilitados para pesquisa visual são um grandes modelos multimodais (LMM) desenvolvidos pela OpenAI que podem analisar imagens e fornecer respostas textuais a perguntas sobre elas. Eles incorporam tanto o processamento de linguagem natural quanto o reconhecimento visual. Os modelos atuais habilitados para pesquisa visual são o GPT-4 Turbo com Visão, o GPT-4o e o GPT-4o-mini. Este guia fornece detalhes sobre seus recursos e limitações.

Para experimentar modelos de chat habilitados para Visão, confira o início rápido.

Chats habilitados para Visão

Os modelos habilitados para visão respondem a perguntas gerais sobre o que está presente nas imagens ou nos vídeos que você carrega.

Informações sobre preços especiais

Importante

Os detalhes de preços estão sujeitos a alterações no futuro.

Os modelos habilitados para visão acumulam cobranças como outros modelos de chat do OpenAI do Azure. Você paga uma tarifa por token para os prompts e preenchimentos, conforme detalhado na página Preços. As cobranças básicas e os recursos adicionais estão descritos abaixo:

O preço base do GPT-4 Turbo com Visão é:

  • Entrada: $0,01 por 1000 tokens
  • Saída: $0,03 por 1000 tokens

Confira a seção Tokens da visão geral para obter informações sobre como o texto e as imagens se traduzem em tokens.

Exemplo de cálculo de preço de imagem

Importante

O conteúdo a seguir é apenas um exemplo e os preços estão sujeitos a alterações no futuro.

Para um caso de uso típico, use uma imagem com objetos visíveis e texto e uma entrada de prompt de 100 tokens. Quando o serviço processa o prompt, ele gera 100 tokens de saída. Na imagem, texto e objetos podem ser detectados. O preço dessa transação seria:

Item Detalhe Custo
Entrada de prompt de texto 100 tokens de texto US$ 0,001
Entrada de imagem de exemplo (consulte tokens de imagem) 170 + 85 tokens de imagem $0.00255
Recursos avançados de complemento para OCR US$ 1,50/1.000 transações US$ 0,0015
Recursos avançados de complemento para Aterramento de Objeto US$ 1,50/1.000 transações US$ 0,0015
Tokens de saída 100 tokens (presumido) $ 0,003
Total $0.00955

Exemplo de cálculo de preço de vídeo

Importante

O conteúdo a seguir é apenas um exemplo e os preços estão sujeitos a alterações no futuro.

Para um caso de uso típico, considere um vídeo de 3 minutos com uma inserção de prompt com 100 tokens. O vídeo tem uma transcrição com 100 tokens de comprimento e, quando processa o prompt, o serviço gera 100 tokens de resultado. O preço dessa transação seria:

Item Detalhe Custo
Tokens da inserção do GPT-4 Turbo com Visão 100 tokens de texto US$ 0,001
Custo Adicional para identificar quadros 100 tokens da inserção + 700 tokens + 1 transação de Recuperação de Vídeo $0,00825
Entradas de imagem e entrada de transcrição 20 imagens (85 tokens cada) + 100 tokens de transcrição $ 0,018
Tokens de saída 100 tokens (presumido) $ 0,003
Total $0,03025

Além disso, há um custo de indexação único de US$ 0,15 para gerar o índice da Recuperação de Vídeo para esse segmento de vídeo de 3 minutos. Esse índice pode ser reutilizado em qualquer quantidade de chamadas a API com Recuperações de Vídeo e GPT-4 Turbo com Visão.

Limitações de entrada

Esta seção descreve as limitações dos modelos de chat habilitados para visão.

Suporte à imagem

  • Tamanho máximo da imagem de entrada: o tamanho máximo para imagens de entrada é restrito a 20 MB.
  • Precisão de baixa resolução: quando as imagens são analisadas usando a configuração de "baixa resolução", ela permite respostas mais rápidas e usa menos tokens de entrada para determinados casos de uso. No entanto, isso pode afetar a precisão do reconhecimento de objeto e texto dentro da imagem.
  • Restrição de chat com imagem: ao carregar imagens no portal do Azure AI Foundry ou na API, há um limite de 10 imagens por chamada de chat.

Suporte a vídeo

  • Baixa resolução: os quadros de vídeo são analisados usando a configuração de “baixa resolução” do GPT-4 Turbo with Vision, o que pode afetar a precisão do reconhecimento de texto e objeto pequeno no vídeo.
  • Limites de arquivo de vídeo: há suporte para tipos de arquivo MP4 e MOV. No portal do Azure AI Foundry, os vídeos devem ter menos de 3 minutos de duração. Quando você usa a API, não há essa limitação.
  • Limites de prompt: as solicitações de vídeo contêm apenas um vídeo e nenhuma imagem. No portal do Azure AI Foundry, você pode limpar a sessão para testar outro vídeo ou imagens.
  • Seleção de quadro limitada: o serviço seleciona 20 quadros de todo o vídeo, o que pode não capturar todos os momentos críticos ou detalhes. A seleção de quadros pode ser distribuída uniformemente por meio do vídeo ou focada por uma consulta de recuperação de vídeo específica, dependendo do prompt.
  • Suporte ao idioma: o serviço dá suporte principalmente ao inglês para aterramento com transcrições. As transcrições não fornecem informações precisas sobre letras em músicas.

Próximas etapas