Compartilhar via


Conceitos do GPT-4 Turbo com Visão

O GPT-4 Turbo with Vision é um grande modelo multimodal (LMM) desenvolvido pela OpenAI que pode analisar imagens e fornecer respostas textuais a perguntas sobre elas. Ele incorpora o processamento de linguagem natural e a compreensão visual. Esse guia fornece detalhes sobre as funcionalidades e limitações do GPT-4 Turbo com Visão.

Para experimentar o GPT-4 Turbo com Visão, confira o início rápido.

Chats com visão

O modelo GPT-4 Turbo com Visão responde a perguntas de caráter geral sobre o que está presente nas imagens ou vídeos que você carregar.

Informações sobre preços especiais

Importante

Os detalhes de preços estão sujeitos a alterações no futuro.

O GPT-4 Turbo com Visão soma as cobranças como os outros modelos de chat do OpenAI do Azure. Você paga uma tarifa por token para os prompts e preenchimentos, conforme detalhado na página Preços. As cobranças básicas e os recursos adicionais estão descritos abaixo:

O preço base do GPT-4 Turbo com Visão é:

  • Entrada: $0,01 por 1000 tokens
  • Saída: $0,03 por 1000 tokens

Confira a seção Tokens da visão geral para obter informações sobre como o texto e as imagens se traduzem em tokens.

Exemplo de cálculo de preço de imagem

Importante

O conteúdo a seguir é apenas um exemplo e os preços estão sujeitos a alterações no futuro.

Para um caso de uso típico, use uma imagem com objetos visíveis e texto e uma entrada de prompt de 100 tokens. Quando o serviço processa o prompt, ele gera 100 tokens de saída. Na imagem, texto e objetos podem ser detectados. O preço dessa transação seria:

Item Detalhe Custo
Entrada de prompt de texto 100 tokens de texto US$ 0,001
Entrada de imagem de exemplo (consulte tokens de imagem) 170 + 85 tokens de imagem $0.00255
Recursos avançados de complemento para OCR US$ 1,50/1.000 transações US$ 0,0015
Recursos avançados de complemento para Aterramento de Objeto US$ 1,50/1.000 transações US$ 0,0015
Tokens de saída 100 tokens (presumido) $ 0,003
Total $0.00955

Exemplo de cálculo de preço de vídeo

Importante

O conteúdo a seguir é apenas um exemplo e os preços estão sujeitos a alterações no futuro.

Para um caso de uso típico, considere um vídeo de 3 minutos com uma inserção de prompt com 100 tokens. O vídeo tem uma transcrição com 100 tokens de comprimento e, quando processa o prompt, o serviço gera 100 tokens de resultado. O preço dessa transação seria:

Item Detalhe Custo
Tokens da inserção do GPT-4 Turbo com Visão 100 tokens de texto US$ 0,001
Custo Adicional para identificar quadros 100 tokens da inserção + 700 tokens + 1 transação de Recuperação de Vídeo $0,00825
Entradas de imagem e entrada de transcrição 20 imagens (85 tokens cada) + 100 tokens de transcrição $ 0,018
Tokens de saída 100 tokens (presumido) $ 0,003
Total $0,03025

Além disso, há um custo de indexação único de US$ 0,15 para gerar o índice da Recuperação de Vídeo para esse segmento de vídeo de 3 minutos. Esse índice pode ser reutilizado em qualquer quantidade de chamadas a API com Recuperações de Vídeo e GPT-4 Turbo com Visão.

Limitações de entrada

Essa seção descreve as limitações do GPT-4 Turbo com Visão.

Suporte à imagem

  • Tamanho máximo da imagem de entrada: o tamanho máximo para imagens de entrada é restrito a 20 MB.
  • Precisão de baixa resolução: quando as imagens são analisadas usando a configuração de "baixa resolução", ela permite respostas mais rápidas e usa menos tokens de entrada para determinados casos de uso. No entanto, isso pode afetar a precisão do reconhecimento de objeto e texto dentro da imagem.
  • Restrição de chats de imagem: quando você carrega imagens no Estúdio de IA do Azure ou na API, há um limite de 10 imagens por chamada de chat.

Suporte a vídeo

  • Baixa resolução: os quadros de vídeo são analisados usando a configuração de “baixa resolução” do GPT-4 Turbo with Vision, o que pode afetar a precisão do reconhecimento de texto e objeto pequeno no vídeo.
  • Limites de arquivo de vídeo: há suporte para tipos de arquivo MP4 e MOV. No Estúdio de IA do Azure, os vídeos devem ter menos de três minutos de duração. Quando você usa a API, não há essa limitação.
  • Limites de prompt: as solicitações de vídeo contêm apenas um vídeo e nenhuma imagem. No Estúdio de IA do Azure, você pode limpar a sessão para experimentar outro vídeo ou outras imagens.
  • Seleção de quadro limitada: o serviço seleciona 20 quadros de todo o vídeo, o que pode não capturar todos os momentos críticos ou detalhes. A seleção de quadros pode ser distribuída uniformemente por meio do vídeo ou focada por uma consulta de recuperação de vídeo específica, dependendo do prompt.
  • Suporte ao idioma: o serviço dá suporte principalmente ao inglês para aterramento com transcrições. As transcrições não fornecem informações precisas sobre letras em músicas.

Próximas etapas