Conceitos do GPT-4 Turbo com Visão
O GPT-4 Turbo with Vision é um grande modelo multimodal (LMM) desenvolvido pela OpenAI que pode analisar imagens e fornecer respostas textuais a perguntas sobre elas. Ele incorpora o processamento de linguagem natural e a compreensão visual. Esse guia fornece detalhes sobre as funcionalidades e limitações do GPT-4 Turbo com Visão.
Para experimentar o GPT-4 Turbo com Visão, confira o início rápido.
Chats com visão
O modelo GPT-4 Turbo com Visão responde a perguntas de caráter geral sobre o que está presente nas imagens ou vídeos que você carregar.
Informações sobre preços especiais
Importante
Os detalhes de preços estão sujeitos a alterações no futuro.
O GPT-4 Turbo com Visão soma as cobranças como os outros modelos de chat do OpenAI do Azure. Você paga uma tarifa por token para os prompts e preenchimentos, conforme detalhado na página Preços. As cobranças básicas e os recursos adicionais estão descritos abaixo:
O preço base do GPT-4 Turbo com Visão é:
- Entrada: $0,01 por 1000 tokens
- Saída: $0,03 por 1000 tokens
Confira a seção Tokens da visão geral para obter informações sobre como o texto e as imagens se traduzem em tokens.
Exemplo de cálculo de preço de imagem
Importante
O conteúdo a seguir é apenas um exemplo e os preços estão sujeitos a alterações no futuro.
Para um caso de uso típico, use uma imagem com objetos visíveis e texto e uma entrada de prompt de 100 tokens. Quando o serviço processa o prompt, ele gera 100 tokens de saída. Na imagem, texto e objetos podem ser detectados. O preço dessa transação seria:
Item | Detalhe | Custo |
---|---|---|
Entrada de prompt de texto | 100 tokens de texto | US$ 0,001 |
Entrada de imagem de exemplo (consulte tokens de imagem) | 170 + 85 tokens de imagem | $0.00255 |
Recursos avançados de complemento para OCR | US$ 1,50/1.000 transações | US$ 0,0015 |
Recursos avançados de complemento para Aterramento de Objeto | US$ 1,50/1.000 transações | US$ 0,0015 |
Tokens de saída | 100 tokens (presumido) | $ 0,003 |
Total | $0.00955 |
Exemplo de cálculo de preço de vídeo
Importante
O conteúdo a seguir é apenas um exemplo e os preços estão sujeitos a alterações no futuro.
Para um caso de uso típico, considere um vídeo de 3 minutos com uma inserção de prompt com 100 tokens. O vídeo tem uma transcrição com 100 tokens de comprimento e, quando processa o prompt, o serviço gera 100 tokens de resultado. O preço dessa transação seria:
Item | Detalhe | Custo |
---|---|---|
Tokens da inserção do GPT-4 Turbo com Visão | 100 tokens de texto | US$ 0,001 |
Custo Adicional para identificar quadros | 100 tokens da inserção + 700 tokens + 1 transação de Recuperação de Vídeo | $0,00825 |
Entradas de imagem e entrada de transcrição | 20 imagens (85 tokens cada) + 100 tokens de transcrição | $ 0,018 |
Tokens de saída | 100 tokens (presumido) | $ 0,003 |
Total | $0,03025 |
Além disso, há um custo de indexação único de US$ 0,15 para gerar o índice da Recuperação de Vídeo para esse segmento de vídeo de 3 minutos. Esse índice pode ser reutilizado em qualquer quantidade de chamadas a API com Recuperações de Vídeo e GPT-4 Turbo com Visão.
Limitações de entrada
Essa seção descreve as limitações do GPT-4 Turbo com Visão.
Suporte à imagem
- Tamanho máximo da imagem de entrada: o tamanho máximo para imagens de entrada é restrito a 20 MB.
- Precisão de baixa resolução: quando as imagens são analisadas usando a configuração de "baixa resolução", ela permite respostas mais rápidas e usa menos tokens de entrada para determinados casos de uso. No entanto, isso pode afetar a precisão do reconhecimento de objeto e texto dentro da imagem.
- Restrição de chats de imagem: quando você carrega imagens no Estúdio de IA do Azure ou na API, há um limite de 10 imagens por chamada de chat.
Suporte a vídeo
- Baixa resolução: os quadros de vídeo são analisados usando a configuração de “baixa resolução” do GPT-4 Turbo with Vision, o que pode afetar a precisão do reconhecimento de texto e objeto pequeno no vídeo.
- Limites de arquivo de vídeo: há suporte para tipos de arquivo MP4 e MOV. No Estúdio de IA do Azure, os vídeos devem ter menos de três minutos de duração. Quando você usa a API, não há essa limitação.
- Limites de prompt: as solicitações de vídeo contêm apenas um vídeo e nenhuma imagem. No Estúdio de IA do Azure, você pode limpar a sessão para experimentar outro vídeo ou outras imagens.
- Seleção de quadro limitada: o serviço seleciona 20 quadros de todo o vídeo, o que pode não capturar todos os momentos críticos ou detalhes. A seleção de quadros pode ser distribuída uniformemente por meio do vídeo ou focada por uma consulta de recuperação de vídeo específica, dependendo do prompt.
- Suporte ao idioma: o serviço dá suporte principalmente ao inglês para aterramento com transcrições. As transcrições não fornecem informações precisas sobre letras em músicas.
Próximas etapas
- Comece a usar o GPT-4 Turbo com Visão seguindo o início rápido.
- Para obter uma visão mais aprofundada das APIs e usar prompts com vídeo no chat, siga o guia de instruções.
- Confira a referência da API de preenchimentos e incorporações