Conceptos del modelo de chat habilitado para visión
Los modelos de chat habilitados para visión son modelos multimodales de gran tamaño (LMM) desarrollados por OpenAI que pueden analizar imágenes y proporcionar respuestas textuales a preguntas sobre ellas. Incorporan tanto el procesamiento del lenguaje natural como la comprensión visual. Los modelos actuales habilitados para visión son GPT-4 Turbo con Visión, GPT-4o y GPT-4o-mini. En esta guía se proporcionan detalles sobre sus funcionalidades y limitaciones.
Para probar los modelos de chat habilitados para visión, consulte la guía de inicio rápido.
Chats habilitados para visión
Los modelos habilitados para visión responden a preguntas generales sobre lo que está presente en las imágenes que se cargan.
Información sobre precios especiales
Importante
Los detalles de precios están sujetos a cambios en el futuro.
Los modelos habilitados para la visión acumulan cargos como otros modelos de chat de Azure OpenAI. Se paga una tarifa por token para las solicitudes y finalizaciones, que se puede ver de forma detallada en la página Precios. Los cargos base y las características adicionales se describen aquí:
El precio base para GPT-4 Turbo con Visión es:
- Entrada: 0,01 USD por 1 000 tokens
- Salida: 0,03 USD por 1 000 tokens
Consulte la sección Tokens de la información general para obtener más información sobre cómo se traducen texto e imágenes a tokens.
Cálculo de precios de imagen de ejemplo
Importante
El siguiente contenido es solo un ejemplo y los precios están sujetos a cambios en el futuro.
Para un caso de uso típico, tome una imagen con objetos visibles y texto y una entrada de aviso de 100 tokens. Cuando el servicio procesa el mensaje, genera 100 tokens de salida. En la imagen, se pueden detectar texto y objetos. El precio de esta transacción sería:
Elemento | Detalle | Costos |
---|---|---|
Entrada de mensaje de texto | 100 tokens de texto | 0,001 USD |
Entrada de imagen de ejemplo (consulte Tokens de imagen) | 170 + 85 tokens de imagen | 0,00255 USD |
Características de complemento mejoradas para OCR | 1,50 USD / 1000 transacciones | 0,0015 USD |
Características mejoradas del complemento para la puesta en tierra de objetos | 1,50 USD / 1000 transacciones | 0,0015 USD |
Tokens de salida | 100 tokens (supuestos) | 0,003 USD |
Total | 0,00955 USD |
Limitaciones de entrada
En esta sección se describen las limitaciones de los modelos de chat habilitados para la visión.
Compatibilidad de imágenes
- Tamaño máximo de imagen de entrada: el tamaño máximo de las imágenes de entrada está restringido a 20 MB.
- Precisión de baja resolución: cuando las imágenes se analizan utilizando la configuración de "baja resolución", permite respuestas más rápidas y utiliza menos tokens de entrada para ciertos casos de uso. Sin embargo, esto podría afectar a la precisión del reconocimiento de objetos y texto dentro de la imagen.
- Restricción de chat de imagen: al cargar imágenes en el portal de Azure AI Foundry o en la API, hay un límite de 10 imágenes por llamada de chat.
Pasos siguientes
- Para empezar a usar modelos habilitados para la visión, siga el inicio rápido.
- Para obtener una visión más detallada de las API, siga la guía paso a paso.
- Consulte las referencia de API de finalizaciones e incrustaciones