Conceptos del modelo de chat habilitado para visión

Artículo
02/26/2025

Los modelos de chat habilitados para visión son modelos multimodales de gran tamaño (LMM) desarrollados por OpenAI que pueden analizar imágenes y proporcionar respuestas textuales a preguntas sobre ellas. Incorporan tanto el procesamiento del lenguaje natural como la comprensión visual. Los modelos actuales habilitados para visión son GPT-4 Turbo con Visión, GPT-4o y GPT-4o-mini. En esta guía se proporcionan detalles sobre sus funcionalidades y limitaciones.

Para probar los modelos de chat habilitados para visión, consulte la guía de inicio rápido.

Chats habilitados para visión

Los modelos habilitados para visión responden a preguntas generales sobre lo que está presente en las imágenes que se cargan.

Información sobre precios especiales

Importante

Los detalles de precios están sujetos a cambios en el futuro.

Los modelos habilitados para la visión acumulan cargos como otros modelos de chat de Azure OpenAI. Se paga una tarifa por token para las solicitudes y finalizaciones, que se puede ver de forma detallada en la página Precios. Los cargos base y las características adicionales se describen aquí:

El precio base para GPT-4 Turbo con Visión es:

Entrada: 0,01 USD por 1 000 tokens
Salida: 0,03 USD por 1 000 tokens

Consulte la sección Tokens de la información general para obtener más información sobre cómo se traducen texto e imágenes a tokens.

Cálculo de precios de imagen de ejemplo

Importante

El siguiente contenido es solo un ejemplo y los precios están sujetos a cambios en el futuro.

Para un caso de uso típico, tome una imagen con objetos visibles y texto y una entrada de aviso de 100 tokens. Cuando el servicio procesa el mensaje, genera 100 tokens de salida. En la imagen, se pueden detectar texto y objetos. El precio de esta transacción sería:

Elemento	Detalle	Costos
Entrada de mensaje de texto	100 tokens de texto	0,001 USD
Entrada de imagen de ejemplo (consulte Tokens de imagen)	170 + 85 tokens de imagen	0,00255 USD
Características de complemento mejoradas para OCR	1,50 USD / 1000 transacciones	0,0015 USD
Características mejoradas del complemento para la puesta en tierra de objetos	1,50 USD / 1000 transacciones	0,0015 USD
Tokens de salida	100 tokens (supuestos)	0,003 USD
Total		0,00955 USD

Limitaciones de entrada

En esta sección se describen las limitaciones de los modelos de chat habilitados para la visión.

Compatibilidad de imágenes

Tamaño máximo de imagen de entrada: el tamaño máximo de las imágenes de entrada está restringido a 20 MB.
Precisión de baja resolución: cuando las imágenes se analizan utilizando la configuración de "baja resolución", permite respuestas más rápidas y utiliza menos tokens de entrada para ciertos casos de uso. Sin embargo, esto podría afectar a la precisión del reconocimiento de objetos y texto dentro de la imagen.
Restricción de chat de imagen: al cargar imágenes en el portal de Azure AI Foundry o en la API, hay un límite de 10 imágenes por llamada de chat.

Pasos siguientes

Para empezar a usar modelos habilitados para la visión, siga el inicio rápido.
Para obtener una visión más detallada de las API, siga la guía paso a paso.
Consulte las referencia de API de finalizaciones e incrustaciones

Compartir vía