Concepts de modèles de chat basés sur la vision

Article
03/03/2025

Les modèles de chat basés sur la vision sont de grands modèles multimodaux (LMM) développés par OpenAI qui peuvent analyser des images et fournir des réponses textuelles aux questions qui leur sont posées. Ils incorporent à la fois le traitement du langage naturel et la compréhension visuelle. Les modèles de vision actuels sont GPT-4 Turbo avec Vision, GPT-4o et GPT-4o-mini. Ce guide fournit des détails sur leurs capacités et leurs limites.

Pour tester les modèles de conversation compatibles avec la vision, consultez le guide de démarrage rapide.

Conversations avec Vision

Les modèles compatibles avec la vision répondent à des questions générales sur les éléments présents dans les images que vous chargez.

Informations sur les tarifs spéciaux

Important

Les détails des tarifs sont susceptibles de changer.

Les modèles dotés d'une vision accumulent des frais comme les autres modèles de conversation Azure OpenAI. Vous êtes facturé un tarif par jeton pour les invites et les complétions, comme cela est détaillé dans la page des tarifs. Les frais de base et les fonctionnalités supplémentaires sont décrits ici :

Les tarifs de base pour GPT-4 Turbo avec Vision sont les suivants :

Entrée : 0,01 $ par 1000 jetons
Sortie : 0,03 $ par 1000 jetons

Pour plus d’informations sur la façon dont le texte et les images sont convertis en jetons, consultez la section Jetons de la vue d’ensemble.

Exemple de calcul de prix pour une image

Important

Le contenu suivant est un exemple uniquement, et les prix sont susceptibles de changer à l’avenir.

Pour un cas d’usage classique, prenez une image avec des objets visibles et du texte et une entrée d’invite de 100 jetons. Lorsque le service traite l’invite, il génère 100 jetons de sortie. Dans l’image, le texte et les objets peuvent être détectés. Le prix de cette transaction est le suivant :

Article	Détail	Coûts
Entrée d’invite de texte	100 jetons de texte	0,001 $
Exemple d’entrée image (voir Jetons d’image)	170 + 85 jetons d’image	$0.00255
Fonctionnalités de module complémentaire améliorées pour l’OCR	1,50$ / 1000 transactions	0,0015$
Fonctionnalités de module complémentaire améliorées pour la détection d’objets	1,50$ / 1000 transactions	0,0015$
Jetons de sortie	100 jetons (supposés)	0,003 $
Total		$0.00955

Limites d’entrée

Cette section décrit les limites des modèles de conversation basés sur la vision.

Prise en charge de l’image

Taille maximale de l’image d’entrée : la taille maximale des images d’entrée est limitée à 20 Mo.
Précision de faible résolution : lorsque les images sont analysées à l’aide du paramètre « basse résolution », elle permet des réponses plus rapides et utilise moins de jetons d’entrée pour certains cas d’usage. Toutefois, cela pourrait avoir une incidence sur la précision de la reconnaissance des objets et du texte dans l'image.
Restriction de chat d’image : lorsque vous téléchargez des images dans le portail Azure AI Foundry ou l’API, il existe une limite de 10 images par appel de chat.

Étapes suivantes

Commencez à utiliser les modèles basés sur la vision en suivant les instructions de démarrage rapide.
Pour un examen plus approfondi des API, suivez le guide pratique.
Consultez la référence de l’API sur les complétions et les incorporations.

Partager via