Partager via


Concepts de GPT-4 Turbo avec Vision

GPT-4 Turbo avec Vision est un grand modèle multimodal (LMM) développé par OpenAI qui peut analyser des images et fournir des réponses textuelles à des questions les concernant. Il intègre à la fois le traitement du langage naturel et la compréhension visuelle. Ce guide fournit des détails sur les fonctionnalités et les limitations de GPT-4 Turbo avec Vision.

Pour essayer GPT-4 Turbo avec Vision, consultez le guide de démarrage rapide.

Conversations avec vision

Le modèle GPT-4 Turbo avec Vision répond à des questions générales sur les éléments présents dans les images ou vidéos que vous chargez.

Informations sur les tarifs spéciaux

Important

Les détails des tarifs sont susceptibles de changer.

GPT-4 Turbo avec Vision engendre des frais au même titre que les autres modèles de conversation Azure OpenAI. Vous êtes facturé un tarif par jeton pour les invites et les complétions, comme cela est détaillé dans la page des tarifs. Les frais de base et les fonctionnalités supplémentaires sont décrits ici :

Les tarifs de base pour GPT-4 Turbo avec Vision sont les suivants :

  • Entrée : 0,01 $ par 1000 jetons
  • Sortie : 0,03 $ par 1000 jetons

Pour plus d’informations sur la façon dont le texte et les images sont convertis en jetons, consultez la section Jetons de la vue d’ensemble.

Exemple de calcul de prix pour une image

Important

Le contenu suivant est un exemple uniquement, et les prix sont susceptibles de changer à l’avenir.

Pour un cas d’usage classique, prenez une image avec des objets visibles et du texte et une entrée d’invite de 100 jetons. Lorsque le service traite l’invite, il génère 100 jetons de sortie. Dans l’image, le texte et les objets peuvent être détectés. Le prix de cette transaction est le suivant :

Article Détail Coûts
Entrée d’invite de texte 100 jetons de texte 0,001 $
Exemple d’entrée image (voir Jetons d’image) 170 + 85 jetons d’image $0.00255
Fonctionnalités de module complémentaire améliorées pour l’OCR 1,50$ / 1000 transactions 0,0015$
Fonctionnalités de module complémentaire améliorées pour la détection d’objets 1,50$ / 1000 transactions 0,0015$
Jetons de sortie 100 jetons (supposés) 0,003 $
Total $0.00955

Exemple de calcul de prix pour une vidéo

Important

Le contenu suivant est un exemple uniquement, et les prix sont susceptibles de changer à l’avenir.

Pour un cas d’usage classique, prenez une vidéo de 3 minutes avec une entrée d’invite de 100 jetons. La vidéo comporte une transcription longue de 100 jetons, et lorsque le service traite l’invite, il génère 100 jetons de sortie. Le prix de cette transaction est le suivant :

Article Détail Coûts
Jetons d’entrée GPT-4 Turbo avec Vision 100 jetons de texte 0,001 $
Coût supplémentaire pour identifier les images 100 jetons d’entrée + 700 jetons + 1 transaction de récupération vidéo 0,00825 $
Entrées d’image et entrée de transcription 20 images (85 jetons chacune) + 100 jetons de transcription 0,018 $
Jetons de sortie 100 jetons (supposés) 0,003 $
Total 0,03025 $

En outre, il existe un coût d’indexation unique de 0,15 $ afin de générer l’index de récupération vidéo pour cette vidéo de trois minutes. Cet index peut être réutilisé sur une quantité quelconque d’appels d’API de récupération vidéo et GPT-4 Turbo avec Vision.

Limites d’entrée

Cette section décrit les limitations de GPT-4 Turbo avec Vision.

Prise en charge de l’image

  • Taille maximale de l’image d’entrée : la taille maximale des images d’entrée est limitée à 20 Mo.
  • Précision de faible résolution : lorsque les images sont analysées à l’aide du paramètre « basse résolution », elle permet des réponses plus rapides et utilise moins de jetons d’entrée pour certains cas d’usage. Toutefois, cela pourrait avoir une incidence sur la précision de la reconnaissance des objets et du texte dans l'image.
  • Restriction de chat d’image : lorsque vous téléchargez des images dans le portail Azure AI Foundry ou l’API, il existe une limite de 10 images par appel de chat.

Prise en charge vidéo

  • Résolution faible : Les images vidéo sont analysées à l’aide du paramètre GPT-4 Turbo avec le paramètre « basse résolution » de Vision, ce qui peut affecter la précision de la reconnaissance de petits objets et de texte dans la vidéo.
  • Limites des fichiers vidéo : types de fichiers MP4 et MOV sont pris en charge. Dans le portail Azure AI Foundry, les vidéos doivent durer moins de 3 minutes. Lorsque vous utilisez l’API, il n’existe pas de limitation de ce type.
  • Limites d’invite : invite vidéo ne contient qu’une seule vidéo et aucune image. Dans le portail Azure AI Foundry, vous pouvez effacer la session pour essayer une autre vidéo ou des images.
  • Sélection limitée d’images : le service sélectionne 20 images dans l’ensemble de la vidéo, ce qui peut ne pas capturer tous les moments ou détails critiques. La sélection d’images peut être répartie uniformément dans la vidéo ou ciblée par une requête de récupération vidéo spécifique, selon l’invite.
  • prise en charge de la langue : le service prend principalement en charge l’anglais pour la mise au point de transcriptions. Les transcriptions ne fournissent pas d’informations précises sur les paroles des chansons.

Étapes suivantes