GPT-4 Turbo with Vision-Konzepte

Artikel
09/27/2024

GPT-4 Turbo mit Vision ist ein großes multimodales Modell (LMM), das von OpenAI entwickelt wurde, das Bilder analysieren und Textantworten auf Fragen zu ihnen liefern kann. Es umfasst sowohl die Verarbeitung natürlicher Sprache als auch das visuelle Verständnis. Dieser Leitfaden enthält Informationen zu den Funktionen und Einschränkungen von GPT-4 Turbo with Vision.

Um GPT-4 Turbo with Vision auszuprobieren, lesen Sie den Schnellstart.

Chats mit Vision

Der GPT-4 Turbo with Vision-Modell beantwortet allgemeine Fragen zum Inhalt von hochgeladenen Bildern oder Videos.

Spezielle Preisinformationen

Wichtig

Diese Preisdetails können sich in Zukunft ändern.

Durch GPT-4 Turbo with Vision entstehen genau wie durch andere Azure OpenAI-Chatmodelle Gebühren. Sie zahlen einen tokenbasierten Preis für die Prompts und Vervollständigungen, was auf der Preisseite beschrieben wird. Die Grundgebühren und zusätzlichen Features sind hier aufgeführt:

Basispreise für GPT-4 Turbo mit Vision sind:

Eingabe: 0,01 $ pro 1000 Token
Ausgabe: 0,03 $ pro 1000 Token

Im Abschnitt Token der Übersicht finden Sie Informationen dazu, wie Text und Bilder in Token übersetzt werden.

Beispielbild für eine Preisberechnung

Wichtig

Der folgende Inhalt ist nur ein Beispiel, und die Preise können sich in Zukunft ändern.

Erstellen Sie für einen typischen Anwendungsfall ein Bild mit sichtbaren Objekten und Text und einer Eingabe mit 100 Token-Eingabeaufforderungen. Wenn der Dienst die Aufforderung verarbeitet, generiert er 100 Token der Ausgabe. In dem Bild können sowohl Text als auch Objekte erkannt werden. Der Preis für diese Transaktion wäre:

Element	Detail	Kosten
Eingabe der Texteingabeaufforderung	100 Texttoken	$0.001
Beispiel für Bildeingabe (siehe Bildtoken)	170 + 85 Bildtoken	0,00255 USD
Erweiterte Add-On-Features für OCR	1,50 $/1000 Transaktionen	0,0015 $
Erweiterte Add-On-Features für Objektgrounding	1,50 $/1000 Transaktionen	0,0015 $
256 Ausgabetoken	100 Token (angenommen)	0,003 $
Gesamt		0,00955 USD

Beispielvideo für eine Preisberechnung

Wichtig

Der folgende Inhalt ist nur ein Beispiel, und die Preise können sich in Zukunft ändern.

Nehmen Sie für einen typischen Anwendungsfall ein dreiminütiges Video mit einem 100-Token-Prompt an. Das Video verfügt über ein Transkript, das 100 Token lang ist, und wenn der Dienst den Prompt verarbeitet, generiert er 100 Token der Ausgabe. Der Preis für diese Transaktion wäre:

Element	Detail	Kosten
GPT-4 Turbo with Vision-Eingabetoken	100 Texttoken	$0.001
Zusätzliche Kosten zum Identifizieren von Frames	100 Eingabetoken + 700 Token + 1 Videoabruftransaktion	0,00825 $
Bildeingaben und Transkripteingabe	20 Bilder (jeweils 85 Token) + 100 Transkripttoken	0,018 $
256 Ausgabetoken	100 Token (angenommen)	0,003 $
Gesamt		0,03025 $

Darüber hinaus gibt es einmalige Indizierungskosten von 0,15 USD, um den Videoabrufindex für dieses dreiminütige Video zu generieren. Dieser Index kann für eine beliebige Anzahl von Videoabrufen und GPT-4 Turbo with Vision-API-Aufrufen wiederverwendet werden.

Eingabebeschränkungen

In diesem Abschnitt werden die Einschränkungen von GPT-4 Turbo with Vision beschrieben.

Bildunterstützung

Maximale Eingabebildgröße: Die maximale Größe der Eingabebilder ist auf 20 MB beschränkt.
Niedrige Auflösungsgenauigkeit: Wenn Bilder mithilfe der Einstellung „Niedrige Auflösung“ analysiert werden, sind schnellere Antworten möglich, und es werden weniger Eingabetoken für bestimmte Anwendungsfälle verwendet. Dies kann sich jedoch auf die Genauigkeit der Objekt- und Texterkennung innerhalb des Bilds auswirken.
Einschränkung des Bildchats: Wenn Sie Bilder in Azure KI Studio oder der API hochladen, gibt es eine Beschränkung von 10 Bildern pro Chataufruf.

Videounterstützung

Niedrige Auflösung: Videoframes werden mit der GPT-4 Turbo mit Vision-Einstellung „Niedrige Auflösung“ analysiert, was sich auf die Genauigkeit der Erkennung kleiner Objekte und von Text im Video auswirkt.
Videodateieinschränkungen: Die Dateitypen „MP4“ und „MOV“ werden unterstützt. In Azure KI Studio müssen Videos weniger als drei Minuten lang sein. Bei Verwendung der API gibt es keine solche Einschränkung.
Prompteinschränkungen: Videoprompts enthalten nur ein Video und keine Bilder. In Azure KI Studio können Sie die Sitzung zurücksetzen, um ein anderes Video oder andere Bilder zu testen.
Eingeschränkte Frameauswahl: Der Dienst wählt 20 Frames aus dem gesamten Video aus, wodurch möglicherweise nicht alle wichtigen Momente oder Details erfasst werden. Die Frameauswahl kann abhängig vom Prompt ungefähr gleichmäßig über das Video verteilt oder durch eine bestimmte Videoabrufabfrage fokussiert werden.
Sprachunterstützung: Der Dienst unterstützt in erster Linie Englisch für die Erdung mit Transkriptionen. Transkriptionen bieten keine genauen Informationen zu Liedtexten.

Nächste Schritte

Legen Sie mit GPT-4 Turbo with Vision los, indem Sie den Schnellstart befolgen.
Wenn Sie sich genauer mit den APIs befassen und Videoprompts im Chat verwenden möchten, befolgen Sie der Schrittanleitung.
Weitere Informationen finden Sie unter API-Referenz zu Vervollständigungen und Einbettungen.

Freigeben über

GPT-4 Turbo with Vision-Konzepte

Chats mit Vision

Spezielle Preisinformationen

Beispielbild für eine Preisberechnung

Beispielvideo für eine Preisberechnung

Eingabebeschränkungen

Bildunterstützung

Videounterstützung

Nächste Schritte

Feedback

Zusätzliche Ressourcen