GPT-4 Turbo med visionsbegrepp

Artikel
09/26/2024

GPT-4 Turbo with Vision är en stor multimodal modell (LMM) utvecklad av OpenAI som kan analysera bilder och ge textsvar på frågor om dem. Den innehåller både bearbetning av naturligt språk och visuell förståelse. Den här guiden innehåller information om funktionerna och begränsningarna i GPT-4 Turbo with Vision.

Information om hur du provar GPT-4 Turbo with Vision finns i snabbstarten.

Chattar med vision

Modellen GPT-4 Turbo with Vision besvarar allmänna frågor om vad som finns i bilderna eller videorna som du laddar upp.

Särskild prisinformation

Viktigt!

Prisinformationen kan komma att ändras i framtiden.

GPT-4 Turbo med Vision ackumulerar avgifter som andra Azure OpenAI-chattmodeller. Du betalar en pris per token för anvisningarna och slutförandena, som beskrivs på sidan Prissättning. Basavgifterna och ytterligare funktioner beskrivs här:

Grundpriser för GPT-4 Turbo med Vision är:

Indata: 0,01 USD per 1 000 token
Utdata: $0.03 per 1000 tokens

Mer information om hur text och bilder översätts till token finns i avsnittet Tokens i översikten .

Exempel på bildprisberäkning

Viktigt!

Följande innehåll är bara ett exempel och priserna kan komma att ändras i framtiden.

För ett typiskt användningsfall tar du en bild med både synliga objekt och text och en 100-tokens promptinmatning. När tjänsten bearbetar prompten genererar den 100 token för utdata. I bilden kan både text och objekt identifieras. Priset för den här transaktionen skulle vara:

Artikel	Detalj	Kostnad
Textpromptinmatning	100 texttoken	$0.001
Exempel på bildindata (se Bildtoken)	170 + 85 bildtoken	$0.00255
Förbättrade tilläggsfunktioner för OCR	$1.50 /1000 transaktioner	0,0015 USD
Förbättrade tilläggsfunktioner för object grounding	$1.50 /1000 transaktioner	0,0015 USD
Utdatatoken	100 token (antas)	$0.003
Totalt		$0.00955

Exempel på videoprisberäkning

Viktigt!

Följande innehåll är bara ett exempel och priserna kan komma att ändras i framtiden.

För ett typiskt användningsfall kan du ta en 3-minuters video med en 100-tokens promptinmatning. Videon har en avskrift som är 100 token lång och när tjänsten bearbetar prompten genererar den 100 token för utdata. Prissättningen för den här transaktionen skulle vara:

Artikel	Detalj	Kostnad
GPT-4 Turbo med Vision-indatatoken	100 texttoken	$0.001
Extra kostnad för att identifiera ramar	100 indatatoken + 700 tokens + 1 videohämtningstransaktion	0,00825 USD
Bildindata och avskriftsindata	20 bilder (85 token vardera) + 100 transkriptionstoken	$0.018
Utdatatoken	100 token (antas)	$0.003
Totalt		0,03025 USD

Dessutom finns det en engångskostnad för indexering på 0,15 USD för att generera videohämtningsindexet för den här 3-minutersvideon. Det här indexet kan återanvändas i valfritt antal anrop för videohämtning och GPT-4 Turbo med Vision API.

Indatabegränsningar

I det här avsnittet beskrivs begränsningarna för GPT-4 Turbo med Vision.

Bildstöd

Maximal bildstorlek för indata: Den maximala storleken för indatabilder är begränsad till 20 MB.
Låg upplösningsprecision: När bilder analyseras med inställningen "låg upplösning" möjliggör den snabbare svar och använder färre indatatoken för vissa användningsfall. Detta kan dock påverka precisionen för objekt- och textigenkänning i bilden.
Begränsning av bildchatt: När du laddar upp bilder i Azure AI Studio eller API:et finns det en gräns på 10 bilder per chattsamtal.

Videostöd

Låg upplösning: Videoramar analyseras med GPT-4 Turbo med visionens inställning "låg upplösning", vilket kan påverka noggrannheten för små objekt och textigenkänning i videon.
Gränser för videofiler: Både MP4- och MOV-filtyper stöds. I Azure AI Studio måste videor vara mindre än 3 minuter långa. När du använder API:et finns det ingen sådan begränsning.
Promptgränser: Videoprompter innehåller bara en video och inga bilder. I Azure AI Studio kan du rensa sessionen för att prova en annan video eller bilder.
Begränsat bildruteval: Tjänsten väljer 20 bildrutor från hela videon, vilket kanske inte fångar upp alla kritiska ögonblick eller information. Bildruteval kan spridas ungefär jämnt via videon eller fokuseras av en specifik videohämtningsfråga, beroende på uppmaningen.
Språkstöd: Tjänsten stöder främst engelska för grundning med transkriptioner. Avskrifter ger inte korrekt information om texter i låtar.

Nästa steg

Kom igång med GPT-4 Turbo with Vision genom att följa snabbstarten.
Om du vill ha en mer djupgående titt på API:erna och använda videofrågor i chatten följer du instruktionsguiden.
Se API-referensen för slutföranden och inbäddningar

Dela via

GPT-4 Turbo med visionsbegrepp

Chattar med vision

Särskild prisinformation

Exempel på bildprisberäkning

Exempel på videoprisberäkning

Indatabegränsningar

Bildstöd

Videostöd

Nästa steg

Feedback

Ytterligare resurser