Concepten van chatmodellen met Vision
Chatmodellen met vision zijn grote multimodale modellen (LMM) die zijn ontwikkeld door OpenAI, waarmee afbeeldingen kunnen worden geanalyseerd en tekstuele antwoorden kunnen worden geboden op vragen over deze modellen. Ze bevatten zowel natuurlijke taalverwerking als visueel begrip. De huidige vision-enabled modellen zijn GPT-4 Turbo with Vision, GPT-4o en GPT-4o-mini. In deze handleiding vindt u meer informatie over de mogelijkheden en beperkingen.
Zie de quickstart om chatmodellen met vision-functionaliteit uit te proberen.
Vision-chats
De vision-enabled modellen beantwoorden algemene vragen over wat er aanwezig is in de afbeeldingen die u uploadt.
Speciale prijsinformatie
Belangrijk
Prijsgegevens zijn in de toekomst onderhevig aan wijzigingen.
Vision-modellen maken kosten zoals andere Azure OpenAI-chatmodellen. U betaalt een tarief per token voor de prompts en voltooiingen, die worden beschreven op de pagina Prijzen. De basiskosten en aanvullende functies worden hier beschreven:
Basisprijzen voor GPT-4 Turbo with Vision is:
- Invoer: $ 0,01 per 1000 tokens
- Uitvoer: $ 0,03 per 1000 tokens
Zie de sectie Tokens van het overzicht voor informatie over hoe tekst en afbeeldingen worden omgezet in tokens.
Voorbeeld van afbeeldingsprijsberekening
Belangrijk
De volgende inhoud is alleen een voorbeeld en prijzen kunnen in de toekomst worden gewijzigd.
Voor een typische use-case kunt u een afbeelding maken met zowel zichtbare objecten als tekst en een invoer van 100 tokenprompts. Wanneer de service de prompt verwerkt, worden er 100 tokens aan uitvoer gegenereerd. In de afbeelding kunnen zowel tekst als objecten worden gedetecteerd. De prijs van deze transactie is:
Artikel | Detail | Kosten |
---|---|---|
Tekstpromptinvoer | 100 teksttokens | $ 0,001 |
Voorbeeldafbeeldingsinvoer (zie Afbeeldingstokens) | 170 + 85 afbeeldingstokens | $ 0,00255 |
Verbeterde invoegtoepassingsfuncties voor OCR | $ 1,50 / 1000 transacties | $ 0,0015 |
Verbeterde invoegtoepassingsfuncties voor objectgronding | $ 1,50 / 1000 transacties | $ 0,0015 |
Uitvoertokens | 100 tokens (aangenomen) | $ 0,003 |
Totaal | $ 0,00955 |
Invoerbeperkingen
In deze sectie worden de beperkingen van chatmodellen met vision-functionaliteit beschreven.
Ondersteuning voor installatiekopieën
- Maximale grootte van invoerafbeeldingen: de maximale grootte voor invoerafbeeldingen is beperkt tot 20 MB.
- Nauwkeurigheid van lage resolutie: wanneer afbeeldingen worden geanalyseerd met behulp van de instelling 'lage resolutie', kunt u sneller antwoorden krijgen en minder invoertokens gebruiken voor bepaalde gebruiksvoorbeelden. Dit kan echter van invloed zijn op de nauwkeurigheid van object- en tekstherkenning in de afbeelding.
- Beperking voor chatten van afbeeldingen: wanneer u afbeeldingen uploadt in de Azure AI Foundry-portal of de API, is er een limiet van 10 afbeeldingen per chatgesprek.
Volgende stappen
- Ga aan de slag met vision-enabled modellen door de quickstart te volgen.
- Volg de instructies voor een uitgebreider overzicht van de API's.
- Zie de API-naslaginformatie over voltooiingen en insluitingen