GPT-4 Turbo s koncepty zpracování obrazu
GPT-4 Turbo s vision je velký multimodální model (LMM) vyvinutý openAI, který dokáže analyzovat obrázky a poskytovat textové odpovědi na otázky o nich. Zahrnuje zpracování přirozeného jazyka i vizuální porozumění. Tato příručka obsahuje podrobnosti o možnostech a omezeních GPT-4 Turbo s vision.
Pokud si chcete vyzkoušet GPT-4 Turbo s vision, podívejte se na rychlý start.
Chaty se zrakem
GpT-4 Turbo s modelem Zpracování obrazu odpovídá na obecné otázky týkající se toho, co je přítomné na obrázcích nebo videích, které nahráváte.
Speciální informace o cenách
Důležité
Podrobnosti o cenách se můžou v budoucnu změnit.
GPT-4 Turbo s vision nabíhá poplatky, jako jsou jiné chatovací modely Azure OpenAI. Za výzvy a dokončení platíte sazbu za token, která je podrobně popsána na stránce Ceny. Základní poplatky a další funkce jsou popsané tady:
Základní ceny GPT-4 Turbo s vision jsou:
- Vstup: $0,01 za 1 000 tokenů
- Výstup: 0,03 USD za 1 000 tokenů
Informace o překladu textu a obrázků na tokeny najdete v části Tokens v přehledu.
Příklad výpočtu ceny obrázku
Důležité
Následující obsah je příkladem pouze a ceny se můžou v budoucnu změnit.
V případě typického případu použití pořídit obrázek s viditelnými objekty i textem a vstupem výzvy 100 tokenů. Když služba zpracuje výzvu, vygeneruje 100 tokenů výstupu. Na obrázku je možné rozpoznat text i objekty. Cena této transakce by byla:
Položka | Podrobnosti | Náklady |
---|---|---|
Zadání textové výzvy | 100 textových tokenů | $0,001 |
Příklad vstupu obrázku (viz tokeny image) | 170 + 85 tokenů obrázků | $0,00255 |
Vylepšené funkce doplňků pro OCR | 1,50 USD / 1000 transakcí | $0,0015 |
Vylepšené funkce doplňku pro uzemnění objektů | 1,50 USD / 1000 transakcí | $0,0015 |
Výstupní tokeny | 100 tokenů (předpokládá se) | $0,003 |
Celkem | $0,00955 |
Příklad výpočtu ceny videa
Důležité
Následující obsah je příkladem pouze a ceny se můžou v budoucnu změnit.
V případě typického případu použití si 3minutové video se vstupem výzvy 100 tokenů. Video obsahuje přepis, který má délku 100 tokenů a když služba zpracuje výzvu, vygeneruje 100 tokenů výstupu. Ceny za tuto transakci:
Položka | Podrobnosti | Náklady |
---|---|---|
GPT-4 Turbo se vstupními tokeny vision | 100 textových tokenů | $0,001 |
Další náklady pro identifikaci rámců | 100 vstupních tokenů + 700 tokenů + 1 Transakce načítání videa | 0,00825 Kč |
Vstupy obrázků a vstup přepisu | 20 obrázků (každý token 85) + 100 tokenů přepisu | $0,018 |
Výstupní tokeny | 100 tokenů (předpokládá se) | $0,003 |
Celkem | $0,03025 |
Kromě toho stojí jednorázové indexování 0,15 USD pro vygenerování indexu načítání videa pro toto 3minutové video. Tento index je možné znovu použít pro libovolný počet načítání videa a GPT-4 Turbo s voláními rozhraní API pro zpracování obrazu.
Omezení vstupu
Tato část popisuje omezení GPT-4 Turbo s vision.
Podpora obrázků
- Maximální velikost vstupního obrázku: Maximální velikost vstupních obrázků je omezena na 20 MB.
- Nízká přesnost rozlišení: Při analýze obrázků pomocí nastavení nízkého rozlišení umožňuje rychlejší odezvy a pro určité případy použití používá méně vstupních tokenů. To ale může mít vliv na přesnost rozpoznávání objektu a textu v rámci obrázku.
- Omezení pro chat obrázků: Když nahráváte obrázky v Azure AI Studiu nebo rozhraní API, platí limit 10 obrázků na chatové volání.
Podpora videa
- Nízké rozlišení: Snímky videa se analyzují pomocí GPT-4 Turbo s nastavením "nízkého rozlišení" obrazu, což může mít vliv na přesnost malých objektů a rozpoznávání textu ve videu.
- Omezení videosouborů: Podporují se typy souborů MP4 i MOV. V Azure AI Studiu musí být videa kratší než 3 minuty. Pokud používáte rozhraní API, neexistuje žádné takové omezení.
- Omezení výzvy: Výzvy k videu obsahují jenom jedno video a žádné obrázky. V Azure AI Studiu můžete relaci vymazat a vyzkoušet jiné video nebo obrázky.
- Omezený výběr snímku: Služba vybere 20 snímků z celého videa, které nemusí zachytit všechny kritické momenty nebo podrobnosti. Výběr snímku se dá přibližně rovnoměrně rozprostřet po videu nebo se zaměřit podle konkrétního dotazu na načtení videa v závislosti na výzvě.
- Podpora jazyka: Služba primárně podporuje angličtinu pro zemnění s přepisy. Přepisy neposkytují přesné informace o textech v skladbách.
Další kroky
- Začněte používat GPT-4 Turbo s vision pomocí rychlého startu.
- Podrobnější informace o rozhraních API a použití videoobsadových výzev v chatu najdete v průvodci postupy.
- Zobrazení referenčních informací k rozhraní API pro dokončování a vkládání