Koncepty chatovacího modelu s podporou zpracování obrazu

Článek
01/30/2025

Chatovací modely s podporou zpracování obrazu jsou velké multimodální modely (LMM) vyvinuté openAI, které můžou analyzovat obrázky a poskytovat textové odpovědi na otázky týkající se nich. Zahrnují zpracování přirozeného jazyka i vizuální porozumění. Aktuální modely s podporou zraku jsou GPT-4 Turbo s vision, GPT-4o a GPT-4o-mini. Tato příručka obsahuje podrobnosti o jejich možnostech a omezeních.

Pokud chcete vyzkoušet modely chatu s podporou zpracování obrazu, podívejte se na rychlý start.

Chaty s podporou zpracování obrazu

Modely s podporou zraku odpovídají na obecné otázky týkající se toho, co je přítomné na obrázcích nebo videích, které nahrajete.

Speciální informace o cenách

Důležité

Podrobnosti o cenách se můžou v budoucnu změnit.

Modely s podporou zpracování obrazu účtují poplatky, jako jsou jiné chatovací modely Azure OpenAI. Za výzvy a dokončení platíte sazbu za token, která je podrobně popsána na stránce Ceny. Základní poplatky a další funkce jsou popsané tady:

Základní ceny GPT-4 Turbo s vision jsou:

Vstup: $0,01 za 1 000 tokenů
Výstup: 0,03 USD za 1 000 tokenů

Informace o překladu textu a obrázků na tokeny najdete v části Tokens v přehledu.

Příklad výpočtu ceny obrázku

Důležité

Následující obsah je příkladem pouze a ceny se můžou v budoucnu změnit.

V případě typického případu použití pořídit obrázek s viditelnými objekty i textem a vstupem výzvy 100 tokenů. Když služba zpracuje výzvu, vygeneruje 100 tokenů výstupu. Na obrázku je možné rozpoznat text i objekty. Cena této transakce by byla:

Položka	Podrobnosti	Náklady
Zadání textové výzvy	100 textových tokenů	$0,001
Příklad vstupu obrázku (viz tokeny image)	170 + 85 tokenů obrázků	$0,00255
Vylepšené funkce doplňků pro OCR	1,50 USD / 1000 transakcí	$0,0015
Vylepšené funkce doplňku pro uzemnění objektů	1,50 USD / 1000 transakcí	$0,0015
Výstupní tokeny	100 tokenů (předpokládá se)	$0,003
Celkem		$0,00955

Příklad výpočtu ceny videa

Důležité

Následující obsah je příkladem pouze a ceny se můžou v budoucnu změnit.

V případě typického případu použití si 3minutové video se vstupem výzvy 100 tokenů. Video obsahuje přepis, který má délku 100 tokenů a když služba zpracuje výzvu, vygeneruje 100 tokenů výstupu. Ceny za tuto transakci:

Položka	Podrobnosti	Náklady
GPT-4 Turbo se vstupními tokeny vision	100 textových tokenů	$0,001
Další náklady pro identifikaci rámců	100 vstupních tokenů + 700 tokenů + 1 Transakce načítání videa	0,00825 Kč
Vstupy obrázků a vstup přepisu	20 obrázků (každý token 85) + 100 tokenů přepisu	$0,018
Výstupní tokeny	100 tokenů (předpokládá se)	$0,003
Celkem		$0,03025

Kromě toho stojí jednorázové indexování 0,15 USD pro vygenerování indexu načítání videa pro toto 3minutové video. Tento index je možné znovu použít pro libovolný počet načítání videa a GPT-4 Turbo s voláními rozhraní API pro zpracování obrazu.

Omezení vstupu

Tato část popisuje omezení modelů chatu s podporou zraku.

Podpora obrázků

Maximální velikost vstupního obrázku: Maximální velikost vstupních obrázků je omezena na 20 MB.
Nízká přesnost rozlišení: Při analýze obrázků pomocí nastavení nízkého rozlišení umožňuje rychlejší odezvy a pro určité případy použití používá méně vstupních tokenů. To ale může mít vliv na přesnost rozpoznávání objektu a textu v rámci obrázku.
Omezení chatu s obrázky: Když nahráváte obrázky na portálu Azure AI Foundry nebo rozhraní API, platí limit 10 obrázků na hovor chatu.

Podpora videa

Nízké rozlišení: Snímky videa se analyzují pomocí GPT-4 Turbo s nastavením "nízkého rozlišení" obrazu, což může mít vliv na přesnost malých objektů a rozpoznávání textu ve videu.
Omezení videosouborů: Podporují se typy souborů MP4 i MOV. Na portálu Azure AI Foundry musí být videa kratší než 3 minuty. Pokud používáte rozhraní API, neexistuje žádné takové omezení.
Omezení výzvy: Výzvy k videu obsahují jenom jedno video a žádné obrázky. Na portálu Azure AI Foundry můžete relaci vymazat a vyzkoušet jiné video nebo obrázky.
Omezený výběr snímku: Služba vybere 20 snímků z celého videa, které nemusí zachytit všechny kritické momenty nebo podrobnosti. Výběr snímku se dá přibližně rovnoměrně rozprostřet po videu nebo se zaměřit podle konkrétního dotazu na načtení videa v závislosti na výzvě.
Podpora jazyka: Služba primárně podporuje angličtinu pro zemnění s přepisy. Přepisy neposkytují přesné informace o textech v skladbách.

Další kroky

Začněte používat modely s podporou zpracování obrazu pomocí tohoto rychlého startu.
Podrobnější informace o rozhraních API a použití videoobsadových výzev v chatu najdete v průvodci postupy.
Zobrazení referenčních informací k rozhraní API pro dokončování a vkládání

Sdílet prostřednictvím

Koncepty chatovacího modelu s podporou zpracování obrazu

Chaty s podporou zpracování obrazu

Speciální informace o cenách

Příklad výpočtu ceny obrázku

Příklad výpočtu ceny videa

Omezení vstupu

Podpora obrázků

Podpora videa

Další kroky

Váš názor

Další materiály