Co je model Šept?
Model Šeptejte je textový model řeči z OpenAI, který můžete použít k přepisu zvukových souborů. Model se vytrénuje na velké datové sadě anglického zvuku a textu. Model je optimalizovaný pro přepis zvukových souborů, které obsahují řeč v angličtině. Model lze také použít k přepisu zvukových souborů, které obsahují řeč v jiných jazycích. Výstupem modelu je anglický text.
Modely šeptají se prostřednictvím služby Azure OpenAI nebo Azure AI Speech. Tyto funkce se u těchto nabídek liší. V Azure AI Speech (dávkové přepisy) je Šept jen jedním z několika modelů, které můžete použít pro převod řeči na text.
Možná se budete ptát:
Je šeptající model dobrou volbou pro můj scénář, nebo je lepší model Azure AI Speech? Jaké jsou porovnání rozhraní API mezi dvěma typy modelů?
Pokud chci použít model Šeptání, mám ho použít přes službu Azure OpenAI nebo azure AI Speech? Jaké jsou scénáře, které mě provedou použitím jedné nebo druhé?
Šeptající model nebo modely Azure AI Speech
Model Šeptejte nebo modely Azure AI Speech jsou vhodné v závislosti na vašich scénářích. Pokud se rozhodnete používat Azure AI Speech, můžete si vybrat z několika modelů, včetně modelu Whisper. Následující tabulka porovnává možnosti s doporučeními, kde začít.
Scénář | Model šeptání | Modely Azure AI Speech |
---|---|---|
Přepisy, titulky a titulky v reálném čase pro zvuk a video | Není k dispozici | Doporučené |
Přepisy, titulky a titulky pro předem zaznamenaný zvuk a video | Model Whisper přes Azure OpenAI se doporučuje pro rychlé zpracování jednotlivých zvukových souborů. Model Whisper prostřednictvím služby Azure AI Speech (dávkový přepis) se doporučuje pro dávkové zpracování velkých souborů. Další informace najdete v tématu Šeptající model prostřednictvím dávkového přepisu služby Azure AI Speech nebo přes službu Azure OpenAI Service? | Doporučuje se pro dávkové zpracování velkých souborů, diarizace a časových razítek na úrovni slov. |
Přepis záznamů telefonních hovorů a analýz, jako je shrnutí hovorů, mínění, klíčová témata a vlastní přehledy. | dostupný | Doporučené |
Přepis a analýzy v reálném čase, které pomáhají agentům call center s dotazy zákazníků. | Není k dispozici | Doporučené |
Přepis nahrávek a analýz schůzek, jako je souhrn schůzky, kapitoly schůzky a extrakce položek akcí. | dostupný | Doporučené |
Zadávání textu v reálném čase a generování dokumentu prostřednictvím hlasového diktování | Není k dispozici | Doporučené |
Hlasový agent kontaktního centra: Směrování hovorů a interaktivní hlasová odezva pro call centra. | dostupný | Doporučené |
Hlasová asistentka: Pomocník pro konkrétní aplikaci pro nastavení top boxu, mobilní aplikaci, v autě a další scénáře. | dostupný | Doporučené |
Hodnocení výslovnosti: Posouzení výslovnosti hlasu mluvčího | Není k dispozici | Doporučené |
Překlad živého zvuku z jednoho jazyka do druhého | Není k dispozici | Doporučeno prostřednictvím rozhraní API pro překlad řeči |
Přeložit předem zaznamenaný zvuk z jiných jazyků do angličtiny. | Doporučené | K dispozici prostřednictvím rozhraní API pro překlad řeči |
Přeložit předem zaznamenaný zvuk do jiných jazyků než angličtiny. | Není k dispozici | Doporučeno prostřednictvím rozhraní API pro překlad řeči |
Šeptej model přes Azure AI Speech nebo přes službu Azure OpenAI?
Pokud se rozhodnete použít model Šeptejte, máte dvě možnosti. Můžete se rozhodnout, jestli chcete použít model Šeptaní přes Azure OpenAI nebo Azure AI Speech (dávkový přepis). V obou případech je čitelnost přepisovaného textu stejná. Můžete zadat zvuk ve smíšeném jazyce a výstup je v angličtině.
Šeptající model prostřednictvím služby Azure OpenAI může být nejvhodnější pro:
- Rychlé přepisování zvukových souborů po jednom
- Překlad zvuku z jiných jazyků do angličtiny
- Zadejte výzvu k provedení výstupu modelu.
- Podporované formáty souborů: mp3, mp4, mpweg, mpga, m4a, wav a webm
- Pro název souboru se podporuje jenom znak ASCII.
Šeptající model prostřednictvím dávkového přepisu služby Azure AI Speech může být nejvhodnější pro:
- Přepis souborů větších než 25 MB (až 1 GB) Limit velikosti souboru pro model Azure OpenAI Whisper je 25 MB.
- Přepisování velkých dávek zvukových souborů
- Diarizace pro rozlišení mezi různými mluvčími, kteří se účastní konverzace. Služba Speech poskytuje informace o tom, který mluvčí mluvil o konkrétní části přepisované řeči. Model Whisper prostřednictvím Azure OpenAI nepodporuje diarizaci.
- Časová razítka na úrovni wordu
- Podporované formáty souborů: mp3, wav a ogg.
Regionální podpora je dalším aspektem.
- Model Whisper prostřednictvím služby Azure OpenAI je k dispozici v následujících oblastech: USA – východ 2, Indie – jih, Sever, Norsko – východ, Švédsko – střed, Švýcarsko – sever a Západní Evropa.
- Model Whisper prostřednictvím služby Azure AI Speech je k dispozici v následujících oblastech: Austrálie – východ, USA – východ, USA – středosever, USA – středojiž, Jihovýchodní Asie, Velká Británie – jih a Západní Evropa.