Co je Speech Studio?
Speech Studio je sada nástrojů založených na uživatelském rozhraní pro vytváření a integraci funkcí ze služby Azure AI Speech ve vašich aplikacích. Projekty v sadě Speech Studio vytvoříte pomocí přístupu bez kódu a pak na tyto prostředky ve svých aplikacích odkazujete pomocí sady Speech SDK, rozhraní příkazového řádku služby Speech nebo rozhraní REST API.
Tip
Můžete také vyzkoušet převod řeči na text a text na řeč na portálu Azure AI Foundry bez registrace nebo psaní kódu.
Scénáře sady Speech Studio
Prozkoumejte, vyzkoušejte a prohlédněte si ukázkový kód pro některé běžné případy použití.
Titulky: Výběrem ukázkového videoklipu zobrazíte výsledky titulků v reálném čase nebo offline. Zjistěte, jak synchronizovat titulky se vstupním zvukem, použít filtry vulgárních výrazů, získat částečné výsledky, aplikovat vlastní nastavení a identifikovat mluvené jazyky pro scénáře s více jazyky. Další informace najdete v rychlém startu pro titulky.
Call Center: Podívejte se na ukázku použití služeb Jazyk a Řeč k analýze konverzací v call centru. Přepis volání v reálném čase nebo zpracování dávky volání, úpravy osobních identifikačních informací a extrakce přehledů, jako je mínění, které vám pomůžou s případem použití call centra. Další informace najdete v rychlém startu call center.
Ukázku těchto scénářů v sadě Speech Studio najdete v tomto úvodním videu.
Funkce sady Speech Studio
V sadě Speech Studio jsou jako typy projektů k dispozici následující funkce služby Speech:
Převod řeči na text v reálném čase: Rychle otestujte řeč na text přetažením zvukových souborů sem, aniž byste museli používat žádný kód. Speech Studio obsahuje ukázkový nástroj pro zobrazení toho, jak funguje převod řeči na text ve vašich zvukových ukázkách. Pokud chcete prozkoumat celou funkčnost, přečtěte si téma Co je řeč na text.
Dávková řeč na text: Rychlé testování možností dávkového přepisu pro přepis velkého množství zvuku v úložišti a asynchronní příjem výsledků, další informace o dávkovém převodu řeči na text najdete v tématu Přehled řeči na text ve službě Batch.
Vlastní řeč: Vytvářejte modely rozpoznávání řeči, které jsou přizpůsobené konkrétním sadám slovníků a stylům mluvení. Na rozdíl od modelu základního rozpoznávání řeči se vlastní modely řeči stanou součástí vaší jedinečné konkurenční výhody, protože nejsou veřejně přístupné. Pokud chcete začít s nahráváním ukázkového zvuku pro vytvoření vlastního modelu řeči, přečtěte si téma Nahrávání trénovacích a testovacích datových sad.
Hodnocení výslovnosti: Vyhodnoťte výslovnost řeči a dejte mluvčím zpětnou vazbu k přesnosti a plynulosti mluveného zvuku. Speech Studio poskytuje sandbox pro rychlé testování této funkce bez kódu. Pokud chcete tuto funkci použít se sadou Speech SDK ve vašich aplikacích, přečtěte si článek o posouzení výslovnosti.
Překlad řeči: Rychle otestujte a přeložte řeč do jiných jazyků podle vašeho výběru s nízkou latencí. Pokud chcete prozkoumat celou funkčnost, přečtěte si téma Co je překlad řeči.
Hlasová galerie: Vytvářejte aplikace a služby, které přirozeně mluví. Vyberte si z širokého portfolia jazyků, hlasů a variant. Přineste své scénáře do života s vysoce expressivními a lidskými neurálními hlasy.
Vlastní hlas: Vytvářejte vlastní hlasy typu 1-of-a pro převod textu na řeč. V sadě Speech Studio zadáte zvukové soubory a vytvoříte odpovídající přepisy a pak ve svých aplikacích použijete vlastní hlasy. Pokud chcete vytvářet a používat vlastní hlasy prostřednictvím koncových bodů, přečtěte si téma Vytvoření a použití hlasového modelu.
Vytváření zvukového obsahu: Přístup bez kódu pro syntézu textu na řeč. Můžete použít výstupní zvuk tak, jak je, nebo jako výchozí bod pro další přizpůsobení. Můžete vytvářet vysoce přirozený zvukový obsah pro různé scénáře, jako jsou audioknihy, news broadcasts, video mluvený komentář a chatovací roboti. Další informace najdete v dokumentaci k vytvoření zvukového obsahu.
Vlastní klíčové slovo: Vlastní klíčové slovo je slovo nebo krátká fráze, kterou můžete použít k hlasové aktivaci produktu. V sadě Speech Studio vytvoříte vlastní klíčové slovo a pak vygenerujete binární soubor, který se použije se sadou Speech SDK ve vašich aplikacích.