Co je vlastní neurální hlas?

Článek
03/10/2025

Vlastní neurální hlas (CNV) je funkce převodu textu na řeč, která umožňuje vytvořit pro vaše aplikace jednosměrný, přizpůsobený a syntetický hlas. Pomocí vlastního neurálního hlasu můžete vytvořit vysoce přirozený zvuk pro vaši značku nebo znaky tím, že jako trénovací data poskytnete ukázky lidské řeči.

Důležité

Vlastní neurální hlasový přístup je omezený na základě kritérií způsobilosti a použití. Požádejte o přístup ve formuláři pro příjem.

Přístup k vlastnímu neurálnímu hlasu (CNV) Lite je k dispozici komukoli, kdo může demo a vyhodnotit CNV, než investovat do profesionálních nahrávek a vytvořit tak kvalitnější hlas.

Text na řeč je možné použít mimo toto políčko s předem připravenými neurálními hlasy pro každý podporovaný jazyk. Předem sestavené neurální hlasy fungují dobře ve většině scénářů převodu textu na řeč, pokud není nutný jedinečný hlas.

Vlastní neurální hlas je založený na neurálním textu na řečovou technologii a univerzálním modelu pro více mluvčích. Můžete vytvářet syntetické hlasy, které jsou bohaté na styly řeči nebo přizpůsobitelné křížové jazyky. Realistický a přirozený zvuk vlastního neurálního hlasu může představovat značky, personifikovat počítače a umožnit uživatelům komunikovat s aplikacemi konverzálně. Podívejte se na podporované jazyky pro vlastní neurální hlas.

Jak to funguje?

Pokud chcete vytvořit vlastní neurální hlas, použijte Speech Studio k nahrání nahraného zvuku a odpovídajících skriptů, trénování modelu a nasazení hlasu do vlastního koncového bodu.

Tip

Vyzkoušejte vlastní neurální hlas (CNV) Lite , abyste si vyzkoušeli CNV, než začnete investovat do profesionálních nahrávek, abyste vytvořili kvalitnější hlas.

Vytvoření skvělého vlastního neurálního hlasu vyžaduje pečlivé řízení kvality v každém kroku od návrhu hlasu a přípravy dat až po nasazení hlasového modelu do systému.

Než začnete pracovat se sadou Speech Studio, tady je několik důležitých aspektů:

Navrhněte osobu hlasu, která představuje vaši značku, pomocí stručného dokumentu osoby. Tento dokument definuje prvky, jako jsou vlastnosti hlasu, a znak za hlasem. To vám pomůže při vytváření vlastního neurálního hlasového modelu, včetně definování skriptů, výběru talentu hlasu, trénování a ladění hlasu.
Vyberte skript pro nahrávání, který bude představovat uživatelské scénáře pro váš hlas. Pokud například vytváříte robota služby zákazníkům, můžete jako svůj záznamový skript použít fráze z konverzací robota robota. Do skriptů můžete zahrnout různé typy vět, včetně příkazů, otázek a vykřičníků.

Tady je přehled kroků pro vytvoření vlastního neurálního hlasu v sadě Speech Studio:

Vytvořte projekt , který bude obsahovat vaše data, hlasové modely, testy a koncové body. Každý projekt je specifický pro zemi nebo oblast a jazyk. Pokud budete vytvářet více hlasů, doporučujeme vytvořit projekt pro každý hlas.
Nastavte talent hlasu. Než budete moci trénovat neurální hlas, musíte odeslat záznam prohlášení o souhlasu hlasu. Prohlášení o hlasovém talentu je záznam hlasového talentu, který čte prohlášení, že souhlasí s používáním dat řeči k trénování vlastního hlasového modelu.
Příprava trénovacích dat ve správném formátu Je vhodné zachytit zvukové nahrávky v profesionální kvalitě nahrávacího studia, abyste dosáhli vysokého poměru signálu k šumu. Kvalita hlasového modelu závisí hodně na trénovacích datech. Vyžaduje se konzistentní hlasitost, rychlost mluvení, výška a konzistence výrazným způsobem.
Trénování hlasového modelu Pokud chcete vytvořit vlastní neurální hlas, vyberte alespoň 300 promluv. Při nahrávání se automaticky provádí řada kontrol kvality dat. Pokud chcete vytvářet vysoce kvalitní hlasové modely, měli byste opravit případné chyby a odeslat je znovu.
Otestujte svůj hlas. Připravte testovací skripty pro hlasový model, které pokrývají různé případy použití vašich aplikací. Je vhodné používat skripty v rámci trénovací datové sady i mimo ni, abyste mohli kvalitnější testovat pro různé obsahy.
Nasaďte a používejte hlasový model ve svých aplikacích.

Můžete ladit, upravovat a používat vlastní hlas, podobně jako byste použili předem vytvořený neurální hlas. Převeďte text na řeč v reálném čase nebo vygenerujte zvukový obsah offline pomocí textového vstupu. Používáte rozhraní REST API, sadu Speech SDK nebo Sadu Speech Studio.

Tip

Podívejte se na ukázky kódu v úložišti Sady Speech SDK na GitHubu a podívejte se, jak ve své aplikaci používat vlastní neurální hlas.

Styl a vlastnosti vytrénovaného hlasového modelu závisí na stylu a kvalitě nahrávek z talentu hlasu používaného k trénování. Pomocí jazyka SSML (Speech Synthesis Markup Language) však můžete provést několik úprav při volání rozhraní API pro hlasový model, který generuje syntetickou řeč. SSML je jazyk revizí používaný ke komunikaci s textem do služby speech za účelem převodu textu na zvuk. Mezi úpravy, které můžete provést, patří změna sklonu, rychlosti, intonace a opravy výslovnosti. Pokud je hlasový model vytvořený s více styly, můžete styly přepínat také pomocí SSML.

Posloupnost komponent

Vlastní neurální hlas se skládá ze tří hlavních součástí: analyzátor textu, neurální akustický model a neurální vocoder. Pro generování přirozené syntetické řeči z textu je text první vstup do textového analyzátoru, který poskytuje výstup ve formě posloupnosti fomeů. Fonát je základní jednotka zvuku, která rozlišuje jedno slovo od druhého v určitém jazyce. Posloupnost fonetů definuje výslovnost slov zadaných v textu.

V dalším kroku se sekvence fomů dostane do neurálního akustického modelu, aby předpověděla akustické funkce, které definují řečové signály. Akustické funkce zahrnují timbre, styl mluvení, rychlost, intonace a stresové vzory. Nakonec neurální vocoder převádí akustické vlastnosti na zvukové vlny, aby se generovala syntetická řeč.

Vývojový diagram znázorňující komponenty vlastního neurálního hlasu

Neurální text na hlasové modely řeči se trénují pomocí hlubokých neurálních sítí na základě nahrávek vzorků lidských hlasů. Další informace najdete v tomto blogovém příspěvku Microsoftu. Další informace o tom, jak je vytrénovaný neurální vocoder, najdete v tomto blogovém příspěvku Microsoftu.

Zodpovědná AI

Systém AI zahrnuje nejen technologii, ale také uživatele, kteří ho používají, osoby, kterých se to týká, a prostředí, ve kterém je nasazené. Přečtěte si poznámky k transparentnosti a seznamte se s zodpovědným používáním a nasazením umělé inteligence ve vašich systémech.

Sdílet prostřednictvím

Co je vlastní neurální hlas?

Jak to funguje?

Posloupnost komponent

Zodpovědná AI

Další kroky

Váš názor

Další materiály