Převod textu na řeč pomocí nástroje pro vytváření zvukového obsahu

Článek
02/07/2025

Nástroj Pro vytváření zvukového obsahu v sadě Speech Studio můžete použít k převodu textu na řeč, aniž byste museli psát žádný kód. Nástroj Pro vytváření zvukového obsahu může poskytnout požadovaný zvuk konečné řeči. Můžete použít výstupní zvuk tak, jak je, nebo jako výchozí bod pro další přizpůsobení.

Vytvářejte vysoce přirozený zvukový obsah pro různé scénáře, jako jsou audioknihy, news broadcasts, video mluvený komentář a chatovací roboti. Díky vytváření zvukového obsahu můžete efektivně vyladit text na řečové hlasy a navrhnout přizpůsobené zvukové prostředí.

Tento nástroj je založený na jazyku SSML (Speech Synthesis Markup Language). Umožňuje upravit text na atributy výstupu řeči v reálném čase nebo dávkové syntéze, jako jsou hlasové znaky, styly hlasu, rychlost mluvení, výslovnost a prosody.

Přístup bez kódu: Nástroj pro vytváření zvukového obsahu můžete použít k syntéze textu na řeč bez psaní kódu. Výstupní zvuk může být konečný výstup, který chcete dodat. Můžete například použít výstupní zvuk pro podcast nebo video mluvený komentář.
Přívětivé pro vývojáře: Můžete poslouchat výstupní zvuk a upravit SSML, aby se zlepšila syntéza řeči. Pak můžete pomocí sady Speech SDK nebo rozhraní příkazového řádku služby Speech integrovat SSML do vašich aplikací.

Máte snadný přístup k širokému portfoliu jazyků a hlasů. Tyto hlasy zahrnují nejmodernější předem vytvořené neurální hlasy a vlastní neurální hlas, pokud jste ho vytvořili.

Začínáme

Nástroj Pro vytváření zvukového obsahu v nástroji Speech Studio je zdarma přístupný, ale platíte za využití služby Speech. Pokud chcete pracovat s nástrojem, musíte se přihlásit pomocí účtu Azure a vytvořit prostředek služby Speech.

V dalších částech se dozvíte, jak vytvořit účet Azure a získat prostředek služby Speech.

Krok 1: Vytvoření účtu Azure

Pokud chcete pracovat s vytvářením zvukového obsahu, potřebujete účet Microsoft a účet Azure.

Azure Portal je centralizované místo, kde můžete spravovat svůj účet Azure. Můžete vytvořit prostředek služby Speech, spravovat přístup k produktu a monitorovat vše od jednoduchých webových aplikací až po složitá cloudová nasazení.

Krok 2: Vytvoření prostředku služby Speech

Po registraci účtu Azure je potřeba vytvořit ve svém účtu Azure prostředek služby Speech pro přístup ke službám Speech. Na webu Azure Portal vytvořte prostředek služby Speech. Další informace najdete v tématu Vytvoření prostředku služeb Azure AI.

Nasazení nového prostředku služby Speech chvíli trvá. Po dokončení nasazení můžete začít používat nástroj Pro vytváření zvukového obsahu.

Poznámka:

Pokud plánujete používat neurální hlasy, ujistěte se, že vytváříte prostředek v oblasti, která podporuje neurální hlasy.

Po získání účtu Azure a prostředku služby Speech se přihlaste k sadě Speech Studio a pak vyberte Vytvoření zvukového obsahu.
Vyberte předplatné Azure a prostředek služby Speech, se kterým chcete pracovat, a pak vyberte Použít prostředek.

Při příštím přihlášení k vytvoření zvukového obsahu budete přímo propojeni se zvukovými pracovními soubory v rámci aktuálního prostředku služby Speech. Podrobnosti a stav předplatného Azure můžete zkontrolovat na webu Azure Portal.

Pokud nemáte dostupný prostředek služby Speech a jste vlastníkem nebo správcem předplatného Azure, můžete v sadě Speech Studio vytvořit prostředek služby Speech výběrem možnosti Vytvořit nový prostředek.

Pokud máte roli uživatele pro určité předplatné Azure, možná nemáte oprávnění k vytvoření nového prostředku služby Speech. Chcete-li získat přístup, kontaktujte správce.

Pokud chcete prostředek služby Speech kdykoli přepnout, vyberte Nastavení v horní části stránky.

Pokud chcete přepnout adresáře, vyberte Nastavení nebo přejděte do svého profilu.

Použití nástroje

Následující diagram znázorňuje proces vyladění textu na výstupy řeči.

Diagram posloupnosti kroků pro vyladění textu na výstupy řeči

Jednotlivé kroky v předchozím diagramu jsou popsané tady:

Zvolte prostředek služby Speech, se kterým chcete pracovat.
Vytvořte soubor ladění zvuku pomocí prostého textu nebo skriptů SSML. Zadejte nebo nahrajte obsah do vytváření zvukového obsahu.
Zvolte hlas a jazyk pro obsah skriptu. Vytváření zvukového obsahu zahrnuje veškerý předem připravený text pro hlasové hlasy. Můžete použít předem sestavené neurální hlasy nebo vlastní neurální hlas.

Poznámka:

Přístup s bránou je k dispozici pro vlastní neurální hlas, který umožňuje vytvářet hlasy s vysokým rozlišením, které se podobají přirozenému zvuku řeči. Další informace najdete v tématu Proces Gating.
Vyberte obsah, který chcete zobrazit, a pak vyberte Přehrát (přes ikonu trojúhelníku) a zobrazte náhled výchozího výstupu syntézy.

Pokud v textu provedete nějaké změny, vyberte ikonu Zastavit a pak znovu vygenerujtezvuk se změněnými skripty.

Vylepšete výstup úpravou výslovnosti, přerušení, sklonu, rychlosti, intonace, stylu hlasu a dalších možností. Úplný seznam možností naleznete v tématu Speech Synthesis Markup Language.

Další informace o úpravě výstupu řeči najdete v tématu převodu textu na řečové video na YouTube. Video ale nemusí být dostupné ve všech oblastech a nemusí být aktuální v době, kdy ho sledujete.
Uložte a exportujte vyladěný zvuk.

Když trasu ladění uložíte v systému, můžete pokračovat v práci a iterovat na výstupu. Až budete s výstupem spokojení, můžete vytvořit úlohu vytvoření zvuku pomocí funkce exportu. Můžete sledovat stav úlohy exportu a stáhnout výstup pro použití s vašimi aplikacemi a produkty.

Vytvoření souboru pro ladění zvuku

Obsah můžete do nástroje pro vytváření zvukového obsahu získat dvěma způsoby:

Možnost 1: Vytvoření nového souboru pro ladění zvuku

Vyberte Nový>textový soubor a vytvořte nový soubor pro ladění zvuku.
Zadejte nebo vložte obsah do okna pro úpravy. Povolený počet znaků pro každý soubor je 20 000 nebo méně. Pokud váš skript obsahuje více než 20 000 znaků, můžete použít možnost 2 k automatickému rozdělení obsahu do více souborů.
Zvolte Uložit.

Možnost 2: Nahrání souboru ladění zvuku

Vyberte Nahrát>textový soubor a naimportujte jeden nebo více textových souborů. Podporuje se prostý text i SSML.

Pokud je soubor skriptu delší než 20 000 znaků, rozdělte obsah podle odstavců, znaky nebo regulárních výrazů.

Při nahrávání textových souborů se ujistěte, že splňují tyto požadavky:

Vlastnost	Popis
File format	Prostý text (.txt) nebo text SSML (.txt) Soubory ZIP se nepodporují.
Formát kódování	UTF-8
Název souboru	Každý soubor musí mít jedinečný název. Duplicitní soubory nejsou podporované.
Délka textu	Limit znaků je 20 000. Pokud vaše soubory překročí limit, rozdělte je podle pokynů v nástroji.
Omezení SSML	Každý soubor SSML může obsahovat pouze jeden kus SSML.

Tady je příklad prostého textu:

Welcome to use Audio Content Creation to customize audio output for your products.

Tady je příklad SSML:

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
   <voice name="en-US-AvaMultilingualNeural">
   Welcome to use Audio Content Creation <break time="10ms" />to customize audio output for your products.
   </voice>
</speak>

Export vyladěného zvuku

Jakmile zkontrolujete zvukový výstup a budete spokojeni s laděním a úpravou, můžete zvuk exportovat.

Výběrem možnosti Exportovat vytvořte úlohu vytváření zvuku.

Doporučujeme exportovat do zvukové knihovny pro snadné ukládání, hledání a vyhledávání zvukového výstupu v cloudu. Integraci s aplikacemi můžete lépe integrovat prostřednictvím služby Azure Blob Storage. Zvuk si také můžete stáhnout přímo na místní disk.

Zvolte výstupní formát pro váš vyladěný zvuk. Podporované formáty zvuku a vzorkovací frekvence jsou uvedeny v následující tabulce:

Formát	Vzorkovací frekvence 8 kHz	Vzorkovací frekvence 16 kHz	Vzorkovací frekvence 24 kHz	Vzorkovací frekvence 48 kHz
wav	riff-8khz-16bit-mono-pcm	riff-16khz-16bit-mono-pcm	riff-24khz-16bit-mono-pcm	riff-48khz-16bit-mono-pcm
mp3	–	audio-16khz-128kbitrate-mono-mp3	audio-24khz-160kbitrate-mono-mp3	audio-48khz-192kbitrate-mono-mp3

Pokud chcete zobrazit stav úkolu, vyberte kartu Seznam úkolů.

Pokud úloha selže, podívejte se na stránku s podrobnými informacemi o úplné sestavě.
Po dokončení úlohy je zvuk dostupný ke stažení v podokně Knihovna zvuku.
Vyberte soubor, který chcete stáhnout a stáhnout.

Teď jste připraveni používat vlastní vyladěný zvuk v aplikacích nebo produktech.

Konfigurace BYOS a anonymního veřejného přístupu pro čtení pro objekty blob

Pokud ztratíte oprávnění k přístupu k vašemu vlastnímu úložišti (BYOS), nemůžete zobrazit, vytvářet, upravovat nebo odstraňovat soubory. Pokud chcete pokračovat v přístupu, musíte odebrat aktuální úložiště a znovu nakonfigurovat BYOS na webu Azure Portal. Další informace o tom, jak nakonfigurovat BYOS, najdete v tématu Připojení Azure Storage jako místní sdílené složky ve službě App Service.

Po konfiguraci oprávnění BYOS je potřeba nakonfigurovat anonymní veřejný přístup pro čtení pro související kontejnery a objekty blob. V opačném případě nejsou data objektů blob dostupná pro veřejný přístup a váš soubor lexicon v objektu blob je nedostupný. Ve výchozím nastavení je nastavení veřejného přístupu kontejneru zakázané. Pokud chcete anonymním uživatelům udělit přístup pro čtení ke kontejneru a jeho objektům blob, nejprve nastavte možnost Povolit veřejný přístupk objektu blob tak, aby umožňovala veřejný přístup k účtu úložiště, a pak nastavte úroveň veřejného přístupu kontejneru (pojmenované acc-public-files) (anonymní přístup pro čtení pouze pro objekty blob). Další informace o konfiguraci anonymního veřejného přístupu pro čtení najdete v tématu Konfigurace anonymního veřejného přístupu pro čtení pro kontejnery a objekty blob.

Přidání nebo odebrání uživatelů vytváření zvukového obsahu

Pokud více než jeden uživatel chce použít vytváření zvukového obsahu, můžete mu udělit přístup k předplatnému Azure a prostředku služby Speech. Pokud přidáte uživatele do předplatného Azure, budou mít přístup ke všem prostředkům v rámci předplatného Azure. Pokud ale přidáte uživatele jenom do prostředku služby Speech, budou mít přístup jenom k prostředku služby Speech, a ne k jiným prostředkům v rámci tohoto předplatného Azure. Uživatelé s přístupem k prostředku Služby Speech můžou použít nástroj pro vytváření zvukového obsahu.

Uživatelé, kteří udělíte přístup, aby mohli nastavit účet Microsoft. Pokud účet Microsoft nemá, může si ho během několika minut vytvořit. Můžou použít svůj stávající e-mail a propojit ho s účtem Microsoft, nebo si můžou vytvořit a použít e-mailovou adresu Outlooku jako účet Microsoft.

Přidání uživatelů do prostředku služby Speech

Pokud chcete přidat uživatele do prostředku služby Speech, aby mohli používat vytváření zvukového obsahu, postupujte takto:

Na webu Azure Portal vyberte v levém navigačním podokně všechny služby a vyhledejte služby Azure AI nebo Speech.
Vyberte prostředek služby Speech.

Poznámka:

Azure RBAC můžete také nastavit pro celé skupiny prostředků, předplatná nebo skupiny pro správu. Uděláte to tak, že vyberete požadovanou úroveň oboru a pak přejdete na požadovanou položku (například vyberete skupiny prostředků a pak vyberete svou skupinu prostředků).
V levém navigačním podokně vyberte Řízení přístupu (IAM ).
Vyberte Přidat>Přidat přiřazení role.
Na kartě Role na další obrazovce vyberte roli (například Vlastník), kterou chcete přidat.
Na kartě Členové zadejte e-mailovou adresu uživatele a vyberte jméno uživatele v adresáři. E-mailová adresa musí být propojená s účtem Microsoft, kterému důvěřuje ID Microsoft Entra. Uživatelé se můžou snadno zaregistrovat k účtu Microsoft pomocí své osobní e-mailové adresy.
Na kartě Zkontrolovat a přiřadit vyberte možnost Zkontrolovat a přiřadit a přiřaďte roli.

Co se stane dál:

Uživatelům se automaticky odešle e-mailová pozvánka.

Poznámka:

Pokud uživatelé neobdrží e-mail s pozvánkou, můžete vyhledat svůj účet v části Přiřazení rolí a přejít do svého profilu. Vyhledejte pozvánku k identitě>přijatou a vyberte (spravovat) a odešlete e-mailovou pozvánku znovu. Můžete jim také zkopírovat a poslat odkaz na pozvánku.
Můžou ho přijmout tak, že v e-mailu vyberou Přijmout přijetí pozvánky>, aby se připojili k Azure.
Pak se přesměrují na web Azure Portal. Na webu Azure Portal nemusí provádět další akce.
Po chvíli se uživatelům přiřadí role v oboru prostředku služby Speech, který jim dává přístup k tomuto prostředku služby Speech.

Uživatelé teď navštíví nebo aktualizují stránku produktu Pro vytvoření zvukového obsahu a přihlásí se pomocí svého účtu Microsoft. Vyberou blok Vytváření zvukového obsahu ve všech řečových produktech. Vyberou prostředek služby Speech v automaticky otevíraných oknech nebo v nastavení v pravém horním rohu.

Pokud nemůžou najít dostupný prostředek služby Speech, můžou zkontrolovat, jestli jsou ve správném adresáři. Uděláte to tak, že vyberou profil účtu v pravém horním rohu a pak vyberou Přepínač vedle aktuálního adresáře. Pokud je k dispozici více adresářů, znamená to, že mají přístup k více adresářům. Můžou přepnout do různých adresářů a přejít do Nastavení a zjistit, jestli je k dispozici správný prostředek služby Speech.

Uživatelé, kteří jsou ve stejném prostředku služby Speech, vidí práci ostatních v nástroji Pro vytváření zvukového obsahu. Pokud chcete, aby každý jednotlivý uživatel měl jedinečné a soukromé pracoviště ve vytváření zvukového obsahu, vytvořte pro každého uživatele nový prostředek služby Speech a dejte každému uživateli jedinečný přístup k prostředku služby Speech.

Odebrání uživatelů z prostředku služby Speech

Pokud chcete odebrat oprávnění uživatele z prostředku služby Speech, postupujte takto:

Na webu Azure Portal vyhledejte služby Azure AI a vyberte prostředek služby Speech, ze kterého chcete uživatele odebrat.
Vyberte Řízení přístupu (IAM) a pak vyberte kartu Přiřazení rolí, abyste zobrazili všechna přiřazení rolí pro tento prostředek služby Speech.
Vyberte uživatele, které chcete odebrat, vyberte Odebrat a pak vyberte OK.

Povolení přístupu uživatelům k ostatním uživatelům

Pokud chcete uživateli povolit udělení přístupu jiným uživatelům, musíte mu přiřadit roli vlastníka prostředku služby Speech a nastavit uživatele jako čtenář adresáře Azure.

Přidejte uživatele jako vlastníka prostředku služby Speech. Další informace najdete v tématu Přidání uživatelů do prostředku služby Speech.
Na webu Azure Portal vyberte sbalenou nabídku vlevo nahoře, vyberte ID Microsoft Entra a pak vyberte Uživatelé.
Vyhledejte účet Microsoft uživatele, přejděte na stránku podrobností a vyberte Přiřazené role.
Vyberte Přidat přiřazení Čtenáři> adresáře. Pokud tlačítko Přidat zadání není k dispozici, znamená to, že nemáte přístup. Abyste mohli přiřadit role uživatelům, musíte mít roli Vlastník nebo Správce uživatelských přístupů.

Sdílet prostřednictvím

Převod textu na řeč pomocí nástroje pro vytváření zvukového obsahu

Začínáme

Krok 1: Vytvoření účtu Azure

Krok 2: Vytvoření prostředku služby Speech

Použití nástroje

Vytvoření souboru pro ladění zvuku

Možnost 1: Vytvoření nového souboru pro ladění zvuku

Možnost 2: Nahrání souboru ladění zvuku

Export vyladěného zvuku

Konfigurace BYOS a anonymního veřejného přístupu pro čtení pro objekty blob

Přidání nebo odebrání uživatelů vytváření zvukového obsahu

Přidání uživatelů do prostředku služby Speech

Odebrání uživatelů z prostředku služby Speech

Povolení přístupu uživatelům k ostatním uživatelům

Další kroky

Váš názor

Další materiály

Sdílet prostřednictvím

Převod textu na řeč pomocí nástroje pro vytváření zvukového obsahu

Začínáme

Krok 1: Vytvoření účtu Azure

Krok 2: Vytvoření prostředku služby Speech

Krok 3: Přihlášení k vytvoření zvukového obsahu pomocí účtu Azure a prostředku služby Speech

Použití nástroje

Vytvoření souboru pro ladění zvuku

Možnost 1: Vytvoření nového souboru pro ladění zvuku

Možnost 2: Nahrání souboru ladění zvuku

Export vyladěného zvuku

Konfigurace BYOS a anonymního veřejného přístupu pro čtení pro objekty blob

Přidání nebo odebrání uživatelů vytváření zvukového obsahu

Přidání uživatelů do prostředku služby Speech

Odebrání uživatelů z prostředku služby Speech

Povolení přístupu uživatelům k ostatním uživatelům

Další kroky

Váš názor

Další materiály