Co jsou hlasy s vysokou definicí? (Preview)

Článek
10/23/2024

Poznámka:

Tato funkce je v současné době ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

Azure AI Speech pokračuje v oblasti převodu textu do řečové technologie se zavedením neurálního textu do hlasových hlasů s vysokým rozlišením (HD). Hlasy HD můžou porozumět obsahu, automaticky rozpozná emoce ve vstupním textu a upravit tón mluvení v reálném čase tak, aby odpovídal mínění. Hlasy HD udržují konzistentní hlasovou osobu od svých neurálních (a jiných než HD) protějšků a poskytují ještě větší hodnotu prostřednictvím vylepšených funkcí.

Klíčové funkce neurálního textu pro hlasové hlasy HD

Níže jsou uvedené klíčové funkce hlasových služeb Azure AI Speech HD:

Klíčové funkce	Popis
Generace řeči podobné člověku	Neurální text na řeč hlasy HD může generovat vysoce přirozené a lidské řeči. Model se vytrénuje na miliony hodin vícejazyčných dat, což umožňuje přesně interpretovat vstupní text a generovat řeč s odpovídajícími emocemi, tempem a rytmem bez ručních úprav.
Konverzační	Neurální text na hlasy HD řeči může replikovat přirozené vzory řeči, včetně spontánních pozastavení a zdůraznění. Při zadání konverzačního textu může model reprodukovat běžné fonely, jako jsou pauzy a výplňová slova. Vygenerovaný hlas zní, jako by někdo s vámi konvergoval přímo.
Varianty prosody	Neurální text na řeč hd hlasy představují mírné variace v každém výstupu, aby se zlepšil realismus. Díky těmto variantám je řeč přirozenější, protože lidské hlasy přirozeně vykazují variaci.
Věrná reprodukce	Primárním cílem neurálního textu na hlasové hlasy HD je generovat zvuk s vysokou věrností. Syntetická řeč vytvořená naším systémem může úzce napodobovat lidskou řeč v kvalitě i přirozeném.
Správa verzí	S neurálním textem pro hlasové hlasy HD vydáváme různé verze stejného hlasu, z nichž každý má jedinečnou základní velikost modelu a recept. Nabízí vám možnost vyzkoušet si nové varianty hlasu nebo pokračovat v používání konkrétní verze hlasu.

Porovnání hlasových hovorů Azure AI Speech HD s jiným textem v Azure a hlasovými hlasy řeči

Jak se hlasy Azure AI Speech HD porovnávají s jinými hlasy řeči v Azure? Jak se liší z hlediska funkcí a možností?

Tady je porovnání funkcí mezi hlasy Azure AI Speech HD, hlasy Azure OpenAI HD a hlasy Azure AI Speech:

Funkce	Hlasy Azure AI Speech HD	Hlasy Azure OpenAI HD	Hlasy Azure AI Speech (ne HD)
Oblast	USA – východ, Jihovýchodní Asie, Západní Evropa	USA – středosever, Švédsko – střed	K dispozici v desítkách oblastí. Podívejte se na seznam oblastí.
Počet hlasů	12	6	Více než 500
Mnohojazyčný	Ne (provádět pouze u primárního jazyka)	Ano	Ano (platí jenom pro vícejazyčné hlasy)
Podpora SSML	Podpora podmnožina elementů SSML	Podpora podmnožina elementů SSML	Podpora úplné sady SSML ve službě Azure AI Speech
Možnosti vývoje	Speech SDK, Speech CLI, REST API	Speech SDK, Speech CLI, REST API	Speech SDK, Speech CLI, REST API
Možnosti nasazení	Pouze cloud	Pouze cloud	Cloud, vložené, hybridní a kontejnery.
Syntéza v reálném čase nebo dávkové syntéze	Pouze v reálném čase	Syntéza v reálném čase a dávkové syntéze	Syntéza v reálném čase a dávkové syntéze
Latence	Méně než 300 ms	Větší než 500 ms	Méně než 300 ms
Vzorkovací frekvence syntetizovaného zvuku	8, 16, 24 a 48 kHz	8, 16, 24 a 48 kHz	8, 16, 24 a 48 kHz
Formát zvukového výstupu řeči	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk

Podporované hlasy Azure AI Speech HD

Hlasové hodnoty Azure AI Speech HD jsou ve formátu voicename:basemodel:version. Jméno před dvojtečku, například en-US-Ava, je jméno osoby hlasu a jeho původní národní prostředí. Základní model se sleduje podle verzí v následných aktualizacích.

V současné době je jediným základním modelem dostupným DragonHD pro hlasy Azure AI Speech HD. Abyste měli jistotu, že používáte nejnovější verzi základního modelu, kterou poskytujeme, aniž byste museli provádět změny kódu, použijte LatestNeural verzi.

Například pro osobu en-US-Ava můžete zadat následující hodnoty hlasu HD:

en-US-Ava:DragonHDLatestNeural: Vždy používá nejnovější verzi základního modelu, kterou poskytujeme později.

Následující tabulka uvádí hlasy Azure AI Speech HD, které jsou aktuálně dostupné.

Neurální hlasová osoba	Hlasy HD
de-DE-Seraphina	de-DE-Seraphina:DragonHDLatestNeural
en-US-Andrew	en-US-Andrew:DragonHDLatestNeural
en-US-Andrew2	en-US-Andrew2:DragonHDLatestNeural
en-US-Aria	en-US-Aria:DragonHDLatestNeural
en-US-Ava	en-US-Ava:DragonHDLatestNeural
en-US-Brian	en-US-Brian:DragonHDLatestNeural
en-US-Davis	en-US-Davis:DragonHDLatestNeural
en-US-Emma	en-US-Emma:DragonHDLatestNeural
en-US-Emma2	en-US-Emma2:DragonHDLatestNeural
en-US-Jenny	en-US-Jenny:DragonHDLatestNeural
en-US-Steffan	en-US-Steffan:DragonHDLatestNeural
ja-JP-Masaru	ja-JP-Masaru:DragonHDLatestNeural
zh-CN-Xiaochen	zh-CN-Xiaochen:DragonHDLatestNeural

Jak používat hlasy Azure AI Speech HD

Hlasy HD můžete používat se stejnou sadou Speech SDK a rozhraními REST API jako hlasy mimo HD.

Tady je několik klíčových bodů, které je potřeba vzít v úvahu při použití hlasových hovorů Azure AI Speech HD:

Národní prostředí hlasu: Národní prostředí v názvu hlasu označuje původní jazyk a oblast.
Základní modely:
- Hlasy HD jsou součástí základního modelu, který rozumí vstupnímu textu a předpovídá vzor mluvení odpovídajícím způsobem. Požadovaný model (například DragonHDLatestNeural) můžete zadat podle dostupnosti každého hlasu.
Použití SSML: Chcete-li odkazovat na hlas v SSML, použijte formát voicename:basemodel:version. Jméno před dvojtečku, například de-DE-Seraphina, je jméno osoby hlasu a jeho původní národní prostředí. Základní model se sleduje podle verzí v následných aktualizacích.
Parametr teploty:
- Hodnota teploty je plovoucí od 0 do 1, která ovlivňuje náhodnost výstupu. Můžete také upravit parametr teploty pro řízení variace výstupů. Menší náhodnost přináší stabilnější výsledky, zatímco větší náhodnost nabízí různé, ale méně konzistence.
- Nižší teplota má za následek menší náhodnost, což vede k předvídatelnějším výstupům. Vyšší teplota zvyšuje náhodnost, což umožňuje různorodější výstupy. Výchozí teplota je nastavená na 1,0.

Tady je příklad použití hlasových hovorů Azure AI Speech HD v SSML:

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>

Podporované a nepodporované prvky SSML pro hlasy Azure AI Speech HD

Jazyk SSML (Speech Synthesis Markup Language) se vstupním textem určuje strukturu, obsah a další vlastnosti textu na výstup řeči. SSML můžete například použít k definování odstavce, věty, konce nebo pozastavení nebo tichou. Text můžete zalamovat značkami událostí, jako je záložka nebo viseme, které vaše aplikace zpracuje později.

Hlasy Azure AI Speech HD nepodporují všechny prvky ani události SSML, které podporují jiné hlasy Azure AI Speech. Konkrétně platí, že hlasy Azure AI Speech HD nepodporují události hranic slov.

Podrobné informace o podporovaných a nepodporovaných prvcích SSML pro hlasy Azure AI Speech HD najdete v následující tabulce. Pokyny k použití elementů SSML najdete v dokumentaci jazyka SSML (Speech Synthesis Markup Language).

SSML – element	Popis	Podporováno v hlasech Azure AI Speech HD
`<voice>`	Určuje hlas a volitelné efekty (`eq_car` a `eq_telecomhp8k`).	Ano
`<mstts:express-as>`	Určuje styly a role mluvení.	No
`<mstts:ttsembedding>`	Určuje `speakerProfileId` vlastnost pro osobní hlas.	No
`<lang xml:lang>`	Určuje jazyk mluvení.	Ano
`<prosody>`	Upraví rozteč, obrys, rozsah, rychlost a objem.	No
`<emphasis>`	Přidá nebo odebere stres na úrovni slova pro text.	No
`<audio>`	Vloží předem zaznamenaný zvuk do dokumentu SSML.	No
`<mstts:audioduration>`	Určuje dobu trvání výstupního zvuku.	No
`<mstts:backgroundaudio>`	Přidá do dokumentů SSML zvuk na pozadí nebo zkombinuje zvukový soubor s textem na řeč.	No
`<phoneme>`	Určuje fonetickou výslovnost v dokumentech SSML.	No
`<lexicon>`	Definuje, jak se v SSML čte více entit.	Ano (podporuje pouze alias)
`<say-as>`	Označuje typ obsahu, například číslo nebo datum, textu elementu.	Ano
`<sub>`	Označuje, že textová hodnota atributu aliasu by měla být vyslovována místo uzavřeného textu elementu.	Ano
`<math>`	Použije MathML jako vstupní text k správnému vyslovování matematických notací ve výstupním zvuku.	No
`<bookmark>`	Získá posun každé značky ve zvukovém streamu.	No
`<break>`	Přepíše výchozí chování konců nebo pozastavení mezi slovy.	No
`<mstts:silence>`	Vloží pozastavení před nebo za text nebo mezi dvě sousední věty.	No
`<mstts:viseme>`	Definuje pozici tváře a úst, když člověk mluví.	No
`<p>`	Označuje odstavce v dokumentech SSML.	Ano
`<s>`	Označuje věty v dokumentech SSML.	Ano

Poznámka:

I když předchozí část tohoto průvodce také porovnává hlasy Azure AI Speech HD s hlasy Azure OpenAI HD, prvky SSML podporované službou Azure AI Speech se nevztahují na hlasy Azure OpenAI.

Sdílet prostřednictvím

Co jsou hlasy s vysokou definicí? (Preview)

Klíčové funkce neurálního textu pro hlasové hlasy HD

Porovnání hlasových hovorů Azure AI Speech HD s jiným textem v Azure a hlasovými hlasy řeči

Podporované hlasy Azure AI Speech HD

Jak používat hlasy Azure AI Speech HD

Podporované a nepodporované prvky SSML pro hlasy Azure AI Speech HD

Váš názor

Další materiály

Sdílet prostřednictvím

Co jsou hlasy s vysokou definicí? (Preview)

Klíčové funkce neurálního textu pro hlasové hlasy HD

Porovnání hlasových hovorů Azure AI Speech HD s jiným textem v Azure a hlasovými hlasy řeči

Podporované hlasy Azure AI Speech HD

Jak používat hlasy Azure AI Speech HD

Podporované a nepodporované prvky SSML pro hlasy Azure AI Speech HD

Související obsah

Váš názor

Další materiály