Co jsou hlasy s vysokou definicí? (Preview)
Poznámka:
Tato funkce je v současné době ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.
Azure AI Speech pokračuje v oblasti převodu textu do řečové technologie se zavedením neurálního textu do hlasových hlasů s vysokým rozlišením (HD). Hlasy HD můžou porozumět obsahu, automaticky rozpozná emoce ve vstupním textu a upravit tón mluvení v reálném čase tak, aby odpovídal mínění. Hlasy HD udržují konzistentní hlasovou osobu od svých neurálních (a jiných než HD) protějšků a poskytují ještě větší hodnotu prostřednictvím vylepšených funkcí.
Klíčové funkce neurálního textu pro hlasové hlasy HD
Níže jsou uvedené klíčové funkce hlasových služeb Azure AI Speech HD:
Klíčové funkce | Popis |
---|---|
Generace řeči podobné člověku | Neurální text na řeč hlasy HD může generovat vysoce přirozené a lidské řeči. Model se vytrénuje na miliony hodin vícejazyčných dat, což umožňuje přesně interpretovat vstupní text a generovat řeč s odpovídajícími emocemi, tempem a rytmem bez ručních úprav. |
Konverzační | Neurální text na hlasy HD řeči může replikovat přirozené vzory řeči, včetně spontánních pozastavení a zdůraznění. Při zadání konverzačního textu může model reprodukovat běžné fonely, jako jsou pauzy a výplňová slova. Vygenerovaný hlas zní, jako by někdo s vámi konvergoval přímo. |
Varianty prosody | Neurální text na řeč hd hlasy představují mírné variace v každém výstupu, aby se zlepšil realismus. Díky těmto variantám je řeč přirozenější, protože lidské hlasy přirozeně vykazují variaci. |
Věrná reprodukce | Primárním cílem neurálního textu na hlasové hlasy HD je generovat zvuk s vysokou věrností. Syntetická řeč vytvořená naším systémem může úzce napodobovat lidskou řeč v kvalitě i přirozeném. |
Správa verzí | S neurálním textem pro hlasové hlasy HD vydáváme různé verze stejného hlasu, z nichž každý má jedinečnou základní velikost modelu a recept. Nabízí vám možnost vyzkoušet si nové varianty hlasu nebo pokračovat v používání konkrétní verze hlasu. |
Porovnání hlasových hovorů Azure AI Speech HD s jiným textem v Azure a hlasovými hlasy řeči
Jak se hlasy Azure AI Speech HD porovnávají s jinými hlasy řeči v Azure? Jak se liší z hlediska funkcí a možností?
Tady je porovnání funkcí mezi hlasy Azure AI Speech HD, hlasy Azure OpenAI HD a hlasy Azure AI Speech:
Funkce | Hlasy Azure AI Speech HD | Hlasy Azure OpenAI HD | Hlasy Azure AI Speech (ne HD) |
---|---|---|---|
Oblast | USA – východ, Jihovýchodní Asie, Západní Evropa | USA – středosever, Švédsko – střed | K dispozici v desítkách oblastí. Podívejte se na seznam oblastí. |
Počet hlasů | 12 | 6 | Více než 500 |
Mnohojazyčný | Ne (provádět pouze u primárního jazyka) | Ano | Ano (platí jenom pro vícejazyčné hlasy) |
Podpora SSML | Podpora podmnožina elementů SSML | Podpora podmnožina elementů SSML | Podpora úplné sady SSML ve službě Azure AI Speech |
Možnosti vývoje | Speech SDK, Speech CLI, REST API | Speech SDK, Speech CLI, REST API | Speech SDK, Speech CLI, REST API |
Možnosti nasazení | Pouze cloud | Pouze cloud | Cloud, vložené, hybridní a kontejnery. |
Syntéza v reálném čase nebo dávkové syntéze | Pouze v reálném čase | Syntéza v reálném čase a dávkové syntéze | Syntéza v reálném čase a dávkové syntéze |
Latence | Méně než 300 ms | Větší než 500 ms | Méně než 300 ms |
Vzorkovací frekvence syntetizovaného zvuku | 8, 16, 24 a 48 kHz | 8, 16, 24 a 48 kHz | 8, 16, 24 a 48 kHz |
Formát zvukového výstupu řeči | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk |
Podporované hlasy Azure AI Speech HD
Hlasové hodnoty Azure AI Speech HD jsou ve formátu voicename:basemodel:version
. Jméno před dvojtečku, například en-US-Ava
, je jméno osoby hlasu a jeho původní národní prostředí. Základní model se sleduje podle verzí v následných aktualizacích.
V současné době je jediným základním modelem dostupným DragonHD
pro hlasy Azure AI Speech HD. Abyste měli jistotu, že používáte nejnovější verzi základního modelu, kterou poskytujeme, aniž byste museli provádět změny kódu, použijte LatestNeural
verzi.
Například pro osobu en-US-Ava
můžete zadat následující hodnoty hlasu HD:
en-US-Ava:DragonHDLatestNeural
: Vždy používá nejnovější verzi základního modelu, kterou poskytujeme později.
Následující tabulka uvádí hlasy Azure AI Speech HD, které jsou aktuálně dostupné.
Neurální hlasová osoba | Hlasy HD |
---|---|
de-DE-Seraphina | de-DE-Seraphina:DragonHDLatestNeural |
en-US-Andrew | en-US-Andrew:DragonHDLatestNeural |
en-US-Andrew2 | en-US-Andrew2:DragonHDLatestNeural |
en-US-Aria | en-US-Aria:DragonHDLatestNeural |
en-US-Ava | en-US-Ava:DragonHDLatestNeural |
en-US-Brian | en-US-Brian:DragonHDLatestNeural |
en-US-Davis | en-US-Davis:DragonHDLatestNeural |
en-US-Emma | en-US-Emma:DragonHDLatestNeural |
en-US-Emma2 | en-US-Emma2:DragonHDLatestNeural |
en-US-Jenny | en-US-Jenny:DragonHDLatestNeural |
en-US-Steffan | en-US-Steffan:DragonHDLatestNeural |
ja-JP-Masaru | ja-JP-Masaru:DragonHDLatestNeural |
zh-CN-Xiaochen | zh-CN-Xiaochen:DragonHDLatestNeural |
Jak používat hlasy Azure AI Speech HD
Hlasy HD můžete používat se stejnou sadou Speech SDK a rozhraními REST API jako hlasy mimo HD.
Tady je několik klíčových bodů, které je potřeba vzít v úvahu při použití hlasových hovorů Azure AI Speech HD:
- Národní prostředí hlasu: Národní prostředí v názvu hlasu označuje původní jazyk a oblast.
- Základní modely:
- Hlasy HD jsou součástí základního modelu, který rozumí vstupnímu textu a předpovídá vzor mluvení odpovídajícím způsobem. Požadovaný model (například DragonHDLatestNeural) můžete zadat podle dostupnosti každého hlasu.
- Použití SSML: Chcete-li odkazovat na hlas v SSML, použijte formát
voicename:basemodel:version
. Jméno před dvojtečku, napříkladde-DE-Seraphina
, je jméno osoby hlasu a jeho původní národní prostředí. Základní model se sleduje podle verzí v následných aktualizacích. - Parametr teploty:
- Hodnota teploty je plovoucí od 0 do 1, která ovlivňuje náhodnost výstupu. Můžete také upravit parametr teploty pro řízení variace výstupů. Menší náhodnost přináší stabilnější výsledky, zatímco větší náhodnost nabízí různé, ale méně konzistence.
- Nižší teplota má za následek menší náhodnost, což vede k předvídatelnějším výstupům. Vyšší teplota zvyšuje náhodnost, což umožňuje různorodější výstupy. Výchozí teplota je nastavená na 1,0.
Tady je příklad použití hlasových hovorů Azure AI Speech HD v SSML:
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>
Podporované a nepodporované prvky SSML pro hlasy Azure AI Speech HD
Jazyk SSML (Speech Synthesis Markup Language) se vstupním textem určuje strukturu, obsah a další vlastnosti textu na výstup řeči. SSML můžete například použít k definování odstavce, věty, konce nebo pozastavení nebo tichou. Text můžete zalamovat značkami událostí, jako je záložka nebo viseme, které vaše aplikace zpracuje později.
Hlasy Azure AI Speech HD nepodporují všechny prvky ani události SSML, které podporují jiné hlasy Azure AI Speech. Konkrétně platí, že hlasy Azure AI Speech HD nepodporují události hranic slov.
Podrobné informace o podporovaných a nepodporovaných prvcích SSML pro hlasy Azure AI Speech HD najdete v následující tabulce. Pokyny k použití elementů SSML najdete v dokumentaci jazyka SSML (Speech Synthesis Markup Language).
SSML – element | Popis | Podporováno v hlasech Azure AI Speech HD |
---|---|---|
<voice> |
Určuje hlas a volitelné efekty (eq_car a eq_telecomhp8k ). |
Ano |
<mstts:express-as> |
Určuje styly a role mluvení. | No |
<mstts:ttsembedding> |
Určuje speakerProfileId vlastnost pro osobní hlas. |
No |
<lang xml:lang> |
Určuje jazyk mluvení. | Ano |
<prosody> |
Upraví rozteč, obrys, rozsah, rychlost a objem. | No |
<emphasis> |
Přidá nebo odebere stres na úrovni slova pro text. | No |
<audio> |
Vloží předem zaznamenaný zvuk do dokumentu SSML. | No |
<mstts:audioduration> |
Určuje dobu trvání výstupního zvuku. | No |
<mstts:backgroundaudio> |
Přidá do dokumentů SSML zvuk na pozadí nebo zkombinuje zvukový soubor s textem na řeč. | No |
<phoneme> |
Určuje fonetickou výslovnost v dokumentech SSML. | No |
<lexicon> |
Definuje, jak se v SSML čte více entit. | Ano (podporuje pouze alias) |
<say-as> |
Označuje typ obsahu, například číslo nebo datum, textu elementu. | Ano |
<sub> |
Označuje, že textová hodnota atributu aliasu by měla být vyslovována místo uzavřeného textu elementu. | Ano |
<math> |
Použije MathML jako vstupní text k správnému vyslovování matematických notací ve výstupním zvuku. | No |
<bookmark> |
Získá posun každé značky ve zvukovém streamu. | No |
<break> |
Přepíše výchozí chování konců nebo pozastavení mezi slovy. | No |
<mstts:silence> |
Vloží pozastavení před nebo za text nebo mezi dvě sousední věty. | No |
<mstts:viseme> |
Definuje pozici tváře a úst, když člověk mluví. | No |
<p> |
Označuje odstavce v dokumentech SSML. | Ano |
<s> |
Označuje věty v dokumentech SSML. | Ano |
Poznámka:
I když předchozí část tohoto průvodce také porovnává hlasy Azure AI Speech HD s hlasy Azure OpenAI HD, prvky SSML podporované službou Azure AI Speech se nevztahují na hlasy Azure OpenAI.