什麼是高階語音? (預覽)
注意
此功能目前處於公開預覽。 此預覽版本沒有服務等級協定,不建議將其用於生產工作負載。 可能不支援特定功能,或可能已經限制功能。 如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款。
Azure AI 語音透過引進類神經文字到語音高階語音(HD)語音,繼續推進文字到語音轉換技術領域。 HD 語音可以瞭解內容、自動偵測輸入文字中的表情,並即時調整說話音調以符合情感。 HD 語音會從其神經(和非 HD)對應項目維護一致的語音角色,並透過增強的功能提供更多價值。
類神經文字到語音 HD 語音的主要功能
以下是 Azure AI 語音 HD 語音的主要功能:
主要功能 | 描述 |
---|---|
人類般的語音產生 | 神經文字到語音轉換 HD 語音可以產生高度自然且類似人類的語音。 此模型會以數百萬小時的多語系數據進行定型,使其能夠準確地解譯輸入文字,並以適當的情緒、步調和節奏產生語音,而不需要手動調整。 |
對話的 | 類神經文字到語音 HD 語音可以復寫自然語音模式,包括自發的暫停和強調。 當指定的交談文字時,模型可以重現常見的音素,例如暫停和填充字。 產生的聲音聽起來好像有人直接與你交談。 |
Prosody 變化 | 神經文字到語音轉換 HD 語音會在每個輸出中引入輕微的變化,以增強現實主義。 這些變化使語音聽起來更自然,因為人類的聲音自然地表現出變化。 |
高逼真度 | 類神經文字到語音 HD 語音的主要目標是產生高逼真度音訊。 我們系統所產生的合成語音可以密切模仿人類語音的品質和自然性。 |
版本控制 | 透過類神經文字到語音 HD 語音,我們釋放不同版本的相同語音,每個版本都有獨特的基底模型大小和配方。 這可讓您體驗新的語音變化,或繼續使用特定版本的語音。 |
Azure AI 語音 HD 語音與其他 Azure 文字到語音語音的比較
Azure AI 語音 HD 語音如何與其他 Azure 文字與語音語音進行比較? 它們在特性和功能方面有何不同?
以下是 Azure AI 語音 HD 語音、Azure OpenAI HD 語音和 Azure AI 語音語音之間的功能比較:
功能 | Azure AI 語音 HD 語音 | Azure OpenAI HD 語音 | Azure AI 語音語音(非 HD) |
---|---|---|---|
區域 | 美國東部、東南亞、西歐 | 美國中北部、瑞典中部 | 可在數十個區域中使用。 請參閱區域清單。 |
語音數目 | 12 | 6 | 超過 500 |
多種語言 | 否 (僅對主要語言執行) | Yes | 是 (僅適用於多語系語音) |
SSML 支援 | 支援 SSML 元素子集。 | 支援 SSML 元素子集。 | 支援 Azure AI 語音中 完整的 SSML 集合。 |
開發選項 | 語音 SDK、語音 CLI、REST API | 語音 SDK、語音 CLI、REST API | 語音 SDK、語音 CLI、REST API |
部署選項 | 僅限雲端 | 僅限雲端 | 雲端、內嵌、混合式及容器。 |
即時或批次合成 | 僅限即時 | 即時和批次合成 | 即時和批次合成 |
延遲 | 小於 300 毫秒 | 大於 500 毫秒 | 小於 300 毫秒 |
合成音訊的採樣速率 | 8、16、24 及 48 kHz | 8、16、24 及 48 kHz | 8、16、24 及 48 kHz |
語音輸出音訊格式 | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk |
支援的 Azure AI 語音 HD 語音
Azure AI 語音 HD 語音值的格式 voicename:basemodel:version
為 。 冒號之前的名稱,例如 en-US-Ava
,是語音角色名稱和其原始地區設定。 基底模型會依後續更新中的版本追蹤。
DragonHD
目前,是 Azure AI 語音 HD 語音的唯一基本模型。 若要確保您使用的是我們提供的最新版本基底模型,而不需要進行程式代碼變更,請使用 LatestNeural
版本。
例如,針對角色 en-US-Ava
,您可以指定下列 HD 語音值:
en-US-Ava:DragonHDLatestNeural
:一律使用我們稍後提供的基底模型最新版本。
下表列出目前可用的 Azure AI 語音 HD 語音。
神經語音角色 | HD 語音 |
---|---|
de-DE-Seraphina | de-DE-Seraphina:DragonHDLatestNeural |
en-US-Andrew | en-US-Andrew:DragonHDLatestNeural |
en-US-Andrew2 | en-US-Andrew2:DragonHDLatestNeural |
en-US-Aria | en-US-Aria:DragonHDLatestNeural |
en-US-Ava | en-US-Ava:DragonHDLatestNeural |
en-US-Brian | en-US-Brian:DragonHDLatestNeural |
en-US-Davis | en-US-Davis:DragonHDLatestNeural |
en-US-Emma | en-US-Emma:DragonHDLatestNeural |
en-US-Emma2 | en-US-Emma2:DragonHDLatestNeural |
en-US-Jenny | en-US-Jenny:DragonHDLatestNeural |
en-US-Steffan | en-US-Steffan:DragonHDLatestNeural |
ja-JP-Masaru | ja-JP-Masaru:DragonHDLatestNeural |
zh-CN-Xiaochen | zh-CN-Xiaochen:DragonHDLatestNeural |
如何使用 Azure AI 語音 HD 語音
您可以使用 HD 語音搭配與非 HD 語音相同的語音 SDK 和 REST API。
以下是使用 Azure AI 語音 HD 語音時需要考慮的一些重點:
- 語音地區設定:語音名稱中的地區設定會指出其原始語言和區域。
- 基底模型:
- HD 語音隨附基底模型,可了解輸入文字並據以預測說話模式。 您可以根據每個語音的可用性來指定所需的模型(例如 DragonHDLatestNeural)。
- SSML 使用方式:若要在 SSML 中參考語音,請使用 格式
voicename:basemodel:version
。 冒號之前的名稱,例如de-DE-Seraphina
,是語音角色名稱和其原始地區設定。 基底模型會依後續更新中的版本追蹤。 - 溫度參數:
- 溫度值是介於 0 到 1 的浮點數,會影響輸出的隨機性。 您也可以調整溫度參數來控制輸出的變化。 較少的隨機性會產生更穩定的結果,而更多的隨機性提供多樣性,但較不一致。
- 較低的溫度會產生較少的隨機性,導致更可預測的輸出。 較高的溫度會增加隨機性,允許更多樣化的輸出。 默認溫度設定為 1.0。
以下是如何在 SSML 中使用 Azure AI 語音 HD 語音的範例:
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>
Azure AI 語音 HD 語音支援和不支援的 SSML 元素
具有輸入文字的語音合成標記語言 (SSML) 會判斷文字轉換語音輸出的結構、內容及其他特性。 例如,您可以使用 SSML 來定義段落、句子、中斷或暫停或靜音。 您可以使用事件標記來包裝文字,例如應用程式稍後處理的書籤或viseme。
Azure AI 語音 HD 語音不支援其他 Azure AI 語音支援的所有 SSML 元素或事件。 特別請注意,Azure AI 語音 HD 語音不支援 字邊界事件。
如需 Azure AI 語音 HD 語音支援和不支援 SSML 元素的詳細資訊,請參閱下表。 如需如何使用 SSML 元素的指示,請參閱 語音合成標記語言 (SSML) 檔。
SSML 元素 | 描述 | Azure AI 語音 HD 語音支援 |
---|---|---|
<voice> |
指定語音和選用效果 (eq_car 和 eq_telecomhp8k )。 |
Yes |
<mstts:express-as> |
指定說話風格和角色。 | No |
<mstts:ttsembedding> |
指定個人語音的 speakerProfileId 屬性。 |
No |
<lang xml:lang> |
指定說話語言。 | Yes |
<prosody> |
調整音調、輪廓、範圍、速率和音量。 | No |
<emphasis> |
新增或移除文字的文字層級壓力。 | No |
<audio> |
將預先錄製的音訊內嵌至 SSML 文件。 | No |
<mstts:audioduration> |
指定輸出音訊的持續時間。 | No |
<mstts:backgroundaudio> |
在 SSML 文件中新增背景音訊或使用文字轉換語音來混合音訊檔案。 | No |
<phoneme> |
指定 SSML 文件中的語音發音。 | No |
<lexicon> |
定義如何在 SSML 中讀取多個實體。 | 是 (僅支援別名) |
<say-as> |
指出元素文字的內容類型,例如數字或日期。 | Yes |
<sub> |
指出別名屬性的文字值應該發音,而不是元素的括住文字。 | Yes |
<math> |
使用 MathML 作為輸入文字,以在輸出音訊中正確發音數學符號。 | No |
<bookmark> |
取得音訊資料流中每個標記的位移。 | No |
<break> |
覆寫單字之間中斷或暫停的預設行為。 | No |
<mstts:silence> |
在文字前後插入暫停,或在兩個相鄰的句子之間插入。 | No |
<mstts:viseme> |
定義人在說話時,臉部和嘴巴的位置。 | No |
<p> |
表示 SSML 文件中的段落。 | Yes |
<s> |
表示 SSML 文件中的句子。 | Yes |
注意
雖然本指南中的上一節也會比較 Azure AI 語音 HD 語音與 Azure OpenAI HD 語音,但 Azure AI 語音所支援的 SSML 元素不適用於 Azure OpenAI 語音。