文字轉換語音虛擬人偶概觀

發行項
01/13/2025

文字轉換語音虛擬人偶會將文字轉換為自然發音且逼真的人類數位影片 (預先建置的虛擬人偶或自訂文字轉換語音虛擬人偶)。文字轉換語音虛擬人偶影片可以非同步或即時合成。開發人員可以透過 API 建立與文字轉換語音虛擬人偶整合的應用程式，或使用 Speech Studio 上的內容建立工具來建立影片內容，而無需進行編碼。

透過文字轉換語音虛擬人偶的進階類神經網路模型，此功能可讓使用者為各種應用程式提供更真實且高品質的合成對話虛擬人偶影片，同時遵循負責任 AI 做法。

提示

若要使用無程式碼方法來進行文字轉換語音，請嘗試 Speech Studio 中的文字轉換語音虛擬人偶工具。

虛擬人偶功能

文字轉換語音虛擬人偶功能包括：

將文字轉換成逼近真人說話的數位影片，並使用由 Azure AI 文字轉換語音提供的自然聲音說話。
提供預先建置虛擬人偶的集合。
虛擬人偶的語音是由 Azure AI 文字轉換語音所產生。如需詳細資訊，請參閱虛擬人偶語音和語言。
使用批次合成 API 或以非同步文字轉換語音轉換為虛擬人偶影片，或即時轉換。
在 Speech Studio 中提供內容創作工具，讓您無須撰寫程式碼即可建立影片內容。
在 Speech Studio 中透過即時聊天虛擬人偶工具啟用即時虛擬人偶交談。

透過文字轉換語音虛擬人偶的進階類神經網路模型，此功能可讓您為各種應用程式提供更真實且高品質的合成對話虛擬人偶影片，同時遵循負責任 AI 做法。

虛擬人偶語音和語言

您可以從虛擬人偶的預先建置語音範圍中選擇。文字轉換語音虛擬人偶支援的語言與文字轉換語音的支援語言相同。如需詳細資料，請參閱語音服務的語言和語音支援。預先建置的文字轉換語音虛擬人偶可以透過 Speech Studio 入口網站或透過 API 存取。

合成視訊中的語音可以是 Azure AI 語音上預先建置的神經語音，或由您選取的自訂神經語音語音配音員。

虛擬人偶影片輸出

批次合成和即時合成解析度都是 1920 x 1080，每秒的畫面格 (FPS) 為 25。如果格式為，則批次合成編解碼器可以是 h264、hevc 或 av1，如果格式webm為 mp4 ，則可以將編解碼器設定為 vp9 或 av1;只能vp9包含 Alpha 色板。即時合成轉碼器為 h264。您可以針對要求中的批次合成和即時合成設定影片位元速率；預設值為 2000000；您可以在範例程式碼中找到更詳細的設定。

	批次合成	即時合成
解決方法	1920 x 1080	1920 x 1080
FPS	25	25
Codec	h264/hevc/vp9/av1	h264

自訂文字轉換語音虛擬人偶

您可以建立自訂文字轉換語音虛擬人偶，這些虛擬人偶是產品或品牌特有。只需要 10 分鐘的影片錄製內容即可開始使用。如果您也正在為演員建立自訂神經語音，則虛擬人偶可以非常逼真。如需詳細資訊，請參閱什麼是自訂字轉換語音虛擬人偶。

自訂神經語音和自訂文字轉換語音虛擬人偶是不同的功能。您可以單獨或一起使用。如果您也打算將自訂神經語音搭配文字轉換語音虛擬人偶使用，則必須將自訂神經語音模型部署或複製到其中一個虛擬人偶支援的區域。

範例指令碼

您可以在 GitHub 上取得文字轉換語音虛擬人偶的範例程式碼。這些範例涵蓋最熱門的案例：

批次合成 (REST)
即時合成 (SDK)
在後方與 Azure OpenAI 即時聊天 (SDK)
若要使用 Azure OpenAI 在您的資料上建立即時聊天應用程式，您可以參考此範例程式碼 (搜尋「在您的資料上」)

定價

在虛擬人偶即時工作階段或批次內容建立期間，文字轉換語音、語音轉換文字、Azure OpenAI 或其他 Azure 服務會分別收費。
請參閱文字轉換語音虛擬人偶價格注意事項以瞭解文字轉換語音虛擬人偶功能的計費運作方式。
如需價格的詳細資訊，請參閱語音服務價格。請注意，只有提供此功能的服務區域才會顯示虛擬人偶定價，包括東南亞、北歐、西歐、瑞典中部、美國中南部、美國東部 2 和美國西部 2。

可用的位置

語音轉換虛擬人偶功能僅適用於下列服務區域：東南亞、北歐、西歐、瑞典中部、美國中南部、美國東部 2 和美國西部 2。

負責 AI

我們關心技術，但我們也關心使用 AI 的人以及會受到其影響的人。如需詳細資訊，請參閱責任 AI 透明度資訊和公開語音和虛擬人偶配音員。

共用方式為