什麼是自訂文字轉換語音虛擬人偶？

自訂文字轉換語音虛擬人偶可讓您為您的應用程式建立自訂的一種合成對話虛擬人偶。透過自訂文字轉換語音虛擬人偶，您可以藉由提供所選動作項目的影片錄製內容資料，為您的產品或品牌建立獨特的自然虛擬人偶。如果您也為同一個動作專案建立自定義神經語音，並將其作為虛擬人偶的聲音使用，則虛擬人偶會更現實。

重要

自訂文字轉換語音虛擬人偶存取受限於資格和使用準則。要求輸入表單的存取權。

如何運作？

建立自訂文字轉換語音虛擬人偶需要至少 10 分鐘的影片錄製內容，虛擬人偶配音員作為訓練資料，您必須先取得動作配音員的同意。

自訂虛擬人偶模型可以支援：

在您開始使用之前，以下是一些考量：

您的使用案例：您是否要使用虛擬人偶來建立影片內容，例如訓練材料、產品簡介，或使用虛擬人偶作為虛擬銷售人員，用於與客戶的即時交談中？不同使用案例有一些錄製需求。

虛擬人偶的外觀： 語音轉換虛擬人偶的自定義文字看起來與訓練數據中的虛擬人偶人才相同，我們不支援自定義虛擬人偶模型的外觀，例如衣服、髮型等。因此，如果您的應用程式需要相同虛擬人偶的多個樣式，您應該準備每個樣式的定型數據，因為虛擬人偶的每個樣式都會被視為單一虛擬人偶模型。

虛擬人偶的聲音： 自訂文字轉換語音虛擬人偶可以搭配預先建置的神經語音和自訂神經語音運作。為虛擬人偶人才建立自定義神經語音，並將其與虛擬人偶搭配使用，可大幅提升虛擬人偶體驗的自然性。

以下是建立自訂文字轉換語音虛擬人偶的步驟概觀：

取得同意影片。 取得同意聲明的視訊錄製。同意聲明是虛擬人偶配音員閱讀語句的影片錄製內容，同意使用其影像和語音資料來將自訂文字訓練為語音虛擬人偶模型。
準備訓練數據。 請確定影片錄製格式正確。最好是在專業品質的影片拍攝工作室中拍攝影片錄製，以取得乾淨的背景影像。產生的虛擬人偶品質嚴重取決於用於訓練的錄製影片。說話速率、身體姿勢、臉部表情、手勢、動作位置的一致性，以及影片錄製光源等因素，對於建立吸引人的自訂文字轉換語音虛擬人偶至關重要。如需詳細資訊，請參閱如何準備定型數據。
將虛擬人偶模型定型。 準備好數據之後，請將您的數據上傳至自定義虛擬人偶入口網站，並開始將模型定型。同意驗證會在訓練期間進行。建立專案之前，請確定您可以存取自定義文字到語音虛擬人偶功能。
在應用程式中部署和使用您的虛擬人偶模型。

自訂文字轉換語音虛擬人偶模型包含三個元件：文字分析器、語音轉換音訊合成器和文字轉換語音虛擬人偶影片轉譯器。

神經文字轉換語音語虛擬人偶模型會根據人類語音的錄音範例，使用深度神經網路進行訓練。支援預建語音和自訂神經語音的所有語言。

自定義虛擬人偶訓練僅適用於下列服務區域：東南亞、西歐和美國西部 2。您可以在下列服務區域中使用自定義虛擬人偶模型：東南亞、北歐、西歐、瑞典中部、美國中南部、美國東部 2 和美國西部 2。

自訂文字轉換語音虛擬人偶可以搭配預先建置的神經語音或自訂神經語音作為虛擬人偶的語音運作。如需詳細資訊，請參閱虛擬人偶語音和語言。

自訂神經語音和自訂文字轉換語音虛擬人偶是不同的功能。您可以單獨或一起使用。如果您選擇一起使用它們，則必須分別套用自定義神經語音和自定義文字到語音虛擬人偶，而您將分別向自定義神經語音和自定義文字向語音虛擬人偶收費。如需詳細資訊，請參閱定價頁面。此外，如果您打算將自訂神經語音搭配文字轉換語音虛擬人偶使用，則必須將自訂神經語音模型部署或複製到其中一個虛擬人偶支援的區域。