如何錄製自訂文字轉換語音虛擬人偶的影片範例

發行項
01/13/2025

本文提供準備高品質影片範例的指示，以建立自訂文字轉換語音虛擬人偶。

自訂文字轉換語音虛擬人偶模型建置需要針對真人說話的影片錄製內容進行訓練。這個人是虛擬人偶配音員。您必須根據虛擬人偶配音員的所有相關法律法規獲得足夠的同意，才能從其配音員的形象或相似性中建立自訂虛擬人偶。若要了解同意聲明影片的需求，請參閱從虛擬人偶人才取得同意檔案。

錄製環境

建議您在專業影片錄製工作室或光線充足的地方錄製。

背景需求

如果您需要商務多場景虛擬人偶，影片的背景應該是乾淨、平滑、純色，而綠色螢幕是最佳選擇。

如果您的虛擬人偶只需要在單一場景中使用，您可以選取要錄製的特定場景 (例如在辦公室)，但背景無法去除和變更。

以下是當您使用純色背景（例如綠幕）進行錄製時應考慮的最佳做法：

綠幕設置在背後，如果您的虛擬人偶影片會顯示演員的全身 (包括腳)，腳下應該要有綠幕。而後方綠幕和地板綠幕應該以無接縫方式連接。
綠幕應該是平坦的，並統一採用一種顏色。
演員應該與後方背景保持 0.5 公尺 - 1 公尺的距離。
可對綠幕適當打光，以避免產生陰影。
將演員的整個身形置於綠幕邊緣之內。
演員不應該站得離綠幕太近。
避免演員的頭部和手在說話時超出綠幕。

光源需求

確保演員臉上的照明均勻明亮，避免臉部陰影或眼鏡和衣服上產生反射。
嘗試避免環境光線變化對演員產生影響。建議您關閉投影機、拉上窗簾以避免日光變化，並使用穩定的人工光源等等。

裝置

攝影機需求：至少 1080 P 解析度和 25 FPS (每秒畫面格數)。
整個影片拍攝期間，光線和攝影機的位置在設置好之後就不要變更。
您可以使用提詞機在錄製期間提示台詞，但請確保不會影響演員看向攝影機的視線。如果虛擬人偶需要坐在位置上，請提供座位。
如果是半身或坐下的數位虛擬人偶，請為演員提供座位。如果您不希望椅子的影像出現，您可以選擇簡單的椅子。

演員的外觀

自訂文字轉換語音虛擬人偶不支援自訂服裝或外觀。因此，在錄制訓練資料時，請務必仔細設計和準備虛擬人偶的外觀。請考慮下列秘訣：

類別	建議執行	不可執行動作
頭髮	- 演員的頭髮應該有光滑和亮澤的表面。 - 即使演員有瀏海或頭髮毛躁，也應該有一個清晰和光滑的輪廓。 - 選擇容易在整個影片錄製期間保持不變的髮型。	- 避免披頭散髮或是讓背景穿插在頭髮之間顯示。 - 不要讓頭髮遮住眼睛或眉毛。 - 避免髮型造成臉部陰影。 - 避免在說話和使用身體姿勢時髮型變化太大。例如，演員的高馬尾可能會在說話期間出現、消失和擺動。
Clothing	- 注意服裝狀態，並確保在說話期間，服裝沒有重大變化。	- 避免穿著過於寬鬆、沉重或複雜的服裝和配件，因為它們可能會影響演員在說話和使用身體姿勢時服裝狀態的一致性。 - 避免穿著與背景色彩或反光材質太相似的服裝，例如白色襯衫或半透明材質。 - 避免具有明顯線條的服裝，或者是帶有您不想凸顯的標誌和品牌名稱元素的服裝。 - 避免反光元素，如金屬腰帶、亮澤皮鞋和皮褲。
臉部	- 確定演員的臉部清晰可見。	- 避免臉部被頭髮、太陽眼鏡或配件遮擋。

要錄製哪些視訊剪輯

您需要數種類型的基本影片剪輯：

同意視訊（必要） 建立自定義虛擬人偶需要同意影片。

同意影片必須代表相同的虛擬人偶人才說話，並遵循同意聲明的要求。請確定已正確記錄語句，且每個字都清楚讀出。您可以選取任何支援的語言。若要了解同意聲明影片的需求，請參閱從虛擬人偶人才取得同意檔案。
虛擬人偶人才應該總是面對相機的前方，沒有大動作。
視訊應該在安靜的環境中拍攝，而且聲音應該以合理的音量錄製。嘗試將訊號與雜訊比率維持在20以上。如需語音錄製指引，請參閱錄製自定義語音範例指南。
確定影片的每個畫面都不會遮蔽頭部部分。
確定相機中沒有其他對象出現，包括拍攝設備、行動電話等。

狀態 0 說話（手勢必要） 狀態 0 說話視訊剪輯需要手勢與虛擬人偶。

狀態 0 代表您可以在說話時自然維持大部分時間的狀態。例如，手臂交叉在身體前或自然懸掛在兩側。
維持正面姿勢。演員可以稍微移動以呈現放鬆的狀態，如稍微移動頭部或肩膀，但不要過分移動身體。
長度：保持狀態 0 說話 3-5 分鐘。

狀態 0 說話的範例

描繪 Lisa 在狀態 0 中說話的動畫圖像，代表說話時自然維持的狀態。

描繪 Harry 在狀態 0 中說話的動畫圖像，代表說話時自然維持的狀態。

描繪 Lori 在狀態 0 中說話的動畫圖像，代表說話時自然維持的狀態。

自然說話（必要） 自然說話的視頻剪輯是自然說話的虛擬人偶自然說話的必要專案。

演員會以狀態 0 說話，但不時以自然手勢說話。
手部應該從狀態 0 開始，並在進行手勢後返回。
說話時使用自然和常見的手勢。避免有意義的手勢，例如指點、掌聲或大拇指。
長度：最短 5 分鐘，總計最多 30 分鐘。至少需要一段 5 分鐘的連續影片錄製。如果錄製多個影片剪輯，請將每個剪輯保持在 10分鐘以內。

自然說話的範例

描繪 Lisa 在狀態 0 中說話範例的動畫圖像，搭配自然的手勢，代表說話時自然維持的狀態。

描繪 Harry 在狀態 0 中說話範例的動畫圖像，搭配自然的手勢，代表說話時自然維持的狀態。

描繪 Lori 在狀態 0 中說話範例的動畫圖像，搭配自然的手勢，代表說話時自然維持的狀態。

無訊息狀態（必要） 需要無訊息狀態視訊剪輯。如果您使用自定義虛擬人偶來建置即時交談，這很重要。視訊剪輯會用作聊天機器人說話和聆聽狀態的主要範本。

保持狀態 0，不要說話，但仍感到放鬆。
即使保持狀態 0，也不要保持靜止；你可以稍微移動，但不要移動太多。表現地像是您在等候一般。
保持微笑，彷彿正在傾聽或耐心等待。
避免經常點頭。
長度：1 分鐘。

無訊息狀態的範例

Lisa 保持沉默狀態的範例動畫圖像，沒有說話但仍感覺放鬆。

Harry 保持沉默狀態的範例動畫圖像，沒有說話但仍感覺放鬆。

Lori 保持沉默狀態的範例動畫圖像，沒有說話但仍感覺放鬆。

手勢（選擇性）

可以選擇提供手勢短片，而需要在虛擬人偶說話中插入特定手勢的客戶可以遵循此指導方針來拍攝手勢影片。只能為批次模式虛擬人偶插入手勢；即時虛擬人偶目前不支援此功能。每個自定義虛擬人偶模型都無法支援超過 10 個手勢。

筆勢提示

每個手勢短片都應該在 10 秒內。
手勢應該從狀態 0 開始，並以狀態 0 結束。角色必須維持在與狀態 0 相同的位置，也就是在整個手勢期間，維持在畫面中間的位置。否則，姿勢短片會無法順利插入虛擬人偶影片。
姿勢短片只會擷取身體姿勢；演員不需要在做動作時說話。
建議您先設計手勢清單再錄製；以下是手勢短片的一些範例：

筆勢範例

手勢	範例
傳遞銷售連結/促銷代碼
讚揚產品
介紹產品
表示價格 (雙手比 1 到 10 的數字)	右手左手

高品質的虛擬人偶模型源自於高品質的影片錄製，包括音訊品質。以下是演員表現和錄製短片的更多提示：

建議執行	不建議執行
- 請確定所有短片都是採用相同的條件拍攝。 - 在錄製過程中，設計字詞的大小和顯示區域，以便適當地在螢幕上顯示字元。 - 演員在錄製期間應該保持穩定。 - 注意臉部表情，應該採用適合虛擬人偶使用案例的表情。例如，如果使用自訂文字轉語音虛擬人偶用作客戶服務，則應該表現地積極正面、保持微笑。如果將虛擬人偶用於新聞報導，則應該呈現專業姿態。 - 即使使用提詞機，視線也應該持續對著攝影機。 - 暫停說話時，將身體回復為狀態 0。 - 談論自選的主題，諸如遺漏某個字或發音錯誤等輕微的語音錯誤是可以接受的。如果演員遺漏一個字或發音錯誤，只要回到狀態 0，暫停 3 秒，然後繼續說話。 - 有意識地在句子和段落之間停頓。暫停時，回到狀態 0 並閉上嘴唇。 - 音訊應足夠清晰且響亮；不良的音訊品質會影響訓練結果。 - 將拍攝環境保持安靜。	- 不要調整攝影機的參數、焦距、位置、視角。不要移動攝影機；讓演員在攝影機中的位置、大小、角度保持一致。 - 太小的角色可能會降低後續處理期間的影像品質。太大的角色可能會導致畫面在演員使用手勢和移動期間超出畫面。 - 使用手勢的時間不要太長，或是一個手勢的動作不要太多；例如，不要讓演員一直做手勢而忘記回到狀態 0。 - 演員的動作和手勢不要遮住臉部。 - 避免演員有小動作，例如舔嘴唇、摸頭髮、側身說話、在說話時晃頭晃腦，以及說完話之後沒有結尾。 - 避免背景雜音；工作人員應該避免在影片錄製期間走路和說話。 - 避免在演員說話期間錄製到其他人的聲音。

建議執行

不建議執行

- 請確定所有短片都是採用相同的條件拍攝。
- 在錄製過程中，設計字詞的大小和顯示區域，以便適當地在螢幕上顯示字元。
- 演員在錄製期間應該保持穩定。
- 注意臉部表情，應該採用適合虛擬人偶使用案例的表情。例如，如果使用自訂文字轉語音虛擬人偶用作客戶服務，則應該表現地積極正面、保持微笑。如果將虛擬人偶用於新聞報導，則應該呈現專業姿態。
- 即使使用提詞機，視線也應該持續對著攝影機。
- 暫停說話時，將身體回復為狀態 0。
- 談論自選的主題，諸如遺漏某個字或發音錯誤等輕微的語音錯誤是可以接受的。如果演員遺漏一個字或發音錯誤，只要回到狀態 0，暫停 3 秒，然後繼續說話。
- 有意識地在句子和段落之間停頓。暫停時，回到狀態 0 並閉上嘴唇。
- 音訊應足夠清晰且響亮；不良的音訊品質會影響訓練結果。
- 將拍攝環境保持安靜。

- 不要調整攝影機的參數、焦距、位置、視角。不要移動攝影機；讓演員在攝影機中的位置、大小、角度保持一致。
- 太小的角色可能會降低後續處理期間的影像品質。太大的角色可能會導致畫面在演員使用手勢和移動期間超出畫面。
- 使用手勢的時間不要太長，或是一個手勢的動作不要太多；例如，不要讓演員一直做手勢而忘記回到狀態 0。
- 演員的動作和手勢不要遮住臉部。
- 避免演員有小動作，例如舔嘴唇、摸頭髮、側身說話、在說話時晃頭晃腦，以及說完話之後沒有結尾。
- 避免背景雜音；工作人員應該避免在影片錄製期間走路和說話。
- 避免在演員說話期間錄製到其他人的聲音。

如何準備互動短片

若要組建與自訂虛擬人偶的即時交談，建立高品質的互動短片至關重要。短片應包含問答格式，攝影師會詢問問題，而演員則會回答。重複問答組，直到交談完成為止。如果你獨自拍攝，想像有人在提問階段問您問題。

以下是每個階段的一些秘訣：

詢問階段

保持狀態 0，不要說話，但仍感到放鬆。
即使保持狀態 0，也不要保持靜止。表現地像是您在等候一般。
保持微笑，彷彿正在傾聽或耐心等待。
避免經常點頭。
長度：每個提問時段應持續約 3-5 秒鐘。

回應階段

自然說話且不時有自然手勢。
說話時使用自然和常見的手勢。避免有意義的手勢，例如指點、掌聲或大拇指。
開始說話後開始手勢，並在完成之前停止手勢。
長度：每個回應位置應該持續約 5 秒。

影片長度總計

影片總長度目標為 1–5 分鐘。

資料需求

對影片資料執行一些基本處理有助於提升模型訓練效率，例如：

確保字元位於畫面中間，且在影片處理期間的大小和位置保持一致。每個影片處理參數 (例如亮度、對比) 維持不變且不會變更。輸出虛擬人偶的大小、位置、亮度、對比將直接反映出訓練資料中的內容。在處理或模型建置期間，我們不會套用任何變更。
短片的開始和結尾應保持狀態 0；演員們應該輕閉雙唇並向前看。影片應該是連續的，避免突兀。

虛擬人偶訓練影片錄製檔案格式：.mp4 或 .mov。

解析度：至少 1920x1080。

每秒畫面格數：至少 25 FPS。

共用方式為

如何錄製自訂文字轉換語音虛擬人偶的影片範例

錄製環境

背景需求

光源需求

裝置

演員的外觀

要錄製哪些視訊剪輯

如何準備互動短片

資料需求

意見反應

其他資源

共用方式為

如何錄製自訂文字轉換語音虛擬人偶的影片範例

錄製環境

背景需求

光源需求

裝置

演員的外觀

要錄製哪些視訊剪輯

如何準備互動短片

資料需求

相關內容

意見反應

其他資源