自訂神經語音精簡版 (預覽)
Azure AI 語音提供兩種自訂神經語音 (CNV) 專案類型:CNV 精簡版與 CNV 專業版。
- 自訂神經語音 (CNV) 專業版可讓您上傳透過專業錄製工作室收集的訓練資料,並建立與人類樣本幾乎無異的高品質語音。 CNV 專業版存取受限於資格和使用準則。 要求輸入表單的存取權。
- 自訂神經語音 (CNV) 精簡版是公開預覽中的專案類型。 您可以先示範及評估自訂神經語音,再投資專業錄製,以建立高品質的語音。 用於示範和評估目的並不需要任何應用程式。 然而 Microsoft 會限制並選取錄製內容和測試樣本,以便與 CNV 精簡版搭配使用。 您必須申請 CNV 專業版的完整存取權,才能部署及使用 CNV 精簡版模型以供商業用途使用。 在那樣的情況下,請透過填寫表單要求存取權。
使用 CNV 精簡版專案,您可以閱讀 Microsoft 提供的 20-50 個預先定義的腳本,在線上錄製語音。 記錄至少 20 個樣本之後,您就可以開始定型模型。 成功定型模型之後,您可以檢閱模型,並查看使用另一組預先定義的腳本所產生的 20 個輸出樣本。
請參閱自訂神經語音的支援語言。
比較專案類型
下表摘要說明 CNV 精簡版與 CNV 專業版專案類型之間的主要差異。
項目 | 精簡 (預覽版) | Pro |
---|---|---|
目標案例 | 示範或評估 | 聊天機器人的品牌和角色聲音,或音訊內容閱讀等專業案例。 |
訓練資料 | 使用 Speech Studio 線上錄製 | 使用自己的資料。 建議在專業工作室中錄製。 |
用於錄製的腳本 | 於 Speech Studio 中提供 | 使用符合使用案例的自備腳本。 Microsoft 提供參考的腳本範例 (英文)。 |
必要的資料大小 | 20-50 個語句 | 300-2,000 個語句 |
定型時間 | 計算時數少於一小時 | 大約 20-40 個計算時數 |
語音品質 | 中等品質 | 高品質 |
可用性 | 任何人都可以線上錄製樣本,並定型模型以供示範和評估使用。 如果您想部署 CNV 精簡版模型以供商務使用,則需要自訂神經語音的完整存取權。 | 資料上傳不受限制,但您只能在核准存取之後訓練和部署 CNV 專業版模型。 CNV 專業版存取受限於資格和使用準則。 要求輸入表單的存取權。 |
定價 | CNV 精簡版和 CNV 專業版專案的每單位價格都相同。 請參閱此處的定價詳細資料 (英文)。 | CNV 精簡版和 CNV 專業版專案的每單位價格都相同。 請參閱此處的定價詳細資料 (英文)。 |
建立自訂神經語音精簡版專案
若要建立自訂神經語音精簡版專案,請執行下列步驟:
登入 Speech Studio。
選取要處理的訂用帳戶和語音資源。
選取自訂語音>建立專案。
選取 [自訂神經語音精簡版] > [下一步]。 若想要改為建立自訂神經語音專業版專案,請參閱建立自訂神經語音的專案。
依照精靈提供的指示建立您的專案。
重要
CNV 精簡版專案會在 90 天後到期,除非提交語音配音員錄製的口頭聲明。
依名稱選取新專案,或選取 [移至專案]。 您會在左側面板看到這些功能表項目:[錄製和建置]、[檢閱模型] 和 [部署模型]。
錄製和建置 CNV 精簡版模型
使用線上提供的腳本錄製至少 20 個 (最多 50 個) 語音樣本。 在此錄製的語音樣本將用來建立合成語音版本。
注意
自訂神經語音訓練目前僅在部分區域提供使用。 如需詳細資訊,請參閱區域資料表中的註腳。
以下是協助您錄製語音樣本的一些提示:
- 使用良好的麥克風。 使用高品質麥克風提高樣本的清晰度。 說話距離麥克風約 8 英吋,以避免嘴巴發出的雜音。
- 避免背景雜音。 在無背景雜音或回音的安靜房間中錄製。
- 放鬆並自然說話。 在朗讀句子時,讓自己表達情緒。
- 一次錄製。 為了保持一致的能量,請以一個工作階段錄製所有句子。
- 正確發音每個字,並清楚說出。
若要錄製和建置 CNV 精簡版模型,請執行下列步驟:
- 選取 [自訂語音] > 您的專案名稱 > [記錄和建置]。
- 選取開始使用。
- 仔細閱讀語音配音員使用規定。 選取核取方塊以確認使用規定。
- 選取 [接受]
- 按下麥克風圖示以啟動雜音檢查。 此噪音檢查只需要幾秒鐘的時間,而且您不需要在這段期間說話。
- 如果偵測到雜音,您可以選取 [再檢查一次] 來重複雜音檢查。 如果未偵測到任何雜音,您可以選取 [完成] 以繼續進行下一個步驟。
- 檢閱錄製提示,然後選取 [了解]。 為獲得最佳結果,請前往無背景雜音的安靜區域,再錄製語音樣本。
- 按下麥克風圖示以開始錄製。
- 按下停止圖示以停止錄製。
- 檢閱品質計量。 錄製每個樣本之後,請先檢查其品質計量,再繼續進行下一個錄製。
- 錄製更多樣本。 雖然您可以只使用 20 個樣本建立模型,但建議您錄製高達 50 個,以獲得更好的品質。
- 選取 [訓練模型] 以開始訓練程序。
訓練程序大約需要一個計算時數。 您可以在 [檢閱模型] 頁面中檢查訓練程序的進度。
檢閱模型
若要檢閱 CNV 精簡版模型,並聆聽您自己的合成語音,請執行下列步驟:
- 選取 [自訂語音] > 專案名稱 > [檢閱模型]。 您可以在這裡檢閱語音模型名稱、模型語言、樣本資料大小和訓練進度。 語音名稱是由您的專案名稱後面接著 "Neural" 一字所組成。
- 選取語音模型名稱以檢閱模型詳細資料,並聆聽樣本文字轉換語音結果。
- 選取播放圖示以聆聽您讀每個腳本的語音。
提交口頭聲明
需要語音配音員錄製的口頭聲明,才能為商務用途部署模型。
若要提交語音配音員的口頭聲明,請執行下列步驟:
- 選取 [自訂語音] > 專案名稱 > [部署模型] > [管理語音配音員]。
- 選取該模型。
- 輸入語音配音員姓名和公司名稱。
- 閱讀並錄製聲明。 選取麥克風圖示以開始錄製。 選取停止圖示以停止錄製。
- 選取 [提交] 以提交聲明。
- 在儀表板底部的腳本資料表中檢查處理狀態。 一旦狀態為 [成功],您就可以部署模型。
部署模型
若要部署語音模型並在應用程式中使用,您必須取得自訂神經語音的完整存取權。 要求輸入表單的存取權。 在大約 10 個工作天內,您會收到電子郵件,信中會告知核准狀態。 也需要語音配音員錄製的口頭聲明,才能為商務用途部署模型。
若要部署 CNV 精簡版模型,請執行下列步驟:
- 選取 [自訂語音] > 您的專案名稱 > [部署模型] > [部署模型]。
- 選取語音模型名稱,然後選取 [下一步]。
- 輸入您的端點名稱和描述,然後選取 [下一步]。
- 選取核取方塊以同意使用規定,然後選取 [下一步]。
- 選取 [部署] 以部署模型。
之後,您將可以使用 CNV 精簡版語音模型,就像使用 CNV 專業版語音模型一樣。 例如,您可以在建立端點之後暫止或繼續端點,限制支出並節省未使用的資源。 您也可以在 Speech Studio 的音訊內容建立工具中存取語音。