使用音訊內容建立工具的文字到語音轉換工具

發行項
10/16/2024

您可以使用 Speech Studio 的音訊內容建立工具進行文字轉換語音，不需要撰寫任何程式碼。音訊內容建立工具可能會提供您想要的最終語音音訊。您可以依原樣使用輸出音訊，或做為進一步自訂的起點。

針對各種案例 (例如有聲書、新聞廣播、影片旁白和聊天機器人)，建立高度自然的音訊內容。您可運用音訊內容建立有效率地微調文字轉換語音的語音，並設計自訂的音訊體驗。

此工具是以語音合成標記語言 (SSML) 為基礎。它可讓您即時調整文字轉換語音的輸出屬性，或進行批次合成，例如語音字元、語音樣式、說話速度、發音和韻律。

無程式碼方法：您可以使用音訊內容建立工具進行文字轉換語音合成，不需要撰寫任何程式碼。輸出音訊可能是您想要的最終交付內容。例如，您可將輸出音訊用於播客或影片旁白。
更適合開發人員：您可以接聽輸出音訊並調整 SSML，以改善語音合成。然後使用語音 SDK 或語音 CLI 將 SSML 整合到您的應用程式中。例如，您可以使用 SSML 建置聊天機器人。

您可以輕鬆地存取廣泛的語言和語音組合。這些語音包括最先進的預先建置神經語音和自訂神經語音 (若您建置的話)。

若要深入了解，請觀看 YouTube 上的音訊內容建立教學課程影片。

開始使用

Speech Studio 中的音訊內容建立工具免費，但您要支付語音服務使用量的費用。如要使用此工具，您必須使用 Azure 帳戶登入並建立語音資源。每個 Azure 帳戶皆享有免費的每月語音配額，包括可用於預建神經語音的 50 萬個字元 (請參閱定價頁面上的「神經網路」)。通常，每月分配數量足以供大約 3-5 人的小型內容小組使用。

以下幾節涵蓋如何建立 Azure 帳戶和取得語音資源的步驟。

步驟 1：建立 Azure 帳戶

如要使用「音訊內容建立」，您需要具備 Microsoft 帳戶和 Azure 帳戶。

Azure 入口網站是您管理 Azure 帳戶的集中式位置。您可以建立語音資源、管理產品存取，並對簡單 Web 應用程式到複雜雲端部署的所有內容進行監視。

步驟 2：建立語音資源

註冊 Azure 帳戶之後，您必須在 Azure 帳戶中建立語音資源以存取語音服務。在 Azure 入口網站中建立語音資源。如需詳細資訊，請參閱建立 Azure AI 服務資源。

部署新的語音資源需要幾分鐘的時間。部署完成後，您就可以開始使用「音訊內容建立」工具。

注意

若您打算使用神經語音，請務必在支援神經語音的區域中建立資源。

取得 Azure 帳戶和語音資源之後，請登入 Speech Studio，然後選取 [音訊內容建立]。
選取 Azure 訂閱和您想要使用的語音資源，然後選取 [使用資源]。

當您下次登入「音訊內容建立」時，即會直接連結到目前語音資源下的音訊工作檔案。您可以在 Azure 入口網站中，檢查您的 Azure 訂閱詳細資料和狀態。

若您是 Azure 訂閱的擁有者或管理員，但沒有可用的語音資源，您可以選取 [建立新的資源]，在 Speech Studio 中建立語音資源。

若您是特定 Azure 訂閱的使用者角色，您可能沒有建立新語音資源的權限。要取得存取權，請連絡您的管理員。

若要隨時切換語音資源，請選取頁面頂端的 [設定]。

若要切換目錄，請選取 [設定] 或移至您的設定檔。

使用工具

下圖顯示微調文字轉換語音輸出的程序。

微調文字轉換語音輸出的步驟順序圖。

上圖的每個步驟說明如下：

選擇您想要使用的語音資源。
使用純文字或 SSML 指令碼來建立音訊微調檔案。將您的內容輸入或上傳至「音訊內容建立」。
選擇指令碼內容的語音與語言。「音訊內容建立」包含所有預建的文字轉換語音內容。您可以使用預建的神經語音或自訂神經語音。

注意

管制存取可供自訂神經語音使用，讓您能夠建立與自然發音語音類似的高品質語音。如需詳細資訊，請參閱管制程序。
選取您要預覽的內容，然後選取 [播放] (透過三角形圖示) 以預覽預設的合成輸出。

如果您對文字進行任何變更，請選取停止圖示，然後再次選取播放，以重新產生已變更指令碼的音訊。

藉由調整發音、中斷、音調、速率、聲調、語音樣式等項目，來改善輸出。如需完整的選項清單，請參閱語音合成標記語言。

如需調整語音輸出的詳細資訊，請參閱如何在 YouTube 上將文字轉換成語音視訊。不過，視訊可能無法在所有區域中使用，且您在觀看視訊時可能不是最新的視訊。
儲存並匯出微調過的音訊

當您將微調曲目儲存在系統時，可繼續處理和逐一查看輸出。當您滿意輸出內容時，可使用匯出功能建立音訊建立工作。您可觀察匯出工作的狀態，並下載輸出內容以搭配您的應用程式和產品使用。

建立音訊微調檔案

您可以使用下列兩種方式之一，將內容放入「音訊內容建立」工具：

選項 1：建立新的音訊微調檔案

選取 [新增]>[文字檔案]，以建立新的音訊微調檔案。
在編輯視窗中輸入或貼上您的內容。每個檔案允許 20，000 個以下的字元數。若指令碼包含 20,000 個以上的字元，您可使用 [選項 2] 自動將內容分割成多個檔案。
選取 [儲存]。

選項 2：上傳音訊微調檔案

選取 [上傳]>[文字檔] 以匯入一或多個文字檔。支援純文字和 SSML。

若您的指令檔超過 20,000 個字元，請依段落、字元或規則運算式來分割內容。

當您上傳文字檔時，請確認檔案符合這些需求：

屬性	說明
檔案格式	純文字 (.txt) 或 SSML 文字 (.txt) 不支援 ZIP 檔案。
編碼格式	UTF-8
File name	每個檔案皆必須具有唯一的名稱。不支援重複的檔案。
Text length	字元限制為 20,000 個。如果您的檔案超過限制，請根據工具中的指示加以分割。
SSML 限制	每個 SSML 檔案只能包含單一的 SSML 片段。

以下是純文字範例：

Welcome to use Audio Content Creation to customize audio output for your products.

以下是 SSML 範例：

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
   <voice name="en-US-AvaMultilingualNeural">
   Welcome to use Audio Content Creation <break time="10ms" />to customize audio output for your products.
   </voice>
</speak>

匯出微調過的音訊

您在檢閱音訊輸出並對微調結果感到滿意之後，即可匯出音訊。

選取 [匯出] 以建立音訊建立工作。

建議選擇 [匯出至音訊程式庫]，以輕鬆儲存、尋找和搜尋雲端中的音訊輸出。您可以透過 Azure Blob 儲存體更妥善整合應用程式。您也可以直接將音訊下載至本機磁碟。

針對微調過的音訊選擇輸出格式。下表列出支援的音訊格式和採樣速率：

格式	8 kHz 採樣速率	16 kHz 採樣速率	24 kHz 採樣速率	48 kHz 採樣速率
wav	riff-8khz-16bit-mono-pcm	riff-16khz-16bit-mono-pcm	riff-24khz-16bit-mono-pcm	riff-48khz-16bit-mono-pcm
mp3	N/A	audio-16khz-128kbitrate-mono-mp3	audio-24khz-160kbitrate-mono-mp3	audio-48khz-192kbitrate-mono-mp3

若要檢視工作的狀態，請選取 [工作清單] 索引標籤。

若工作失敗，請參閱詳細資訊頁面以取得完整報告。
當工作完成時，您可以在 [音訊程式庫] 窗格下載音訊。
依序選取您要下載的檔案及 [下載]。

現在您已準備好在應用程式或產品中，使用自訂的微調音訊。

設定 BYOS 和對 Blob 的匿名公用讀取存取

如果您失去自備儲存體 (BYOS) 的存取權限，則您無法檢視、建立、編輯或刪除檔案。若要繼續存取，您必須移除目前的儲存體，並在 Azure 入口網站中重新設定 BYOS。若要深入了解如何設定 BYOS，請參閱在 App Service 中掛接 Azure 儲存體作為本機共用。

設定 BYOS 權限之後，您必須設定相關容器和 Blob 的匿名公用讀取存取。否則，Blob 資料無法用於公用存取，而且 Blob 中的語彙檔案無法存取。根據預設，容器的公用存取設定會停用。若要授與匿名使用者對容器及其 Blob 的讀取權限，請先將 [允許 Blob 公用存取] 設定為 [啟用] 以允許儲存體帳戶的公用存取，然後設定容器的 (命名為 acc-public-files) 公用存取層級 (僅限 Blob 的匿名讀取存取)。如需深入了解如何設定匿名公用讀取存取，請參閱設定對容器和 Blob 的匿名公用讀取存取。

新增或移除「音訊內容建立」使用者

若有多位使用者想要使用「音訊內容建立」，您可以將 Azure 訂閱和語音資源的存取權授與他們。若您將使用者新增至 Azure 訂閱，使用者即可存取 Azure 訂閱下的所有資源。但是，如果您只將使用者新增至語音資源，他們就只能存取語音資源，而無法存取此 Azure 訂閱下的其他資源。如果使用者具有語音資源的存取權，即可使用「音訊內容建立」工具。

獲得您授與存取權的使用者必須設定 Microsoft 帳戶。若使用者沒有 Microsoft 帳戶，只需要幾分鐘的時間即可建立一個。他們可以使用其現有的電子郵件並將其連結至 Microsoft 帳戶，也可以建立並使用 Outlook 電子郵件地址作為 Microsoft 帳戶。

將使用者新增至語音資源

若要將使用者新增至語音資源，讓他們可以使用「音訊內容建立」，請執行下列動作：

在 Azure 入口網站中，從左側瀏覽窗格中選取 [所有服務]，然後搜尋 Azure AI 服務或語音。
選取您的語音資源。

注意

您也可以為整個資源群組、訂用帳戶或管理群組設定 Azure RBAC。若要這麼做，請選取所需的範圍層級，然後巡覽至所需項目 (例如，選取 [資源群組]，然後選取您想要的資源群組)。
在左側瀏覽窗格中，選取 [存取控制 (IAM)]。
選取 [新增>][新增角色指派]。
在下一個畫面的 [角色] 索引標籤上，選取您要新增的角色 (例如擁有者)。
在 [成員] 索引標籤上，輸入使用者的電子郵件地址，然後選取目錄中的使用者名稱。電子郵件地址必須已連結至 Microsoft 帳戶，並受 Microsoft Entra ID 信任。使用者可以使用個人電子郵件地址，輕鬆註冊 Microsoft 帳戶。
在 [檢閱 + 指派] 索引標籤上，選取 [檢閱 + 指派] 以指派角色。

後續進展如下：

電子郵件邀請會自動傳送給使用者。

注意

如果使用者未收到邀請電子郵件，您可以在 [角色指派] 底下搜尋其帳戶，並進入其設定檔。尋找 [身分識別]>[已接受邀請]，然後選取 [管理] 以重新傳送電子郵件邀請。您也可以將邀請連結複製並傳送給使用者。
他們可以在電子郵件中選取 [接受邀請]>[同意加入 Azure]，以接受邀請。
系統即會將使用者重新導向至 Azure 入口網站。使用者無須在 Azure 入口網站中採取進一步的動作。
幾分鐘後，使用者就會獲派語音資源範圍的角色，讓他們能夠存取此語音資源。

使用者現可瀏覽或重新整理 [音訊內容建立] 產品頁面，並以自己的 Microsoft 帳戶登入。他們可在所有語音產品中選取 [音訊內容建立] 區塊，並在快顯視窗或右上方的 [設定] 中，選擇語音資源。

如果找不到可用的語音資源，使用者可以檢查確認是否位於正確的目錄中。他們可以選取右上方的帳戶設定檔，然後選取 [目前目錄] 旁的 [切換] 來執行此作業。若有多個可用的目錄，表示使用者可以存取多個目錄。他們可以切換至不同的目錄並移至 [設定]，以查看是否有正確的語音資源可供使用。

使用相同語音資源的使用者，可在音訊內容建立工具中查看彼此的成果。若您想讓個別使用者在「音訊內容建立」中具有唯一的私人工作區，請為每位使用者建立新的語音資源，並將語音資源的唯一存取權提供給每位使用者。

從語音資源移除使用者

若要從語音資源移除使用者的權限，請執行下列動作：

在 Azure 入口網站中搜尋 [Azure AI 服務]，選取您要從中移除使用者的語音資源。
選取 [存取控制 (IAM)]，然後選取 [角色指派] 索引標籤，以檢視此語音資源的所有角色指派。
選取您要移除的使用者，再依序選取 [移除] 和 [確定]。

讓使用者將存取權授與其他人

若您想讓使用者將存取權授與其他使用者，您必須為該使用者指派語音資源的擁有者角色，並將其設定為 Azure 目錄讀者。

將使用者新增為語音資源的擁有者。如需詳細資訊，請參閱將使用者新增至語音資源。
在 Azure 入口網站中，選取左上方的摺疊功能表，再依序選取 [Microsoft Entra ID] 和 [使用者]。
搜尋使用者的 Microsoft 帳戶，移至其詳細資料頁面，然後選取 [指派的角色]。
選取 [新增指派]>[目錄讀者]。如果 [新增指派] 按鈕無法使用，表示您沒有存取權。您必須擁有擁有者或使用者存取系統管理員的角色，才能將角色指派給使用者。

下一步

語音合成標記語言 (SSML) \(英文\)
批次合成

共用方式為

使用音訊內容建立工具的文字到語音轉換工具