語音模型定型最佳做法

發行項
10/09/2024

注意

Video Indexer Azure 試用帳戶和 Resource Manager 帳戶僅支援語音模型自訂，包括發音定型。傳統帳戶並不支援它。如需如何不付費更新帳戶類型的指引，請參閱更新您的 Azure AI 影片索引器帳戶。如需使用自定義語言體驗的指引，請參閱自定義語言模型。

透過 Azure AI Video Indexer 與 Azure AI 語音服務整合，通用語言模型會作為以 Microsoft 所擁有資料定型的基礎模型，並反映常用的口語語言。基礎模型會預先定型，其中包含代表各種常見領域的方言和注音符號。基礎模型在大部分的語音辨識案例中運作良好。

不過，有時候基底模型的謄寫無法準確地處理某些內容。在這些情況下，自訂語音模型可用來藉由提供文字資料來定型模型，以改善對特定領域詞彙或發音的辨識。透過建立和調整語音自訂模型的程序，您可以正確地轉譯您的內容。使用 Video Indexer 語音自訂不需要額外費用。

何時該使用自訂語音模型？

如果您的內容包含業界特定的術語，或在檢閱 Video Indexer 謄寫結果時您注意到不精確的部份，則可以建立和定型自訂語音模型來辨識字詞並改善謄寫品質。只有在您計劃編製索引的內容中重複出現相關單字和名稱時，才值得建立自訂模型。定型模型有時是反覆的程式，您可能會發現在初始定型之後，結果仍然可以使用改進，並受益於其他定型，請參閱改善您的自定義模型一節以取得指引。

不過，如果您注意到文字記錄中不正確地轉譯了幾個單字或名稱，則可能不需要自訂語音模型，特別是如果您計劃在未來編製索引的內容中預期不會普遍使用這些單字或名稱。您可以直接編輯和修正 Video Indexer 網站中的文字記錄 (請參閱在 Azure AI Video Indexer 網站中檢視和更新謄寫)，且不需要透過自訂語音模型加以處理。

如需支援自訂模型和發音的語言清單，請參閱 Azure AI Video Indexer 語言支援中語言支援資料表的自訂和發音資料行。

定型資料集

在編製影片索引時，您可以使用自訂的語音模型來改善謄寫。模型會藉由使用可包含純文字資料和發音資料的資料集載入模型來定型。

用來測試和定型自訂模型的文字，應該包含您想讓模型辨識的各種不同內容與案例組合範例。建立和定型資料集時，請考慮下列因素：

包含涵蓋使用者與模型互動時所做出口頭聲明種類的文字。例如，如果您的內容主要與運動相關，請使用包含與這項運動相關的術語和主題內容來定型模型。
包含要讓模型辨識的所有語音變異數。許多因素可能會改變語音，包括口音、方言和語言混合。
請僅包含與您打算轉譯內容相關的資料。包括其他資料可能會損害整體的辨識品質。

資料集類型

有兩種資料集類型可供自訂。如需協助判斷用以解決問題的資料集，請參閱下表：

使用案例	資料類型
改善業界專屬詞彙和文法的辨識準確度，例如醫療術語或 IT 專業術語。	純文字
定義包含非標準發音 (例如產品名稱或縮略字) 單字或詞彙的語音和顯示形式。	發音資料

用於定型的純文字資料

包含相關文字純文字句子的資料集可用來改善特定領域單字和片語的辨識。相關的文字句子可以減少與誤認常用字組和網域特定字組相關的替代錯誤，方法是在內容中顯示。網域特定字組可能是不常用或虛構字組，但其發音必須簡單好辨識。

純文字資料集的最佳做法

在單一文字檔中提供網域相關的句子。您可以上傳單字清單，而不使用完整句子。不過，雖然這會將單字新增至詞彙中，但不會教導系統通常如何使用這些單字。藉由提供完整或部分表達 (使用者可能會說的句子或片語)，語言模型可以學習新的字組及其用法。自訂語言模型不僅對於新增系統中的新字組很有幫助，也可用於調整您應用程式中已知字組的可能性。提供完整語句有助於提升系統的學習能力。
請使用更接近預期口語表達的文字資料。表達語句不需要完整無缺或語法正確，但必須精確反映預期模型要辨別的口說輸入內容。
嘗試在個別行上使用每個句子或關鍵字。
若要增加產品名稱等字詞的權重，請新增數個包含該字詞的句子。
針對內容中使用的常見片語，提供許多範例很有用，因為它會告知系統接聽這些詞彙。 
避免將不常見的符號（~， # @ % &）納入捨棄。出現這些符號的句子也會予以捨棄。
避免太大量的輸入，例如數十萬個句子，因為這麼做會減弱提升的效果。

請使用此表格以確保純文字資料集檔案格式正確：

屬性	值
文字編碼	UTF-8 BOM
每一行的表達語句數目	1
檔案大小上限	200 MB

請嘗試遵循純文字檔案中的下列指導方針：

避免重複超過三次的字元、單字或單字群組，例如「是是」，因為服務可能會捨棄太多重複的行。
請勿使用上述特殊字元或 UTF-8 字元 U+00A1。
URI 遭到拒絕。
有些語言，例如日文或韓文，匯入大量文字資料可能需要很長時間或可能逾時。請考慮將資料集分割成多個文字檔，每個文字檔最多 20,000 行。

用於定型的發音資料

您可以將自訂語音模型新增至自訂發音資料集，以改善發音錯誤單字、片語或名稱的辨識。

發音資料集必須包含單字或片語形式，以及可辨識的顯示形式。口語形式是拼出語音順序，例如「Triple A」。可以由字母、單字、音節或全部三種的組合構成。辨識的顯示形式是您希望單字或片語出現在謄寫中的方式。此表格包含一些範例：

辨識的顯示形式	口語形式
3CPO	three c p o
CNTK	c n t k
AAA	Triple A

您可以在單一文字檔中提供發音資料集。包含口語語句，以及每個語句的自訂發音。檔案中的每個資料列都應該以辨識的格式、定位字元，以及空格分隔的注音序列開始。

3CPO    three c p o 
CNTK    c n t k 
IEEE    i triple e

建立和定型發音資料集時，請考慮下列事項：

不建議您使用自訂發音檔案來改變常見單字的發音。

如果單字或名稱的轉譯方式有一些變化，請考慮在定型發音資料集時使用其部分或全部。例如，如果 Robert 在影片中提到五次，並轉譯為 Robort、Ropert 和 robbers。如下列範例所示，您可以嘗試在檔案中包含所有變化，但在使用如搶劫犯這樣的實際單字進行定型時，請小心謹慎，就像在影片中提及 robbers 一樣，它會轉譯為 Robert。

Robert Roport
Robert Ropert
Robert Robbers

發音模型不是用來處理縮寫。例如，如果您想要將 Doctor 轉譯為 Dr.，則無法透過發音模型來達成此目的。

請參閱下表，以確保您的發音資料集檔案有效且格式正確。

屬性	值
文字編碼	UTF-8 BOM (英文也支援 ANSI)
每行的發音數	1
檔案大小上限	1 MB (免費層 1 KB)

改善您的自定義模型

將發音模型定型可以是反覆程序，因為您在初始定型和評估模型結果之後，可能會深入了解主題的發音。由於無法編輯或修改現有的模型，因此反覆定型模型需要建立和上傳具有其他資訊的資料集，以及根據新資料集定型新的自訂模型。接著，您會使用新的自訂語音模型來重新編製媒體檔案的索引。

範例：

假設您計劃編製運動內容索引，並預期特定運動術語以及球員和教練姓名文字記錄的正確性問題。在編製索引之前，您已使用純文字資料集建立語音模型，其中包含相關運動術語的內容，以及具有一些球員和教練姓名的發音資料集。您可以使用自訂語音模型編製一些影片的索引，而在檢閱產生的文字記錄時，發現術語會正確轉譯，但許多姓名則不會。您可以採取下列步驟來改善未來效能：

檢閱文字記錄並記下所有不正確轉譯的姓名。它們可以分成兩個群組：
- 發音檔案中沒有的姓名。
- 發音檔案中的姓名，但它們仍然不正確地轉譯。
建立新的資料集檔案。下載發音資料集檔案或修改本機儲存的原始檔案。針對群組 A，請將新姓名新增至檔案，並說明其正確轉譯方式 (Michael Mikel)。針對群組 B，在每行新增具有正確姓名的額外行，以及錯誤轉譯方式的唯一範例。例如：

Stephen Steven
Stephen Steafan
Stephen Steevan
將此檔案上傳為新的資料集檔案。
建立新的語音模型，並新增原始純文字資料集和新的發音資料集檔案。
使用新的語音模型重新編製影片的索引。
如有需要，請重複步驟 1-5，直到結果令人滿意為止。

共用方式為