編輯

共用方式為


語音轉換文字常見問題集

本文回答關於語音轉換文字功能的常見問題。 如果您在這裡找不到問題的解答,請參閱其他支援選項

一般

基本模型與自訂語音轉換文字模型之間,有何差異?

基準語音轉換文字模型是使用 Microsoft 所擁有的資料加以訓練,並已部署在雲端中。 您可以建立並使用自訂模型,讓模型更適合具有特定環境噪音或語言的環境。 工廠樓層、車內或吵雜街道需要經過調整的原音模型。 生物學、物理學、影像診斷學、產品名稱,以及自訂縮略字等主題,都需要使用經過調整的語言模型。 如果您想要定型自訂模型,您應從相關文字開始,以改善特殊字詞和片語的辨識度。

如果我想要使用基本模型,該從何處著手?

首先,取得 Azure 入口網站中的語音資源金鑰和區域。 如果您想要對預先部署的基本模型進行 REST 呼叫,請參閱 REST API 文件。 如果您想要使用 WebSocket,請下載語音 SDK

我是否一定要建置自訂語音模型?

否。 如果您的應用程式使用一般日常用語,則您不需自訂模型。 如果您的應用程式要用於背景噪音很少或完全沒有背景噪音的環境,則您也不需自訂模型。

您可以在入口網站部署基準和自訂模型,並對它們執行精確度測試。 您可以使用這項功能,來測量基礎模型對自訂模型的精確度比較。

如何知道我的資料集或模型處理何時完成?

目前,唯一得知的方式就是檢視模型或資料表中資料集的狀態。 處理完成時,狀態將會是成功

我可以建立多個模型嗎?

您可以在集合中擁有的模型數目沒有限制。

我發現自己犯了錯誤。 如何取消進行中的資料匯入或模型建立?

目前,您無法復原原音或語言調節程序。 您可以在匯入的資料與模型處於終止狀態之後予以刪除。

我針對每個片語取得了採用詳細輸出格式的數個結果。 應該使用哪一種方法?

一律採用第一個結果,即使其他結果 (「前 N 名最佳」) 可能具有較高的信賴值亦然。 語音服務會將第一個結果視為最佳結果。 如果未辨識出語音,結果也可以是空白字串。

其他結果可能較差,且可能未套用完整的大小寫和標點符號。 這些結果最適合用在特殊案例中,例如讓使用者從清單中挑選更正,或處理錯誤辨識的命令。

為何有多個基本模型?

您可以從語音服務中選擇多個基本模型。 每個模型名稱都包含其新增日期。 當您開始定型自訂模型時,請使用最新的模型來達到最佳精確度。 有新的模型可供使用時,在一段時間內,較舊的基本模型仍可使用。 您可以繼續使用先前所使用的模型,直到淘汰為止 (請參閱模型和端點生命週期)。 我們仍建議切換至最新的基本模型,以獲得較高的精確度。

我可以更新現有的模型 (模型堆疊) 嗎?

您無法更新現有的模型。 您可以透過合併新舊資料集並重新調整來解決此問題。

舊的資料集和新的資料集必須合併到單一 .zip 檔案 (適用於原音資料) 或 .txt 檔案 (適用於語言資料)。 調整完成之後,請重新部署新的更新模型,以取得新的端點。

有新版本的基底模型可供使用時,我的部署是否會自動更新?

部署不會自動更新。

如果您已調整並部署模型,現有部署將維持原狀。 您可以解除委任已部署的模型,使用較新版本的基本模型重新調整,並重新部署以提高精確度。

基礎模型和自訂模型會在一段時間之後淘汰 (請參閱模型和端點生命週期)。

我可以在本機下載並執行模型嗎?

您可以在 Docker 容器的本機執行自訂模型。

我可以將資料集、模型和部署複製或移到另一個區域或訂用帳戶嗎?

您可以使用 Models_Copy REST API,將自訂模型複製到另一個區域或訂用帳戶。 無法複製資料集和部署。 您可以在另一個訂閱中再次匯入資料集,並使用模型複本在該處建立端點。

我的要求會被記錄嗎?

依預設不會記錄要求 (音訊或謄寫都不會)。 如有必要,您可以在建立自訂端點時,選取從這個端點記錄內容選項。 您也可以在語音 SDK 中,就個別要求啟用音訊記錄,而不需要建立自訂端點。 在這兩種情況下,要求的音訊和辨識結果都會儲存在安全儲存體中。 使用 Microsoft 擁有之儲存體的訂閱可使用 30 天。

如果您使用自訂端點,且已啟用從這個端點記錄內容,您可以在 Speech Studio 的部署頁面上匯出記錄檔。 如果透過 SDK 啟用音訊記錄,請呼叫 API 以存取檔案。 您也可以使用 API 隨時刪除記錄

我的要求會被節流嗎?

如需詳細資訊,請參閱語音服務配額和限制

雙通道音訊的收費方式為何?

如果您以各自的檔案將每個通道個別提交,則會依每個檔案的音訊持續時間向您收費。 如果您提交的單一檔案有多工頻道,則系統會向您收取單一檔案持續時間的費用。 如需服務定價的詳細資訊,請參閱 Azure AI 服務定價頁面

重要

如果您有其他隱私權考量而無法使用自訂語音服務,請連絡其中一個支援頻道。

增加並行存取

如需詳細資訊,請參閱語音服務配額和限制

匯入資料

資料集大小限制為何?為什麼要有限制?

限制是由於 HTTP 上傳的檔案大小限制所致。 如欲了解實際限制,請參閱語音服務配額和限制。 您可以將資料分割成多個資料集,然後選取所有資料集來定型模型。

我可以壓縮文字檔來上傳更大的文字檔嗎?

否。 目前僅允許未壓縮的文字檔。

資料報告指出有失敗的語句。 有什麼問題?

若無法上傳檔案中 100% 的表達,也不會構成問題。 如果原音或語言資料集中的大部分語句 (例如超過 95%) 已成功匯入,則可以使用資料集。 不過,仍建議您嘗試了解表達失敗的原因,並修正問題。 您可以輕鬆修正最常見的問題,例如格式錯誤。

建立原音模型

我需要多少原音資料?

建議您一開始先收集 30 分鐘到 1 小時的原音資料。

我應該收集哪些資料?

請收集盡可能接近應用程式案例和使用案例的資料。 資料收集應該符合目標應用程式和使用者的一或多部裝置、環境和說話者類型。 一般而言,您應該向盡可能廣泛的說話者類型收集資料。

我應該如何收集原音資料?

您可以建立獨立資料收集應用程式,或使用現成的音訊錄製軟體。 您也可以建立自己的應用程式版本來記錄並使用音訊資料。

我是否需要自行轉譯調節資料?

是。 您可以自行轉譯,或使用專業轉譯服務。 某些使用者偏好專業的謄寫人員,其他人則會使用群眾外包,或是自行謄寫。

使用音訊資料定型自訂模型需要多久的時間?

使用音訊資料來定型模型可能會很耗時。 視資料量而定,建立自訂模型可能需要幾天的時間。 如果無法在一週內完成,服務可能會中止定型作業,並將模型回報為失敗。

一般來說,在具有專用硬體的區域中,語音服務每天會處理約 10 小時的音訊資料。 僅使用文字的訓練速度較快,且通常可在幾分鐘內完成。

使用專用硬體可用於定型的其中一個區域。 在這些區域中,語音服務最多會使用 100 小時的音訊進行訓練。

準確性測試

何謂錯字率 (WER) 及其計算方式?

WER 是語音辨識的評估衡量標準。 WER 的計算方式為錯誤總數 (包括插入、刪除和替代) 除以參考謄寫中的總字數。 如需詳細資訊,請參閱以量化方式測試模型

如何判斷精確度測試的結果是否適當?

結果會顯示基本模型與自訂模型之間的比較。 為了突顯自訂的價值,您應該將目標放在勝過基本模型。

如何判斷基本模型的 WER,以確認是否有所改善?

離線測試結果會顯示自訂模型的基準精確度,以及與基準相較之下的改善。

建立語言模型

我需要上傳多少文字資料?

這取決於用於您應用程式中的詞彙和片語與起始語言模型有何差異。 針對所有新字組,最好盡可能提供許多使用字組的範例,這樣會很有用。 針對用於您應用程式中的常見片語 (包括語言資料中的片語),提供許多範例相當有用,因為它會告知系統留意這些字詞。 在語言資料集中至少有 100 個語句是很常見的,而且通常會有數百個或更多表達。 此外,如果特定查詢類型必須比其他類型更常見,您可以將常見查詢的多個複本插入資料集。

我可以只上傳字詞清單嗎?

上傳字組清單會將字組納入詞彙中,但不會告知系統這些字組的一般用法。 藉由提供完整或部分表達 (使用者可能會說的句子或片語),語言模型可以學習新的字組及其用法。 自訂語言模型不僅對於新增系統中的新字組很有幫助,也可用於調整您應用程式中已知字組的可能性。 提供完整語句有助於提升系統的學習能力。