共用方式為


選擇 Azure AI 語音辨識與產生技術

Azure AI 服務可協助工作負載設計人員和開發人員透過開箱即用、預先建置和可自訂的 API 和模型,建立智慧、前沿、可立即投入市場且負責任的應用程式。

本文將介紹 Azure AI 服務,這些服務可提供語音識別和生成功能,例如語音轉換文字和文字轉換語音、音訊翻譯、說話者辨識,以及為有學習差異的人提供閱讀支援。

注意

若要收集術語或片語的見解,或對口語或書面語言進行詳細的上下文分析,請參閱「選擇 Azure AI 目標語言處理技術」。

服務

以下 Azure AI 服務可以為您的工作負載提供語音辨識和生成功能。

  • Azure AI 語音提供自然語言處理的文字分析功能。

    • 當您需要轉錄或翻譯口語、識別對話中的說話者時,請使用語音服務。 您還可以使用該服務作為 OpenAI 模型中更高品質 Whisper 的低成本替代方案,以生成自然的語音。
    • 請勿將語音服務用於聊天、內容摘要、審查或透過指令碼指導使用者。 請使用其他模型來處理這些需求。
  • 沉浸式閱讀程式是一種工具,它採用經過驗證的技術來提高新興讀者、語言學習者和有學習差異人士的閱讀理解能力。

    • 使用沉浸式閱讀程式為語言學習者或學習差異人士提供改進的可讀性體驗。
    • 請勿將沉浸式閱讀程式用於傳統的文字轉換語音使用案例。

Azure AI 語音

Azure AI 語音透過語音資源提供語音轉換文字和文字轉換語音功能。 您可以準確將語音謄寫成文字、產生文字轉換語音的自然語音、翻譯語音音訊,以及在交談期間使用說話者辨識。 建立自訂語音、新增特定字詞至您的基本詞彙,或建置您自己的模型。 在任何位置 (雲端或容器邊緣) 執行語音。

語音支援多種語言和地區。

Capabilities

下表提供了 Azure AI 語音服務中可用的功能清單。

功能 描述
批次轉錄 轉錄儲存體中的大量音訊資料。 語音轉換文字 REST API 和語音 CLI 都支援批次謄寫。
意圖辨識 意圖是使用者想要做的事情:訂機票、查看天氣或打電話。 透過意圖辨識,您的應用程式、工具及裝置可以根據選項確定使用者想要啟動或執行的動作。 您可以在意圖辨識器或交談語言理解 (CLU) 模型中定義使用者意圖。
發音評量 評估語音發音並向說話者提供有關口語音訊準確性和流暢性的意見反應。
說話者辨識 說話者辨識有助於判斷音訊剪輯中的說話者。 該服務可以透過語音辨識技術,以唯一語音特性來驗證和識別說話者。
語音轉文字 即時或批次將音訊串流轉換為文字。
文字轉換語音 可讓您的應用程式、工具或裝置將文字轉換為類似人類的合成語音。
語音翻譯 提供音訊串流的多語言語音轉換語音和語音轉換文字翻譯。
影片翻譯 自動翻譯並產生多種語言的影片。

使用案例

下表介紹了一些使用 Azure AI 語音的方法。

使用案例 使用功能 描述
音訊內容建立 語音轉文字 您可以使用神經語音來讓與聊天機器人及語音助理的互動變得更加自然有趣;例如將數位文字 (例如電子書) 轉換成有聲書;以及增強車載導航系統。
呼叫中心轉錄 語音轉文字 即時轉錄通話或批次處理通話、修訂個人識別資訊,以及擷取情感等深入解析,協助您的客服中心使用案例。
輔助字幕 語音轉文字 將字幕與輸入音訊同步、套用髒話篩選器、取得部分結果、套用自訂調整,並識別多語言情境中的口語語言。
語言學習 語音轉文字 為語言學習者提供發音評估意見反應,支援遠端學習對話的即時轉錄,並使用神經語音朗讀教學材料。
語音助理 文字轉換語音 為他們的應用程式和體驗建立自然、人性化的對話介面。 語音助理功能可提供裝置和助理實作之間快速可靠的互動。

沉浸式閱讀程式

沉浸式閱讀程式是 Azure AI 服務的一部分,是一款包容性設計工具,它採用經過驗證的技術來提高新讀者、語言學習者和學習差異 (如閱讀障礙) 人士的閱讀理解能力。 借助沉浸式閱讀程式用戶端庫,您可以利用 Microsoft Word 和 Microsoft OneNote 中使用的相同技術,為您的工作負載使用者提供出色的體驗。

Capabilities

以下是您的工作負載可以使用的功能清單,以幫助使用者實現閱讀理解目標。

  • 隔離內容以提高可讀性
  • 顯示常用單字和術語的圖片
  • 透過突顯動詞、名詞、代名詞等來幫助理解詞性和文法
  • 大聲朗讀內容,例如使用者在工作負載的 UI 中選擇的文字
  • 將內容即時翻譯成多種語言,有助於提升學習新語言的讀者的理解力
  • 將單字分解為音節以提高可讀性或發音新單字

下一步