共用方式為


什麼是語音轉換文字?

Azure AI 語音服務提供進階語音轉換文字功能。 此功能同時支持即時和批次轉譯,提供將音訊串流轉換成文字的多用途解決方案。

核心功能

語音轉換文字服務提供以下核心功能:

  • 即時轉譯:具備即時音頻輸入中繼結果的即時轉譯。
  • 快速轉譯:可預測延遲情況的最快同步輸出。
  • 批次轉譯:有效率地處理大量的預先錄製音訊。
  • 自訂語音:具有特定領域和條件增強精確度的模型。

即時語音轉換文字

即時語音轉換文字會在辨識麥克風或檔案中的語音時轉錄語音。 非常適合需要立即轉譯的應用程式,例如:

  • 即時會議的轉譯、輔助字幕或翻譯字幕:輔助功能和錄製的即時音訊轉譯。
  • 自動分段標記:識別和區分音訊中的不同喇叭。
  • 發音評估:評估並提供發音正確性的意見反應。
  • 客服中心專員協助:提供即時轉譯來協助客戶服務代表。
  • 聽寫:將口語文字轉譯成書面文字以供文件使用。
  • 語音代理程式:啟用互動式語音響應系統來轉譯使用者查詢和命令。

您可以透過語音 SDK、語音 CLI 和 REST API 來存取即時語音轉換文字,以便整合至各種應用程式和工作流程。 即時語音轉換文字可透過語音 SDK語音 CLI 和 REST API 取得,例如快速轉譯 API

快速轉錄

快速轉錄 API 可以同步方式轉錄音訊檔案,且比即時音訊傳回結果的速度快。 您需要盡快轉錄音訊錄製,並且可預測延遲時,適合使用快速轉錄,例如:

  • 快速音訊或影片轉譯和字幕:一次快速取得整個影片或音訊檔案的轉譯。
  • 影片翻譯:如果您有不同語言的音訊,請立即取得影片的新字幕。

若要開始使用快速轉譯,請參閱 使用快速轉譯 API

批次轉譯 API

批次轉譯專為轉譯儲存在檔案中的大量音訊而設計。 此方法會以非同步方式處理音訊,且適用於:

  • 預先錄製音訊的轉譯、標題或字幕:將儲存的音訊內容轉換成文字。
  • 聯絡中心通話後分析:分析錄製的通話以擷取寶貴的見解。
  • 自動分段標記:在錄製的音訊中區分喇叭。

可透過以下方式進行批次謄寫:

自訂語音

有了 自訂語音,您即可評估與提高應用程式和產品的語音辨識精確度。 自訂語音模型可用於即時語音轉換文字語音翻譯批次謄寫

提示

無需 託管部署端點,也能將自訂語音與 批次謄寫 API 搭配使用。 如果自訂語音模型僅用於批次謄寫,則可以節省資源。 如需詳細資訊,請參閱語音服務價格

開箱即用的語音辨識功能運用通用語言模型作為基礎模型。這個功能是以 Microsoft 擁有的資料定型,且能夠反映常用的口語語言。 基底模型會預先訓練代表各種常見領域的方言和注音符號。 當您提出語音辨識要求時,系統預設會使用每個支援語言的最新基礎模型。 基礎模型在大部分的語音辨識案例中運作良好。

自訂語音能讓您設定語音辨識模型,更符合您應用程式的特定需求。 這對於下列情形特別有用:

  • 改善領域特定詞彙的辨識:使用與字段相關的文字資料定型模型。
  • 增強特定音訊條件的正確性:搭配參考轉譯使用音訊資料來精簡模型。

如需自定義語音的詳細資訊,請參閱自定義語音概觀語音轉換文字 REST API 文件。

如需每個語言和地區設定自定義選項的詳細資訊,請參閱語音服務的語言和語音支援文件。

使用方式範例

以下是一些實際範例,說明如何使用 Azure AI 語音轉換文字:

使用案例 狀況 解決方法
即時會議轉譯和標題 虛擬活動平台必須提供網路研討會的即時輔助字幕。 使用語音 SDK 將即時語音轉換成文字,以將口語內容轉譯成活動期間實時顯示的標題。
客戶服務增強 客服中心想要藉由提供客戶通話的即時轉譯來協助專員。 透過語音 CLI 使用即時語音轉換文字來轉譯通話,讓代理程式能夠進一步了解和回應客戶查詢。
影片字幕 裝載影片的平台想要快速產生一組影片的字幕。 使用快速轉譯來快速取得整個影片的一組字幕。
教育工具 電子學習平台旨在提供影片講座的轉譯。 透過語音轉換文字 REST API 套用批次轉譯,以處理預先錄製的講座影片,為學生產生文字謄寫記錄。
醫療保健文件 醫療保健提供者需要記錄患者諮詢。 使用即時語音轉換文字進行聽寫,讓醫療保健專業人員能夠說出筆記,並立即轉譯。 使用自定義模型來增強特定醫療詞彙的辨識。
媒體和娛樂 媒體公司想要為大量封存影片建立字幕。 使用批次轉譯來處理大量影片檔案,為每個影片產生精確的字幕。
市場研究 市場研究公司需要分析來自錄音的客戶意見反應。 採用批次轉譯將音訊意見反應轉換成文字,讓您更容易分析和深入解析擷取。

負責 AI

AI 系統不僅包含技術,也包含使用該技術的人員、受其影響的人員及部署的環境。 閱讀透明度資訊,了解在系統中負責任 AI 的使用和部署資訊。