整合和使用語音辨識及謄寫

已完成

語音服務會將語音轉文字、文字轉語音及語音翻譯整合至單一 Azure 訂用帳戶。 使用語音 CLI、語音 SDK、語音裝置 SDK、語音 Studio 或 REST API,輕鬆啟用應用程式、工具和裝置。

語音辨識

說話者辨識服務提供透過語音辨識技術,以唯一語音特性驗證和識別說話者的演算法。 它用來回答「誰說話?」的問題首先,您會為單一說話者提供音訊訓練數據,其會根據說話者語音的獨特特性來建立註冊配置檔。 然後,您可以針對此設定檔交叉檢查音訊語音範例,以驗證說話者是同一人 (說話者驗證),也可以針對一組已註冊的說話者設定檔交叉檢查音訊語音範例,以查看其是否符合群組中的任何設定檔 (說話者辨識)。 相反地,說話者 Diarization 會使用批次作業,依說話者身分識別將音訊串流分組,這表示不同的說話者各有自己的音訊區段。

謄寫

轉譯是一組 REST API 作業,可讓您在記憶體中轉譯音訊。 您可使用共用存取簽章 (SAS) URI 來指向音訊檔案,並以非同步方式接收轉譯結果。

MRTK 語音命令

如同 Windows 語音輸入一樣,語音輸入提供者不會建立任何控制器,而是允許您定義可在辨識時引發語音輸入事件的關鍵字。 您將在輸入系統設定檔的語音命令設定檔中設定辨識關鍵字。 針對每個命令,您也可以:

  • 選取要對應至命令的輸入動作。 如此一來,例如您可以藉由將兩者對應至相同的動作,讓關鍵字選取具有與點擊滑鼠左鍵相同的效果。
  • 指定按下時產生相同語音事件的按鍵程序代碼。
  • 新增 UWP 應用程式中用來從應用程式資源取得當地語系化關鍵字的當地語系化密鑰。

語音 SDK

語音軟體開發套件 (SDK) 公開了許多語音服務功能,可讓您開發具備語音功能的應用程式。 語音 SDK 適用於許多程式設計語言以及所有平台。 語音 SDK 公開了許多語音服務所提供的功能 (但不是全部)。 語音 SDK 的功能通常與案例相關聯。 語音 SDK 非常適合使用本機裝置、檔案、Azure Blob 記憶體,甚至是輸入和輸出數據流的即時和非即時案例。 如果無法使用語音 SDK 來實現案例時,請尋找替代的 REST API。

空間感知

空間感知提供空間對應資料的程式設計存取,並提供有關使用者附近空間的應用程式指定區域中表面的混合實境應用程式資訊。 只有在您的應用程式明確使用這些表面網格時,才會宣告空間感知功能。 混合實境應用程式不需要此功能,即可根據使用者的頭部姿勢執行全像攝影轉譯。

網際網路用戶端伺服器

網際網路用戶端伺服器會啟用點對點 (P2P) 情節,其中應用程式需要接聽傳入的網路連線。

私人網路用戶端伺服器

私人網路用戶端伺服器提供經由防火牆對內及對外存取家用和工作場所網路的能力。 這項功能通常用於跨區域網路 (LAN) 進行通訊的遊戲,以及跨各種本地裝置共用資料的應用程式。