Azure 上的语音入门

3 分钟

Microsoft Azure 通过 Azure AI 语音服务提供语音识别和合成功能，该服务支持许多功能，包括：

语音转文本
文本转语音

注意

此模块包括语音转文本和文本转语音功能。一个单独模块介绍了 Azure AI 服务中的语音翻译。

语音转文本

可以使用 Azure AI 语音转文本 API 将音频实时或批量听录为文本格式。用于听录的音频源可以是来自麦克风或音频文件的实时音频流。

语音转文本 API 使用的模型基于 Microsoft 训练的通用语言模型。模型数据由 Microsoft 拥有，并已部署到 Microsoft Azure。该模型针对两种场景进行了优化：对话和听写。如果 Microsoft 的预建模型不能满足你的需求，你还可以创建和训练自己的自定义模型，包括声学、语言和发音。

实时听录：实时语音转文本使你能够从音频流中听录文本。你可将实时听录用于展示、演示或任何其他有人讲话的场景。

为使实时听录发挥作用，应用程序需要侦听来自麦克风或其他音频输入源（例如音频文件）的传入音频。应用程序代码将音频流式传输到该服务，后者再返回已听录的文本。

批量听录：并非所有语音转文本方案都是实时的。可将录音存储于文件共享、远程服务器甚至 Azure 存储上。你可以指向具有共享访问签名 (SAS) URI 的音频文件并异步接收听录结果。

批量听录应以异步方式运行，因为批处理作业是按尽力而为的要求来计划的。通常，作业将在请求后的几分钟内开始执行，但是无法估计作业进入运行状态的时间。

文本到语音转换

文本转语音 API 可将文本输入转换为音频语音，该语音可通过计算机扬声器直接播放或写入音频文件。

语音合成声音：使用文本转语音 API 时，可指定用于文本发声的语音。此功能提供了个性化语音合成解决方案灵活性，并赋予其特定角色。

该服务包括支持多种语言和区域发音的多种预定义语音，其中包括利用神经网络克服语音合成在语调方面常见限制的神经语音，可以生成听起来更加自然的语音。。还可以开发自定义语音，将其与文本转语音 API 结合使用

支持的语言

语音转文本和文本转语音 API 均支持多种语言。使用下面的链接查找有关受支持语言的详细信息：

语音转文本语言。
文本转语音语言。

Azure 上的语音入门

语音转文本

文本到语音转换

支持的语言

反馈