你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

在呼叫中播放音频

借助通过 Azure 通信服务呼叫自动化 SDK 提供的播放操作,可向呼叫中的参与者播放音频提示。 可以通过应用程序的服务器端实现访问此操作。 可通过下面两种方法之一向呼叫参与者播放音频;

  • 为 Azure 通信服务提供访问 WAV 格式的预录制音频文件的权限,Azure 通信服务可通过对身份验证的支持来访问这些文件
  • 通过与 Azure AI 服务的集成,可将常规文本转换为语音输出。

可使用新推出的 Azure 通信服务和 Azure AI 服务之间的集成,通过 Azure 文本转语音功能播放个性化答复。 可使用类似于人类的现成预生成神经语音,或者根据你的产品或品牌创建独特的自定义神经语音。 若要详细了解支持的语音、语言和区域设置,请参阅语音服务的语言和语音支持

注意

Azure 通信服务目前支持两种文件格式:带有 ID3V2TAG 的 MP3 文件和格式化为按 16KHz 录制的 16 位 PCM 单声道音频的 WAV 文件。 可以使用语音合成与音频内容创建工具创建自己的音频文件。

预生成神经文本转语音声音

Microsoft 使用深度神经网络来克服有关口语中的重读和语调的传统语音合成限制。 韵律预测和语音合成以同步方式发生,使输出听起来更流畅且自然。 可以使用这些神经语音让与聊天机器人和语音助手的互动更加自然、更加吸引人。 有 100 多种预生成的语音可供选择。 详细了解文本转语音声音

常见用例

可以多种方式使用播放操作,下面列出了开发人员可能希望如何在其应用程序中使用播放操作的一些示例。

公告

应用程序可能希望在参与者加入或离开通话时播放某种通知,以通知其他用户。

自助服务客户

在具有 IVR 和虚拟助理的场景中,可以使用应用程序或机器人向呼叫者播放音频提示,此提示可以采用菜单的形式引导呼叫者进行交互。

等待音乐

播放操作也可用于为呼叫者播放等待音乐。 可以在循环中设置此操作,以便音乐一直播放,直到有代理可以帮助呼叫者。

播放合规性消息

作为各行业合规性要求的一部分,供应商应向呼叫者播放法律或合规性信息,例如,“为了保证通话服务质量,本次通话将被录音”。

使用文本转语音在呼叫中播放音频的示例体系结构

显示了利用 AI 进行播放的示例体系结构的示意图。

在呼叫中播放音频的示例体系结构

播放操作的流程屏幕截图。

已知限制

  • 文本转语音文本提示最多支持 400 个字符,如果你的提示超过此长度限制,建议对基于文本转语音的播放操作使用 SSML。
  • 对于超出语音服务配额限制的场景,可按照此处概述的步骤请求调高此限制。

后续步骤