你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

音频流式处理概述 - 音频订阅

重要

本文中所述的功能目前以公共预览版提供。 此预览版在提供时没有附带服务级别协议,我们不建议将其用于生产工作负荷。 某些功能可能不受支持或者受限。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款

Azure 通信服务为开发人员提供音频流式传输功能,以实时访问音频流,从而在活动通话期间捕获、分析和处理音频内容。 在当今世界,实时音频和视频的消费很普遍,这些内容可以是在线会议、在线大会、客户支持等形式。通过音频流访问,开发人员现在可以构建服务器应用程序,以实时捕获和分析呼叫中每个参与者的音频流。 开发人员还可以将音频流与其他通话自动化操作结合使用,或使用自己的 AI 模型来分析音频流。 用例包括用于对话分析的 NLP,或在代理与最终用户积极互动时向代理提供实时见解和建议。

此公共预览版支持开发人员通过 WebSocket 访问实时音频流,以分析混合和非混合格式的通话音频。

常见用例

可以用多种方式使用音频流。 下面是开发人员可能希望在其应用程序中使用音频流式传输的一些方式示例:

实时呼叫协助

改进的 AI 驱动建议 - 使用客服和客户之间的主动交互的实时音频流来衡量呼叫的意图,以及你的代理如何通过使用你自己的 AI 模型分析呼叫的主动建议来为其客户提供更好的体验。

身份验证

生物识别身份验证 – 通过语音识别/匹配引擎/工具从通话中运行音频,使用音频流进行语音身份验证。

关于从正在进行的呼叫订阅音频流的体系结构示例 - 人工代理应用场景

音频流式传输的体系结构图的屏幕截图。

支持的格式

混合格式

包含呼叫中所有参与者的混合音频。 所有音频都平展到一个流中。

未混合

每个通道包含每个参与者的音频,在通话的任何时候,最多支持四个通道,供四个最主要的扬声器使用。 你还将获得一个 ParticipantRawID,可用来确定演讲人。

其他信息

下表中的信息可帮助开发人员将音频数据包转换为可供其应用程序使用的音频内容。

  • 帧率:每秒 50 帧
  • 数据包流式传输速率:20ms 速率
  • 数据包:64 KB
  • 音频指标:16000 Hz 时为 16 位 PCM 单声道
  • 公共字符串数据是 base64 字符串,应将其转换为字节数组以创建原始 PCM 文件。\

计费

请参阅 Azure 通信服务定价页,了解有关音频流式处理如何计费的信息。 可以在音频流式处理下的“通话”类别中找到价格。

后续步骤

若要了解更多信息,请查看音频流式传输快速入门