你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

音频流式处理概述 - 音频订阅

重要

本文中所述的功能目前以公共预览版提供。 此预览版在提供时没有附带服务级别协议,我们不建议将其用于生产工作负荷。 某些功能可能不受支持或者受限。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款

Azure 通信服务提供双向音频流式处理功能,为开发人员提供强大的工具,在活动通话期间捕获、分析和处理音频内容。 这种开发为开发人员和企业实时通信的新可能性铺平了道路。

通过将双向音频流式处理与 Azure OpenAI 和其他实时语音 API 等服务集成,企业可以实现无缝、低延迟的通信。 这极大地增强了对话式 AI 解决方案的开发和部署,从而允许更具吸引力和高效的交互。

借助双向流式处理,企业现在可以将其语音解决方案提升为低延迟、类似人类、交互式对话式 AI 代理。 我们的双向流式处理 API 使开发人员能够将来自 Azure 通信服务正在进行的呼叫中的音频实时流式传输到其 Web 服务器,并将音频流式传输回到呼叫中。 虽然这些功能的初始重点是帮助企业创建对话式 AI 代理,但其他用例包括自然语言处理,用于聊天分析的,或在与最终用户进行主动交互时向代理提供实时见解和建议。

此公共预览版支持开发人员从 Azure 通信服务通过 WebSocket 访问实时音频流,并将音频流式传输回到呼叫中。

实时呼叫协助

  • 利用对话式 AI 解决方案:开发可与客户实时交互的复杂客户支持虚拟代理,提供即时响应和解决方案。

  • 个性化客户体验:利用实时数据,企业可以实时提供更个性化、动态的客户交互,从而提高满意度和忠诚度。

  • 减少客户的等待时间:将双向音频流用于大型语言模型 (LLM),可以创建虚拟代理,作为客户的第一个联系点,减少对人工代理的等待时间。

身份验证

  • 生物识别身份验证 – 通过语音识别/匹配引擎/工具从通话中运行音频,使用音频流进行语音身份验证。

显示如何将双向音频流式处理用于聊天 AI 代理的示例体系结构

音频流式传输的体系结构图的屏幕截图。

支持的格式

Mixed

包含呼叫中所有参与者的混合音频。 所有音频都平展到一个流中。

未混合

每个通道包含每个参与者的音频,在通话的任何时候,最多支持四个通道,供四个最主要的扬声器使用。 你还将获得一个 participantRawID,可用来确定演讲人。

其他信息

开发人员可以使用有关从 Azure 通信服务发送的音频的以下信息,将音频数据包转换为其应用程序的可听内容。

  • 帧率:每秒 50 帧
  • 数据包流式传输速率:20 毫秒速率
  • 数据包大小:640 字节 (16,000 hz) 和 960 字节 (24,000 hz)
  • 音频指标:16 位 PCM 单声道 (16,000 hz 和 24,000 hz)
  • 公共字符串数据是 base64 字符串,应将其转换为字节数组以创建原始 PCM 文件。

计费

请参阅 Azure 通信服务定价页,了解有关音频流式处理如何计费的信息。 可以在音频流式处理下的“通话”类别中找到价格。

后续步骤

若要了解更多信息,请查看音频流式传输快速入门