你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

音频流式处理概述 - 音频订阅

项目
01/04/2025

重要

本文中所述的功能目前以公共预览版提供。此预览版在提供时没有附带服务级别协议，我们不建议将其用于生产工作负荷。某些功能可能不受支持或者受限。有关详细信息，请参阅 Microsoft Azure 预览版补充使用条款。

Azure 通信服务提供双向音频流式处理功能，为开发人员提供强大的工具，在活动通话期间捕获、分析和处理音频内容。这种开发为开发人员和企业实时通信的新可能性铺平了道路。

通过将双向音频流式处理与 Azure OpenAI 和其他实时语音 API 等服务集成，企业可以实现无缝、低延迟的通信。这极大地增强了对话式 AI 解决方案的开发和部署，从而允许更具吸引力和高效的交互。

借助双向流式处理，企业现在可以将其语音解决方案提升为低延迟、类似人类、交互式对话式 AI 代理。我们的双向流式处理 API 使开发人员能够将来自 Azure 通信服务正在进行的呼叫中的音频实时流式传输到其 Web 服务器，并将音频流式传输回到呼叫中。虽然这些功能的初始重点是帮助企业创建对话式 AI 代理，但其他用例包括自然语言处理，用于聊天分析的，或在与最终用户进行主动交互时向代理提供实时见解和建议。

此公共预览版支持开发人员从 Azure 通信服务通过 WebSocket 访问实时音频流，并将音频流式传输回到呼叫中。

实时呼叫协助

利用对话式 AI 解决方案：开发可与客户实时交互的复杂客户支持虚拟代理，提供即时响应和解决方案。
个性化客户体验：利用实时数据，企业可以实时提供更个性化、动态的客户交互，从而提高满意度和忠诚度。
减少客户的等待时间：将双向音频流用于大型语言模型 (LLM)，可以创建虚拟代理，作为客户的第一个联系点，减少对人工代理的等待时间。

身份验证

生物识别身份验证 – 通过语音识别/匹配引擎/工具从通话中运行音频，使用音频流进行语音身份验证。

显示如何将双向音频流式处理用于聊天 AI 代理的示例体系结构

支持的格式

Mixed

包含呼叫中所有参与者的混合音频。所有音频都平展到一个流中。

未混合

每个通道包含每个参与者的音频，在通话的任何时候，最多支持四个通道，供四个最主要的扬声器使用。你还将获得一个 participantRawID，可用来确定演讲人。

其他信息

开发人员可以使用有关从 Azure 通信服务发送的音频的以下信息，将音频数据包转换为其应用程序的可听内容。

帧率：每秒 50 帧
数据包流式传输速率：20 毫秒速率
数据包大小：640 字节 (16,000 hz) 和 960 字节 (24,000 hz)
音频指标：16 位 PCM 单声道 (16,000 hz 和 24,000 hz)
公共字符串数据是 base64 字符串，应将其转换为字节数组以创建原始 PCM 文件。

计费

请参阅 Azure 通信服务定价页，了解有关音频流式处理如何计费的信息。可以在音频流式处理下的“通话”类别中找到价格。

后续步骤

若要了解更多信息，请查看音频流式传输快速入门。

通过