你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

什么是语音服务？

项目
03/10/2025

语音服务通过语音资源提供语音转文本和文本转语音功能。可以将语音转为具有较高准确度的文本，将文本转为发音自然的语音，翻译语音，并在对话期间使用说话人辨识。

突出显示部分语音服务功能的磁贴图像。

创建自定义语音、将特定字词添加到基本词汇中，或生成自己的模型。在任意位置（云中或容器的边缘）运行语音。使用语音 CLI、语音 SDK 和 REST API，可以轻松在应用程序、工具和设备中启用语音。

语音适用于许多语言、区域和价位。

语音方案

语音的常见方案包括：

字幕：了解如何将字幕与输入音频同步、应用亵渎内容过滤器、获得部分结果、应用自定义以及识别多语言场景的口语。
音频内容创建：你可以使用神经语音，使得与聊天机器人和语音助手的交流更加自然且富有吸引力、将数字文本（如电子书）转换为有声读物，以及增强车载导航系统。
呼叫中心：实时听录呼叫或处理一批呼叫，编修个人身份信息，并提取情绪等见解，有助于为呼叫中心用例提供帮助。
语言学习：向语言学习者提供发音评估反馈，支持远程学习对话的实时听录，并使用神经语音大声朗读教材。
语音助理：为应用程序和体验创建自然、人性化的对话界面。语音助理功能在设备与助理实现之间提供快速可靠的交互。

Microsoft 将语音用于许多方案中，例如 Teams 中的字幕、Office 365 中的听写，以及 Microsoft Edge 浏览器中的大声朗读功能。

显示使用语音服务的 Microsoft 产品的徽标图像。

语音功能

这些部分对语音功能进行了汇总，并提供导向详细信息的链接。

语音转文本

使用语音转文本借助批量听录实时或异步将音频听录为文本。

提示

可以在 Speech Studio 中试用实时语音转文本，且无需注册或编写任何代码。

将音频转换为来自一系列源（包括麦克风、音频文件和 Blob 存储）的文本。使用说话人日记来确定说话的人、所说内容及说话时间。获取具有自动格式设置和标点符号的可读脚本。

如果音频包含环境噪声或大量行业和特定领域的术语，则基础模型可能不够用。在这些情况下，可以使用声学、语言和发音数据创建和训练自定义语音识别模型。自定义语音识别模型是专用的，具有竞争优势。

实时语音转文本

使用实时语音转文本时，当从麦克风或文件中识别出语音时，会对音频进行听录。对于需要实时听录音频的应用程序，请使用实时语音转文本，例如：

实时会议的听录、描述文字或字幕
分割聚类
发音评估
联系中心代理助手
听写
语音代理

快速听录 API

快速听录 API 用于听录音频文件，同步返回结果，速度比实时音频快得多。在需要尽快获得音频录制脚本且可预测延迟的情况下使用快速听录，例如：

快速音频或视频听录、字幕和编辑。
视频翻译

若要开始使用快速听录，请参阅使用快速听录 API。

批量听录

批量听录用于听录存储中的大量音频。你可以指向具有共享访问签名 (SAS) URI 的音频文件并异步接收听录结果。对需要批量听录音频的应用程序使用批量听录，例如：

预录制音频的听录、描述文字或字幕
联系中心调用后分析
分割聚类

文本转语音

文本转语音可以将输入的文本转换为类似人声的合成语音。使用神经语音，这是由深度神经网络提供支持的类人语音。使用语音合成标记语言 (SSML) 来微调音节、发音、语速、音量等特征。

预生成的神经语音：很自然的现成语音。在语音库中查看预生成的神经语音样本，并确定适合你的业务需求的语音。
自定义神经语音：除了现成的预生成神经语音外，还可以创建具有品牌或产品辨识度和独特性的自定义神经语音。自定义神经语音是私有的，可以提供竞争优势。在此处查看自定义神经语音样本。

语音翻译

使用语音翻译可在应用程序、工具和设备中实现实时的多语言语音翻译。实施语音转语音和语音转文本翻译时可以使用此功能。

语言识别

语言标识用于在与支持的语言列表进行比较时确定音频中说话人的语言。借助语音转文本识别或语音翻译，让语言自身识别语言。

说话人辨识

说话人辨识提供的算法可通过说话人的独特语音特征来验证和识别说话者。说话人识别用于回答“谁在说话？”的问题。

发音评估

发音评估可以评估语音发音，并为说话人提供有关讲话音频准确度和流利度的反馈。通过发音评估，语言学习者可以练习、获得即时反馈并改进其发音，因此能够自信地讲话和演示。

意向识别

意向识别：将语音转文本与对话语言理解结合使用，从听录的语音中获取用户意向，并根据语音命令采取行动。

交付和存在

可以在云或本地部署 Azure AI 语音功能。

借助容器，可以出于合规性、安全性或其他运营原因使服务更接近数据。

主权云中的语音服务部署适用于某些政府实体及其合作伙伴。例如，Azure 政府云适用于美国政府实体及其合作伙伴。由世纪互联运营的 Microsoft Azure 可供在中国开展业务的组织使用。有关详细信息，请参阅主权云。

显示语音服务的部署和访问位置的关系图。

在应用程序中使用语音

Speech Studio 是一组基于 UI 的工具，用于在应用程序中生成和集成 Azure AI 语音服务的功能。通过使用无代码方法在 Speech Studio 中创建项目，然后通过使用语音 SDK、语音 CLI 或 REST API 来引用应用程序中的资产。

语音 CLI 是一种命令行工具，用于在不编写任何代码的情况下使用语音服务。语音 SDK 中的大部分功能都可在语音 CLI 中使用，一些高级功能和自定义设置在语音 CLI 中进行了简化。

语音 SDK 公开了许多语音服务功能，这些功能可用于开发支持语音的应用程序。语音 SDK 可以在许多编程语言中和所有平台中使用。

在某些情况下，不能或不应使用语音 SDK。在这些情况下，可以使用 REST API 访问语音服务。例如，使用适用于批量听录的 REST API 和说话人辨识 REST API。

入门

我们提供许多常用编程语言的快速入门。每个快速入门旨在让你了解基本设计模式并帮助你在 10 分钟以内运行代码。请参阅以下列表，了解每项功能的快速入门：

代码示例

GitHub 上提供了语音服务的示例代码。这些示例涵盖了常见方案，例如，从文件或流中读取音频、连续和单次识别，以及使用自定义模型。使用以下链接查看 SDK 和 REST 示例：

负责任 AI

AI 系统不仅包括技术，还包括使用它的人员、受其影响的人员以及部署它的环境。阅读透明度说明，了解如何在系统中负责任地使用和部署 AI。

通过

什么是语音服务？

语音方案

语音功能

语音转文本

实时语音转文本

快速听录 API

批量听录

文本转语音

语音翻译

语言识别

说话人辨识

发音评估

意向识别

交付和存在

在应用程序中使用语音

入门

代码示例

负责任 AI

语音转文本

发音评估

神经网络定制声音

说话人识别

后续步骤

反馈

其他资源