你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

选择 Azure AI 语音识别和生成技术

Azure AI 服务通过现成的预生成可定制 API 和模型,帮助工作负载设计人员和开发人员创建智能、前沿、面向市场且负责任的应用程序。

本文介绍 Azure AI 服务,这些服务提供语音识别和生成功能,例如语音转文本和文本转语音转换、音频翻译、说话人辨识,以及为有学习差异的人提供阅读支持。

注意

若要收集有关术语或短语的见解,或获取对口语或书面语言的详细上下文分析,请参阅 选择 Azure AI 目标语言处理技术

服务

以下 Azure AI 服务可以为工作负载提供语音识别和生成功能。

  • Azure AI 语音为文本分析提供自然语言处理。

    • 需要听录或翻译口语时,请使用 语音服务,识别对话中的说话人。 还可以将该服务用作在 OpenAI 模型中将自然语音生成作为较低成本的替代方法,以生成更高质量的 Whisper
    • 请勿使用 语音服务进行聊天、内容摘要、审核或通过脚本引导用户。 请改用其他模型进行这些操作。
  • 沉浸式阅读器是一种工具,它实现了可靠的技术来提高萌发期读者、语言学习者和具有学习差异的人士的阅读理解力。

    • 使用 沉浸式阅读器为语言学习者或有学习差异的人提供改进的可读性体验。
    • 不要将 沉浸式阅读器用于传统文本转语音用例。

Azure AI 语音

Azure AI 语音通过语音资源提供语音转文本和文本转语音功能。 可以将语音转为具有较高准确度的文本,将文本转为发音自然的语音,翻译语音,并在对话期间使用说话人辨识。 创建自定义语音、将特定字词添加到基本词汇中,或生成自己的模型。 在任意位置(云中或容器的边缘)运行语音。

语音适用于许多语言和区域。

功能

下表提供了 Azure AI 语音服务中可用的功能列表。

功能 说明
批量听录 转录存储中的大量音频数据。 语音转文本 REST API 和语音 CLI 都支持批量听录。
意向识别 意向是用户想要做的某件事:预订航班、查看天气预报或拨打电话。 使用意向识别,应用程序、工具和设备可以根据选项来确定用户希望启动或执行的操作。 在意向识别器或对话语言理解 (CLU) 模型中定义用户意向。
发音评估 评估语音发音,并为说话人提供有关讲话音频准确度和流利度的反馈。
说话人识别 “说话人识别”可以帮助确定在某个音频剪辑中说话的人是谁。 该服务可以使用语音生物统计技术,通过说话人独一无二的语音特征来验证和识别说话人。
语音转文本 实时或批量将音频流转换为文本。
文本转语音 可让应用程序、工具或设备将文本转换为类似于人类的合成语音。
语音翻译 提供实时多语言语音转语音和语音转文本翻译。
视频翻译 自动翻译和生成多种语言的视频。

用例

下表介绍了 Azure AI 语音的部分使用方式。

用例 可用的功能 说明
音频内容创建 语音转文本 可以使用神经语音可使得与聊天机器人和语音助理的交互更加自然且富有吸引力、将数字文本(如电子书)转换为有声读物以及增强车载导航系统。
呼叫中心听录 语音转文本 实时听录呼叫或处理一批呼叫,编修个人身份信息,并提取情绪等见解,有助于为呼叫中心用例提供帮助。
字幕 语音转文本 将字幕与输入音频同步、应用亵渎内容过滤器、获得部分结果、应用自定义以及识别多语言场景的口语。
语言学习 语音转文本 向语言学习者提供发音评估反馈,支持远程学习对话的实时听录,并使用神经语音大声朗读教材。
语音助手 文本到语音转换 为其应用程序和体验创建自然的人性化对话界面。 语音助理功能在设备与助手实现之间提供快速且可靠的交互。

沉浸式阅读器

沉浸式阅读器是 Azure AI 服务的一部分,它是一款采用包容性设计的工具,通过应用可靠的技术,帮助提高新读者、语言学习者和有学习差异(如阅读障碍)的用户的阅读理解能力。 借助沉浸式阅读器客户端库,你可以使用 Microsoft Word 和 Microsoft OneNote 中使用的相同技术为工作负载用户提供出色的体验。

功能

以下是工作负载可用于帮助用户实现阅读理解目标的功能列表。

  • 将内容划分开来提高可读性
  • 显示常用字词和术语的图片
  • 通过突出显示动词、名词、代词等来帮助理解词性和语法。
  • 大声朗读内容,例如工作负载 UI 中的用户所选文本
  • 将内容实时翻译成多种语言,这有助于提高读者学习新语言的理解力
  • 可将单词拆分为音节来提高可读性或读出新单词

后续步骤