你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

什么是文本转语音?

本概述介绍了语音服务的文本转语音功能的优点和功能,该功能是 Azure AI 服务的一部分。

文本转语音可让应用程序、工具或设备将文本转换为类似于人类的合成语音。 文本转语音功能也称为语音合成。 使用类似于人类的现成预生成神经语音,或根据你的产品或品牌创建独特的自定义神经语音。 有关支持的声音、语言和区域设置的完整列表,请参阅语音服务的语言和声音支持

核心功能

文本转语音包括以下功能:

功能 总结 演示
预生成的神经网络声音(在定价页面中称为“神经网络”) 高度自然的现成语音。 若要开始操作,请创建 Azure 订阅和语音资源,然后使用语音 SDK 或访问 Speech Studio 门户,并选择预生成的神经语音。 请查看定价详细信息 查看语音库,确定适合你的业务需求的语音。
自定义神经语音(在定价页面中称为“自定义神经” 易于使用的自助服务,可创建自然的品牌语音并限制访问,使用户以负责的态度使用。 创建 Azure 订阅和语音资源(使用 S0 层),并申请使用自定义语音功能。 获得访问权限后,访问 Speech Studio 门户,选择“定制声音”即可开始使用。 请查看定价详细信息 查看语音示例

关于神经网络文本转语音功能的详细信息

文本转语音使用深度神经网络,使计算机的声音与人类录音几乎无法区分。 神经网络文本转语音可提供清晰的发音,显著减轻用户在与 AI 系统交互时的听力疲劳。

口语中的重音和语调模式称为韵律。 传统的文本转语音系统将韵律分解为单独的语言分析和声学预测步骤,这些步骤由独立的模型控制。 这可能会导致语音合成杂乱、声调不一。

下面是有关语音服务中的神经网络文本转语音功能的详细信息,以及它们如何克服传统的文本转语音系统的限制:

  • 实时语音合成 - 使用语音 SDKREST API 通过预生成的神经网络语音自定义神经网络语音将文本转换为语音。

  • 长音频的异步合成:使用批量合成 API 异步合成 10 分钟以上的文本转语音文件(例如有声书籍或讲座)。 与通过语音 SDK 或语音转文本 REST API 执行的合成不同的是,响应不会实时返回。 预期会异步发送请求,轮询响应,并在服务可用时下载合成音频。

  • 预生成的神经网络语音 - Azure AI 语音使用深度神经网络来克服传统语音合成在口语的重音和语调方面的局限性。 韵律预测和语音合成以同步方式发生,使输出听起来更流畅且自然。 每个预生成的神经语音模型在 24 kHz 和高保真 48 kHz 下可用。 你可以使用神经网络声音执行以下操作:

    • 让与聊天机器人和语音助手的互动更加自然和吸引人。
    • 将电子书等数字文本转换为有声读物。
    • 增强车内导航系统。

    有关平台神经网络声音的完整列表,请参阅语音服务的语言和声音支持

  • 使用 SSML 改进文本转语音输出:语音合成标记语言 (SSML) 是一种基于 XML 的标记语言,用于对文本转语音输出进行自定义。 使用 SSML,你可以调整音调、添加暂停、改进发音、更改语速、调整音量,以及将多个语音归属到单个文档。

    可以使用 SSML 定义自己的词典或切换到不同的说话风格。 使用多语言语音,还可通过 SSML 调整口语。 若要改进场景的语音输出,请参阅使用语音合成标记语言改改进合成使用有声内容创作工具进行语音合成

  • 视素 - 视素是观察到的语音中的关键姿态,包括在产生特定音素时嘴唇、下巴和舌头的位置。 视素与语音和音素有很强的关联性。

    通过在语音 SDK 中使用视素事件,可以生成面部动画数据。 此数据用于制作唇读交流、教育、娱乐和客户服务等方面的面部动画。 视素目前仅支持 en-US(美式英语)神经网络声音

备注

我们计划在 2024 年停用传统/标准语音和非神经网络定制声音。 之后,我们将不再支持它们。

如果你的应用程序、工具或产品目前正在使用任何标准语音和定制声音,则必须迁移到神经网络版本。 有关详细信息,请参阅迁移到神经网络声音

入门

若要开始使用文本转语音,请参阅快速入门。 文本转语音通过语音 SDKREST API语音 CLI 提供。

提示

若要使用无代码方法将文本转换为语音,请尝试在 Speech Studio 中使用有声内容创作工具。

代码示例

GitHub 上提供了文本转语音的示例代码。 这些示例涵盖了大多数流行编程语言形式的文本转语音转换:

神经网络定制声音

除了预生成的神经语音外,还可以创建产品或品牌独有的自定义神经语音。 只需准备好几个音频文件和关联的听录内容即可开始。 有关详细信息,请参阅自定义神经语音入门

定价说明

计费字符

使用文本转语音功能时,将按照转换为语音的每个字符(包括标点)付费。 尽管 SSML 文档本身不计费,但用于调整文本转语音方式的可选元素(例如音素和音节)将算作计费字符。 下面列出了计费的内容:

  • 在请求的 SSML 正文中传递给文本转语音功能的文本
  • 请求正文的文本字段中所有 SSML 格式的标记,<speak><voice> 标记除外
  • 字母、标点、空格、制表符、标记和所有空白字符
  • Unicode 中定义的每个码位

有关详细信息,请参阅语音服务定价

重要

每个汉字算作两个计费字符,包括日文汉字、韩文汉字或其他语言中用到的汉字。

神经网络定制声音的模型训练和托管时间

神经网络定制声音训练和托管均按小时计算,并按秒计费。 有关计费单价,请参阅语音服务定价

神经网络定制声音 (CNV) 训练时间通过“计算小时数”(一种度量计算机运行时间的单位)来度量。 通常,在训练语音模型时,两个计算任务并行运行。 因此,算出的计算小时数将长于实际训练时间。 平均而言,训练一个 CNV 精简版语音需要不到一个计算小时;而对于 CNV 专业版,训练一个单一风格的语音通常需要 20 到 40 个计算小时,训练一个多风格的语音通常需要大约 90 个计算小时。 CNV 训练时间的计费上限为 96 个计算小时。 因此,如果语音模型在 98 个计算小时内训练,则只需支付 96 个计算小时的费用。

神经网络定制声音 (CNV) 终结点托管按实际时间(小时)度量。 每个终结点的托管时间(小时)在前 24 小时内每天 00:00 UTC 计算。 例如,如果终结点在第一天处于活动状态 24 小时,则将在第二天的 00:00 UTC 按 24 小时对其计费。 如果该终结点是新创建的或在当天暂停,则将按在第二天 00:00 UTC 之前其累积的运行时间对其计费。 如果终结点当前未托管,则不会对其计费。 除了每天 00:00 UTC 的每日计算外,在删除或暂停终结点时也会立即触发计费。 例如,对于在 12 月 1 日 08:00 UTC 创建的终结点,托管小时数在 12 月 2 日 00:00 UTC 和 12 月 3 日 00:00 UTC 将分别被计算为 16 小时和 24小时。 如果用户在 12 月 3 日 16:30 UTC 暂停托管终结点,则将计算 12 月 3 日 00:00 至 16:30 UTC 的持续时间(16.5 小时)以进行计费。

个人语音

使用个人声音功能时,需要为配置文件存储和合成付费。

  • 配置文件存储:创建个人声音配置文件后,将开始计费,直到从系统中删除为止。 计费单位每天按语音计费。 若语音存储时间不足 24 小时,则按一天计费。
  • 合成:按字符计费。 有关计费字符的详细信息,请参阅上述可计费字符

文本转语音虚拟形象

使用文本转语音虚拟形象功能时,将根据视频输出的长度收费,并按秒计费。 但是,对于实时虚拟形象,费用是按照虚拟形象活跃的时间计算的,无论是说话还是沉默,也将按秒计费。 要优化使用实时虚拟形象的成本,请参考示例代码中提供的提示(搜索“空闲时使用本地视频”)。 虚拟形象托管按每秒每终结点计费。 可以暂停终结点以节省成本。 如果要暂停终结点,可以直接将其删除。 若要再次使用它,只需重新部署终结点。

监视 Azure 文本转语音指标

监视与文本转语音服务关联的关键指标对于管理资源使用和控制成本至关重要。 本部分将指导你在 Azure 门户中查找使用情况信息并提供关键指标的详细定义。 有关 Azure Monitor 指标的更多详细信息,请参阅 Azure Monitor 指标概述

如何在 Azure 门户中查找使用情况信息

为了有效管理 Azure 资源,必须定期访问和查看使用情况信息。 下面介绍如何查找使用情况信息:

  1. 转到 Azure 门户,然后使用 Azure 帐户登录。

  2. 导航到“资源”并选择要监视的资源。

  3. 从左侧菜单中的“监视”下选择“指标”

    屏幕截图显示如何选择“监视”下的“指标”选项。

  4. 自定义指标视图。

    可以按资源类型、指标类型、时间范围和其他参数筛选数据,以创建符合监视需求的自定义视图。 此外,还可以通过选择“保存到仪表板”将指标视图保存到仪表板,以便轻松访问常用指标。

  5. 设置警报。

    若要更有效地管理使用情况,请从左侧菜单导航至“监视”下的“警报”选项卡来设置警报。 当使用量达到特定阈值时,警报会通知你,这有助于防止意外费用。

指标的定义

下表汇总了 Azure 文本转语音服务的关键指标。

指标名称 描述
合成字符数 跟踪转换为语音的字符数,包括预生成神经网络声音和神经网络定制声音。 有关计费字符的详细信息,请参阅计费字符
合成视频秒数 度量合成视频总时长,包括批量虚拟形象合成、实时虚拟形象合成、自定义虚拟形象合成。
虚拟形象模型托管秒数 跟踪托管自定义虚拟形象模型的总时间(以秒为单位)。
语音模型托管小时数 跟踪托管神经网络定制声音模型的总时间(以小时为单位)。
语音模型训练分钟数 度量训练神经网络定制声音模型的总时间(以分钟为单位)。

参考文档

负责任 AI

AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。 阅读透明度说明,了解如何在系统中负责任地使用和部署 AI。

后续步骤