你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

神经网络定制声音精简版(预览版)

Azure AI 语音提供两种神经网络定制声音 (CNV) 项目类型:CNV 精简版和 CNV 专业版。

  • 神经网络定制声音 (CNV) 专业版允许你上传通过专业录音棚收集的训练数据,并创建与人体样本几乎无法区分的更高质量的语音。 CNV 专业版访问权限根据资格和使用标准受到限制。 在引入表单上请求访问。
  • 神经网络定制声音 (CNV) 精简版处于公共预览阶段的项目类型。 在投资专业录音以创建更高质量的语音之前,你可以演示和评估神经网络定制声音。 对于演示和评估,不需要任何应用程序。 不过,Microsoft 限制并选择用于 CNV 精简版的录音和测试样本。 必须申请到对 CNV 专业版的完全访问权限,才能部署 CNV 精简版模型并将其用于业务目的。 在这种情况下,请申请对引入表单的访问权限。

使用 CNV 精简版项目,你可以通过阅读 Microsoft 提供的 20-50 个预定义脚本来在线录制你的声音。 记录至少 20 个样本后,可以开始训练模型。 成功训练模型后,你可以查看模型并查看使用另一组预定义脚本生成的 20 个输出示例。

请参阅自定义神经语音支持的语言

比较项目类型

下表总结了 CNV 精简版和 CNV 专业版项目类型之间的主要区别。

精简版(预览版) Pro
目标方案 演示或评估 专业方案,如聊天机器人的品牌和角色语音,或音频内容阅读。
训练数据 使用 Speech Studio 进行在线录制 自带数据。 建议在专业录音室录音。
录音脚本 在 Speech Studio 中提供 使用与用例方案匹配的脚本。 微软提供了示例脚本以供参考。
所需的数据大小 20 到 50 个语句 300 到 2000 个语句
训练时间 计算小时数不到 1 计算小时数大约 20 到 40
语音质量 中等质量 高质量
可用性 任何人都可以在线录制样本并训练模型以进行演示和评估。 如果要部署 CNV 精简版模型供业务使用,则需要对神经网络定制声音的完全访问权限。 数据上传不受限制,但你只能在访问权限获得批准后训练和部署 CNV 专业版模型。 CNV 专业版访问权限根据资格和使用标准受到限制。 在引入表单上请求访问。
定价 单价同样适用于 CNV 精简版和 CNV 专业版项目。 请在此处查看定价详细信息 单价同样适用于 CNV 精简版和 CNV 专业版项目。 请在此处查看定价详细信息

创建神经网络定制声音精简版项目

若要神经网络定制声音精简版项目,请执行以下步骤:

  1. 登录 Speech Studio

  2. 选择要使用的订阅和语音资源。

  3. 选择“定制声音”>“创建项目”

  4. 选择“神经网络定制声音精简版”>“下一步”。 如果要创建神经网络定制声音专业版项目,请参阅创建神经网络定制声音项目

  5. 遵照向导中的说明创建项目。

    重要

    CNV 精简版项目将在 90 天后过期,除非提交发音人录制的发音人声明

  6. 按名称选择新项目,或选择“转到项目”。 左侧面板将显示这些菜单项:“录制和生成”、“审阅模型”以及“部署模型”

    概览 CNV 精简版录制、训练、测试和部署工作流的屏幕截图。

录制并生成 CNV 精简版模型

使用联机提供的脚本录制至少 20 个(最多 50 个)语音样本。 此处录制的语音样本将用于合成语音。

注意

神经网络定制声音训练目前仅在部分区域可用。 有关详细信息,请参阅区域表中的脚注。

下面是一些有助于录制语音样本的提示:

  • 使用优质麦克风。 通过使用优质麦克风来提高样本的清晰度。 在距离麦克风约 8 英寸远的位置说话,以避免出现嘴部噪音。
  • 避免背景噪音。 在没有背景噪音或回声的安静场所中进行录制。
  • 放松且自然地说话。 在读出句子时可以流露情感。
  • 一次性地完成录制。 要保持一致的能量级别,请在一个会话中录制所有句子。
  • 对每个单词完成正确且清晰的发音。

若要录制并生成 CNV 精简版模型,请执行以下步骤:

  1. 选择“定制声音”> 你的项目名称 >“录制和生成”
  2. 选择“开始”。
  3. 请仔细阅读发音人使用条款。 勾选复选框,表示接受使用条款。
  4. 选择“接受”
  5. 按下麦克风图标,开始检查噪音。 此噪音检查只需几秒钟,且在该过程中无需说话。
  6. 如果检测到噪音,则可以选择“再次检查”以重复噪音检查环节。 如果未检测到任何噪音,则可以选择“完成”以继续进行下一步。 检测到噪音时的噪音检查结果的屏幕截图。
  7. 查看录制提示,然后选择“知道了”。 为了获得最佳结果,请在录制语音样本之前到安静的、没有背景噪音的区域。
  8. 按下麦克风图标,开始录制。 录制示例仪表板的屏幕截图。
  9. 按下停止图标即可停止录制。
  10. 查看质量指标。 每当录制完样本后,请先检查其质量指标,然后再继续下一项录制。
  11. 录制更多样本。 虽然只需 20 个样本即可创建模型,但建议多录制几个样本(最多 50 个)以获得更好的质量。
  12. 选择“训练模型”以启动训练过程。

训练过程大约需要一个计算小时。 可以在“审阅模型”页中检查训练进度。

审阅模型

若要审阅 CNV 精简版模型并收听自己的合成语音,请执行以下步骤:

  1. 选择“定制声音”> 你的项目名称 >“审阅模型”。 可在此处查看语音模型名称、模型语言、示例数据大小和训练进度。 语音名称由项目名称后面追加的单词“Neural”(神经网络)组合而来。
  2. 选择语音模型名称,可以查看模型详细信息并收听示例文本转语音结果。
  3. 选择播放图标,可以听到你的声音说出每个脚本。 审阅示例输出仪表板的屏幕截图。

提交发音人声明

部署模型以用于业务之前,还需要由发音人录制发音人声明。

若要提交发音人的发音人声明,请执行以下步骤:

  1. 选择“定制声音”> 你的项目名称 >“部署模型”>“管理发音人”录制发音人同意声明仪表板的屏幕截图。
  2. 选择该模型。
  3. 输入发音人姓名和公司名称。
  4. 读出并录制声明。 选择麦克风图标,开始录制。 选择停止图标即可停止录制。
  5. 选择“提交”以提交声明。
  6. 在仪表板底部的脚本表中检查处理状态。 状态显示为“成功”后,即可部署模型

部署模型

若要部署语音模型并在应用程序中使用它,必须获取对神经网络定制声音的完全访问权限。 在引入表单上请求访问。 在大约 10 个工作日内,你将收到一封包含审批状态的电子邮件。 在部署模型以用于业务之前,还需要由发音人录制发音人声明

若要部署 CNV 精简版模型,请执行以下步骤:

  1. 选择“定制声音”> 你的项目名称 >“部署模型”>“部署模型”
  2. 选择语音模型名称,然后选择“下一步”。
  3. 为自己的终结点输入名称和说明,然后选择“下一步”。
  4. 勾选复选框以表示自己同意使用条款,然后选择“下一步”。
  5. 选择“部署”以部署模型。

在此处可以像使用 CNV 专业版语音模型一样使用 CNV 精简版语音模型。 例如,可以在创建终结点后挂起或恢复它,以限制支出并节省未使用的资源。 还可以访问 Speech Studio有声内容创作工具中的声音。

后续步骤