你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
什么是自定义文本转语音虚拟形象?
借助自定义文本转语音虚拟形象,可以为应用程序创建独特的自定义合成语音虚拟形象。 使用自定义文本转语音虚拟形象,可以通过提供所选演员的视频录制数据来为产品或品牌打造独特且外观自然的虚拟形象。 如果你还创建了同一演员的神经网络定制声音并将其用作虚拟形象的声音,则虚拟形象将更加真实。
它是如何工作的?
创建自定义文本转语音虚拟形象需要至少 10 分钟的虚拟形象演员视频录制内容作为训练数据,并且必须先获得演员的同意。
自定义虚拟形象模型可以支持:
- 通过批处理合成 API 生成视频。
- 通过流式处理合成 API 进行实时聊天。
在开始之前,需要考虑下面的一些注意事项:
用例:是否使用虚拟形象创建视频内容,例如培训材料、产品简介,还是使用虚拟形象作为虚拟销售人员与客户进行实时对话? 对于不同的用例,存在一些录制要求。
虚拟形象的外观:自定义文本转语音虚拟形象外观与训练数据中的虚拟形象演员相同,我们不支持自定义虚拟形象模型的外观,如衣服、发型等。因此,如果应用程序需要同一虚拟形象的多种风格,则应为每个风格准备训练数据,因为虚拟形象的每个风格都将被视为单个虚拟形象模型。
虚拟形象的语音:自定义文本转语音虚拟形象可以处理预生成的神经网络语音和自定义神经网络语音。 为虚拟形象演员创建神经网络定制声音并将其与虚拟形象一起使用将显著增加虚拟形象体验的自然性。
下面是创建自定义文本转语音虚拟形象的步骤概述:
获取同意视频。 获取同意声明的视频录制。 同意声明是虚拟形象演员阅读声明的视频录制内容,表明其同意使用其图像和语音数据来训练自定义文本转语音虚拟形象模型。
准备训练数据。 确保视频录制格式正确。 最好在专业质量的视频拍摄工作室中录制视频,以获得干净的背景图像。 生成的虚拟形象质量在很大程度上取决于用于训练的录制视频。 讲话速度、身体姿势、面部表情、手势、演员位置的一致性,以及视频录制的照明条件等因素对于创建引人入胜的自定义文本转语音虚拟形象至关重要。 请参阅如何准备训练数据了解更多详细信息。
训练虚拟形象模型。 准备好数据后,将数据上传至自定义虚拟形象门户并开始训练模型。 在训练期间会执行同意验证。 在创建项目之前,请确保有权访问自定义文本转语音虚拟形象功能。
在应用程序中部署和使用虚拟形象模型。
组件序列
自定义文本转语音虚拟形象模型包含三个组件:文本分析器、文本转语音音频合成器,以及文本转语音虚拟形象视频呈现器。
- 要使用虚拟形象模型生成虚拟形象视频文件或流,请首先将文本输入到文本分析器中,它会以音素序列的形式提供输出。
- 音频合成器将合成输入文本的语音音频,这两部分由文本转语音或自定义神经网络语音模型提供。
- 最后,神经网络文本转语音虚拟形象模型会预测与语音音频同步的唇部图像,以便生成合成视频。
基于不同语言人类视频的录制内容示例,使用深度神经网络训练神经网络文本转语音虚拟形象模型。 可以支持所有语言的预生成语音和自定义神经网络语音。
可用位置
自定义虚拟形象训练仅在以下服务区域中提供:东南亚、西欧和美国西部 2。 可在以下服务区域中使用自定义虚拟形象模型:东南亚、北欧、西欧、瑞典中部、美国中南部、美国东部 2 和美国西部 2。
自定义语音和自定义文本转语音虚拟形象
自定义文本转语音虚拟形象可以使用预生成的神经网络语音或自定义神经网络语音作为虚拟形象的声音。 有关详细信息,请参阅《虚拟形象语音和语言》。
自定义神经网络语音和自定义文本转语音虚拟形象是单独的功能。 可以独立使用它们,也可以一起使用。 如果你选择将它们一起使用,则需要单独申请神经网络定制声音和自定义文本转语音虚拟形象,并且需要单独支付神经网络定制声音和自定义文本转语音虚拟形象的费用。 有关详细信息,请参阅定价页。 此外,如果你打算将神经网络定制声音与文本转语音虚拟形象一起使用,则需要将神经网络定制声音模型部署或复制到虚拟形象支持的区域之一。