你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

如何录制自定义文本转语音虚拟形象的视频示例

本文提供有关准备用于创建自定义文本转语音虚拟形象的高质量视频示例的说明。

自定义文本转语音虚拟形象模型构建需要对真实人类说话的视频录制进行训练。 此人是虚拟形象配音员。 你必须根据所有相关法律和法规获得虚拟形象配音员的全面同意,才能根据其配音员的形象或肖像创建自定义虚拟形象。 若要了解同意声明视频的要求,请参阅获取虚拟形象配音员的同意文件

录制环境

我们建议在专业的视频录制室或者光线充足的地方录制。

背景要求

如果需要商业化、多场景的虚拟形象,视频背景应该是干净、流畅、纯色的,绿色屏幕是最佳选择。

如果你的虚拟形象只需要在单个场景中使用,则可以选择特定场景进行录制(例如在办公室),但不能去除或更改背景。

下面是在使用纯色背景(如绿色屏幕)进行录制时要考虑的最佳做法:

  • 在你身后放置一个绿色屏幕,如果你的虚拟形象视频会显示演员的全身,包括脚,那么还应该在他们脚下放置一个绿色屏幕。 而且,身后的绿色屏幕和地面的绿色屏幕要无缝连接。
  • 绿色屏幕应平整,颜色统一。
  • 演员应该与身后的背景保持 0.5 米 – 1 米的距离。
  • 可以为绿色屏幕适当打光,以防止出现阴影。
  • 演员的整体轮廓位于绿色屏幕边缘内。
  • 演员不应该太靠近绿色屏幕。
  • 避免演员说话时,头部和手部超出绿色屏幕范围。

照明要求

  • 确保演员脸上的光线均匀明亮,避免面部阴影或演员眼镜和衣服上的反光。
  • 尽量避免环境光对演员的影响。 建议关闭投影机、拉上窗帘以避免日光变化、使用稳定的人造光源等。

设备

  • 相机要求:至少 1080-P 分辨率和 25 FPS(每秒帧数)。
  • 整个视频拍摄过程中,一旦确定灯光和摄像机的位置,就不要再改变它们。
  • 在录制过程中可以使用电子提词器提醒脚本,但要确保它不会影响演员凝视镜头。 如果虚拟形象需要保持坐姿,请提供一个座位。
  • 对于半身或坐姿的数字虚拟形象,请为演员提供一个座位。 如果不希望椅子入画,可以选择一把椅子。

演员的外貌

自定义文本转语音虚拟形象不支持自定义服装或外貌。 因此,在录制训练数据时,必须仔细设计和准备虚拟形象的外貌。 请考虑以下提示:

类别 正确做法 禁止事项
发型 - 演员的头发表面应该顺滑、有光泽。
- 即使是演员的刘海或碎发,边缘也应该清晰顺滑。
- 选择容易在整个视频录制过程中保持一致的发型。
- 避免头发凌乱或透过头发露出背景。
- 不要让头发挡住眼睛或眉毛。
- 避免发型在面部产生阴影。
- 避免在说话和做身体动作时发型有过大变化。 例如,演员的高马尾辫可能会在说话过程中出现、消失和摆动。
Clothing - 讲话时注意衣着状况,确保衣着无明显变化。 - 避免穿着过于宽松、重或复杂的服装和配件,因为它们可能会影响说话和做身体动作时服装状态的一致性。
- 避免穿着与背景色或反光材料过于相似的服装,如白衬衫或半透明材料。
- 避免穿着带有明显线条的服装或带有你不想突出显示的徽标和品牌名称的服装。
- 避免反光元素,如金属带、亮面皮鞋和皮革裤子。
人脸 - 确保演员的面部清晰可见。 - 避免头发、太阳镜或配件遮挡面部。

要录制的视频剪辑

需要多种类型的基本视频剪辑:

同意视频(必需):创建自定义虚拟形象需要同意视频

  • 同意视频必须代表同一个虚拟形象发音人讲话,并遵循同意声明的要求。 请确保正确录制该声明,并清楚地说出每个字。 可以选择任何一种受支持的语言。 若要了解同意声明视频的要求,请参阅获取虚拟形象配音员的同意文件
  • 虚拟形象发音人应始终面向镜头,且不得有大幅度动作。
  • 视频应在安静的环境中拍摄,并以合理的音量录制声音。 尽量将信噪比保持在 20 以上。 有关语音录制指南,请参阅录制自定义语音示例指南。
  • 确保在视频的每一帧中都不会遮挡住头部。
  • 确保镜头内没有其他物体,包括拍摄设备、手机等。

状态 0 说话(手势所需):“状态 0 说话”视频片段是使用虚拟形象做手势所必需的

  • 状态 0 表示说话时大部分时间可以自然保持的姿势。 例如,双臂交叉在身体前方或自然下垂在两侧。
  • 保持正面姿势。 演员可以稍微移动,以呈现放松的状态,如稍微移动头部或肩膀,但不要移动身体太多。
  • 长度:保持状态 0 说话 3-5 分钟。

状态 0 说话的示例

描绘 Lisa 在状态 0 时说话的动画图形,表示说话时自然保持的姿势。

描绘 Harry 在状态 0 时说话的动画图形,表示说话时自然保持的姿势。

描绘 Lori 在状态 0 时说话的动画图形,表示说话时自然保持的姿势。

自然说话(必需):“自然说话”视频剪辑是虚拟形象自然说话所必需的

  • 演员以状态 0 说话,但不时会用自然的手势。
  • 手应该从状态 0 开始,并在做出手势后返回。
  • 说话时使用自然和常见的手势。 避免做出有意义的手势,如指点、鼓掌或竖起大拇指。
  • 长度:最短 5 分钟,总共最长 30 分钟。 至少需要一段 5 分钟的连续视频录制。 如果录制多个视频剪辑,请将每个剪辑控制在 10 分钟以内。

自然说话的示例

描绘 Lisa 在状态 0 时说话并保持自然手部姿势的动画图形,表示说话时自然保持的姿势。

描绘 Harry 在状态 0 时说话并保持自然手部姿势的动画图形,表示说话时自然保持的姿势。

描绘 Lori 在状态 0 时说话并保持自然手部姿势的动画图形,表示说话时自然保持的姿势。

静默状态(必需):“静默状态”视频剪辑是必需的。 如果要与自定义虚拟形象建立实时对话,此视频剪辑非常重要。 该视频剪辑用作聊天机器人说话和倾听状态的主要模板。

  • 保持状态 0,不要说话,但仍感到放松。
  • 即使停留在 0 状态,也不要保持不动;可以稍微移动,但不要太大。 就像在等待一样。
  • 保持微笑,好像在倾听或耐心等待。
  • 避免频繁点头。
  • 长度:1 分钟。

静默状态的示例

描绘了 Lisa 保持沉默状态,不说话但仍感到放松的动画图形。

描绘了 Harry 保持沉默状态,不说话但仍感到放松的动画图形。

描绘了 Lori 保持沉默状态,不说话但仍感到放松的动画图形。

手势(可选)

手势视频剪辑是可选的,需要在虚拟形象说话时插入某些手势的客户可以按照此指南拍摄手势视频。 仅对批量模式虚拟形象启用手势插入;实时虚拟形象目前不支持手势插入。 每个自定义虚拟形象模型都可以支持不超过 10 个手势。

手势提示

  • 每个手势剪辑都应在 10 秒内。
  • 手势应从状态 0 开始,并以状态 0 结尾。 在整个手势过程中,角色必须保持状态 0 中的同一位置,即在屏幕中间。 否则,无法将手势剪辑顺利插入虚拟形象视频。
  • 手势剪辑仅捕捉身体动作;演员在做手势时不必说话。
  • 建议在录制之前设计一个手势列表;下面提供了一些手势视频剪辑的示例:

手势示例

笔势 示例
提供销售链接/促销代码 一个动画图形,描绘了交付销售链接的示例。
赞扬产品 一个动画图形,描绘了称赞产品的示例。
介绍产品 一个动画图形,描绘了介绍产品的示例。
显示价格(用手和拳头表示数字 1 到 10) 右手一个动画图形,描绘了用右手展示价格的示例。左手一个动画图形,描绘了用左手展示价格的示例。

高质量的头像模型是通过高质量(包括音频质量)的视频录制构建的。 以下是有关演员表演和录制视频剪辑的更多技巧:

正确做法 错误做法
- 确保所有视频剪辑都是在相同条件下拍摄的。
- 在录制过程中,设计所需角色的大小和显示区域,以便角色能够正确显示在屏幕上。
- 演员在录制过程中应保持稳定。
- 注意面部表情,它应该适合虚拟形象的应用场景。 例如,如果将自定义文本转语音虚拟形象用作客户服务,需要看起来很积极,并且保持微笑。 如果头像用于新闻报道,则需要看起来比较专业。
- 即使使用电子提词器,也要保持眼睛盯着相机。
- 暂停说话时,将身体恢复到状态 0。
- 根据自己选择的主题说话,一些小的语音错误(例如漏词或发音错误)是可以接受的。 如果演员漏掉了一个词或念错了某内容,则只需返回状态 0,停顿 3 秒,然后继续说话。
- 有意识地在句子和段落之间停顿。 暂停时,返回状态 0 并闭上嘴唇。
- 音频应足够清晰且足够大;音频质量不佳会影响训练结果。
- 拍摄环境应保持安静。
- 不要调整相机参数、焦距、位置、视角。 不要移动相机;使人员的位置、大小、角度在相机中保持一致。
- 角色太小可能会导致后期处理过程中图像质量下降。 角色太大可能会导致做手势和动作时超出屏幕范围。
- 不要做太长或动作太多的手势;例如,演员的手总是在做手势,忘记回到状态 0。
- 演员的动作和手势不得挡住面部。
- 避免演员的小动作,如舔嘴唇、摸头发、侧身说话、说话时不断摇头、说完后不闭嘴等。
- 避免背景噪音;工作人员应避免在录像过程中走动和说话。
- 避免在演员说话期间录制到其他人的声音。

如何准备交互视频剪辑

如果要与自定义虚拟形象建立实时对话,则创建高质量的交互视频剪辑至关重要。 剪辑应包含问答格式,由摄影师提出问题,演员进行回答。 循环问答对,直到对话完成。 如果你独自拍摄,则想象别人在提问阶段提出问题。

下面是每个阶段的一些提示:

提问阶段

  • 保持状态 0,不要说话,但仍感到放松。
  • 即使保持状态 0,也请勿静止。 就像在等待一样。
  • 保持微笑,好像在倾听或耐心等待。
  • 避免频繁点头。
  • 长度:每个提问时段应持续大约 3–5 秒。

回答阶段

  • 自然说话,并不时地用自然的手势。
  • 说话时使用自然和常见的手势。 避免做出有意义的手势,如指点、鼓掌或竖起大拇指。
  • 开始说话后开始手势,并在完成之前停止手势。
  • 长度:每个回答时段应持续大约 5 秒。

视频总长度

  • 总视频长度应为 1–5 分钟。

数据要求

对视频数据进行一些基本处理有助于提高模型训练效率,例如:

  • 确保视频处理过程中角色位于屏幕中间,大小和位置一致。 亮度、对比度等各个视频处理参数保持不变,并且不会更改。 输出头像的大小、位置、亮度、对比度将直接反映训练数据中存在的值。 在处理或模型生成期间,我们不会应用任何更改。
  • 剪辑开始和结束时应保持状态 0;演员应该闭上嘴微笑,目视前方。 视频应该是连续的,而不是突兀的。

虚拟形象训练视频录制文件格式:.mp4 或 .mov。

分辨率:至少 1920x1080。

每秒帧速率:至少 25 FPS。