你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

文本转语音虚拟形象概述

项目
01/13/2025

文本转语音虚拟形象将文本转换为拟真人物（预构建的虚拟形象或自定义文本到语音虚拟形象）以自然声音说话的数字视频。文本转语音虚拟形象视频可以异步合成或实时合成。开发人员可以通过 API 生成与文本转语音虚拟形象集成的应用程序，或使用 Speech Studio 上的内容创建工具创建视频内容，而无需编码。

借助文本转语音虚拟形象的高级神经网络模型，该功能可支持用户为各种应用程序提供逼真、高质量、会说话的虚拟形象合成视频，同时遵守负责任 AI 做法。

提示

若要使用无代码方法将文本转换为语音，请尝试 Speech Studio 中的文本转语音虚拟形象工具。

虚拟形象功能

文本转语音虚拟形象功能包括：

将文本转换为拟真人物使用由 Azure AI 文本转语音功能提供支持的自然声音说话的数字视频。
提供预生成虚拟形象的集合。
虚拟形象的声音由 Azure AI 文本转语音功能生成。有关详细信息，请参阅虚拟形象声音和语言。
使用批量合成 API 以异步方式或实时地合成文本转语音虚拟形象视频。
在 Speech Studio 中提供内容创建工具，以便在不编码的情况下创建视频内容。
通过 Speech Studio 中的实时聊天虚拟形象工具，实现实时虚拟形象对话。

借助文本转语音虚拟形象的高级神经网络模型，该功能使你能够为各种应用程序提供逼真、高质量、会说话的虚拟形象合成视频，同时遵守负责任 AI 实践。

虚拟形象声音和语言

可以从虚拟形象的一系列预生成声音中进行选择。文本转语音虚拟形象的语言支持与文本转语音的语言支持相同。有关详细信息，请参阅语音服务的语言和声音支持。可以通过 Speech Studio 门户或 API 访问预生成的文本转语音虚拟形象。

合成视频中的声音可以是 Azure AI 语音上提供的预生成神经网络声音，也可以是你选择的发音人的自定义神经网络声音。

虚拟形象视频输出

批量合成和实时合成分辨率均为 1920 x 1080，每秒帧数 (FPS) 为 25。如果格式为 mp4，则批量合成编解码器可以是 h264、hevc 或 av1；如果格式为 webm，则可以将编解码器设置为 vp9 或 av1；只有 vp9 可以包含 alpha 通道。实时合成编解码器为 h264。可以为请求中的批量合成和实时合成配置视频比特率；默认值为 2000000；可以在示例代码中找到更详细的配置。

	批处理合成	实时合成
解决方案	1920 x 1080	1920 x 1080
FPS	25	25
Codec	h264/hevc/vp9/av1	h264

自定义文本转语音虚拟形象

可以创建自己的产品或品牌独有的自定义文本转语音虚拟形象。开始只需要录制 10 分钟的视频。如果还正在为参与者创建自定义神经网络声音，则虚拟形象可能非常逼真。有关详细信息，请参阅什么是自定义文本转语音虚拟形象。

自定义神经网络声音和自定义文本转语音虚拟形象是单独的功能。可以独立使用它们，也可以一起使用。如果还计划将自定义神经网络声音与文本转语音虚拟形象搭配使用，则需要将自定义神经网络声音模型部署或复制到其中一个虚拟形象支持的区域。

代码示例

GitHub 上提供了文本转语音虚拟形象的示例代码。这些示例涵盖了最常用的方案：

批量合成 (REST)
实时合成 (SDK)
在后台使用 Azure OpenAI 进行实时聊天 (SDK)
要使用 Azure OpenAI On Your Data 创建实时聊天应用，可以参考此示例代码（搜索“On Your Data”）

定价

在整个虚拟形象实时会话或批内容创建过程中，文本转语音、语音转文本、Azure OpenAI 或其他 Azure 服务都是单独收费的。
请参阅文本语音转换虚拟形象定价说明文本，了解如何对文本转语音头像功能计费。
有关详细定价，请参阅语音服务定价。请注意，虚拟形象定价将仅在提供该功能的服务区域中可见，包括东南亚、北欧、西欧、瑞典中部、美国中南部、美国东部 2 和美国西部 2。

可用位置

文本转语音虚拟形象功能仅适用于以下服务区域：东南亚、北欧、西欧、瑞典中部、美国中南部、美国东部 2 和美国西部 2。

负责任 AI

我们关心使用 AI 的人以及将受其影响的人，就像我们关心技术一样。有关详细信息，请参阅负责任 AI 透明度说明和语音和虚拟形象人才披露。

通过