Обзор аватара преобразования текста в речь

Статья
01/13/2025

Текст на аватар речи преобразует текст в цифровое видео фотореалистического человека (предварительно созданного аватара или пользовательского текста для речи аватара), выступающего с естественным звуком. Текст для речи аватар видео можно синтезировать асинхронно или в режиме реального времени. Разработчики могут создавать приложения, интегрированные с текстом в речь аватаром через API, или использовать средство создания содержимого в Speech Studio для создания видеоконтента без написания кода.

С текстом в речь расширенных моделей нейронной сети аватара функция позволяет пользователям предоставлять жизненные и высококачественные искусственные аватар видео для различных приложений, придерживаясь ответственной практики ИИ.

Совет

Чтобы преобразовать текст в речь без кода, попробуйте использовать средство аватара речи в Speech Studio.

Возможности аватара

К возможностям аватара речи относятся:

Преобразует текст в цифровое видео фотореалистического человека, выступающего с естественным звуком голосов, управляемых текстом искусственного интеллекта Azure в речь.
Предоставляет коллекцию предварительно созданных аватаров.
Голос аватара создается текстом искусственного интеллекта Azure для речи. Дополнительные сведения см. в разделе "Голос аватара" и "Язык".
Синтезирует текст в видео аватара асинхронно с помощью API пакетного синтеза или в режиме реального времени.
Предоставляет средство создания содержимого в Speech Studio для создания видеоконтента без написания кода.
Включает беседы аватара в режиме реального времени с помощью инструмента аватара чата в Speech Studio.

С помощью текста для речи расширенных моделей нейронной сети аватара функция позволяет вам доставлять жизненные и высококачественные искусственные видео с аватарами для различных приложений, придерживаясь ответственной практики ИИ.

Голос аватара и язык

Вы можете выбрать из диапазона предварительно созданных голосов для аватара. Поддержка языка для текста в речь аватара совпадает с поддержкой языка для речи. Дополнительные сведения см. в разделе "Язык" и "Голосовая поддержка" службы "Речь". Предварительно созданный текст для аватаров речи можно получить через портал Speech Studio или ЧЕРЕЗ API.

Голос в искусственном видео может быть предварительно созданным нейронным голосом, доступным в службе "Речь ИИ Azure" или пользовательским нейронным голосом таланта голоса, выбранного вами.

Выходные данные видео аватара

Как пакетный синтез, так и разрешение синтеза в режиме реального времени — 1920 x 1080, а кадры в секунду (FPS) — 25. Кодек пакетного синтеза может быть h264, hevc или av1, если формат имеет значение mp4 и может задать кодек как vp9 или av1, если формат имеет webmзначение ; vp9 только может содержать альфа-канал. Кодек синтеза в режиме реального времени — h264. Скорость видео может быть настроена как для пакетного синтеза, так и для синтеза в режиме реального времени в запросе; Значение по умолчанию — 2000000; Более подробные конфигурации можно найти в примере кода.

	Пакетный синтез	Синтез в режиме реального времени
Решение	1920 x 1080	1920 x 1080
FPS	25	25
Codec	h264/hevc/vp9/av1	h264

Настраиваемый текст для аватара речи

Вы можете создать пользовательский текст для аватаров речи, уникальных для вашего продукта или бренда. Все, что требуется для начала, занимает 10 минут видеозаписей. Если вы также создаете пользовательский нейронный голос для актера, аватар может быть очень реалистичным. Дополнительные сведения см. в разделе "Что такое пользовательский текст для аватара речи".

Настраиваемый нейронный голос и настраиваемый текст для аватара речи являются отдельными функциями. Их можно использовать независимо или вместе. Если вы планируете также использовать пользовательский нейронный голос с текстом для аватара речи, необходимо развернуть или скопировать пользовательскую нейронную голосовую модель в один из поддерживаемых регионов аватара.

Пример кода

Пример кода для текстового аватара для речи доступен на сайте GitHub. Эти примеры охватывают самые популярные сценарии:

Пакетный синтез (REST)
Синтез в режиме реального времени (SDK)
Live chat with Azure OpenAI in behind (SDK)
Чтобы создать приложение динамического чата с помощью Azure OpenAI On Your Data, вы можете обратиться к этому примеру кода (поиск "В ваших данных")

Цены

На протяжении сеанса реального времени аватара или пакетного содержимого плата взимается отдельно.
Ознакомьтесь с текстом с заметкой о ценах на аватар речи, чтобы узнать, как работает выставление счетов за функцию аватара текста в речь.
Подробные цены см. в разделе "Цены на службу "Речь". Обратите внимание, что цены на аватар будут отображаться только для регионов службы, где эта функция доступна, включая юго-восточную Азию, Северную Европу, Западную Европу, Центральную Швецию, южную часть США, восточную часть США 2 и западную часть США 2.

Доступные расположения

Функция аватара речи доступна только в следующих регионах службы: Юго-Восточная Азия, Северная Европа, Западная Европа, Центральная Швеция, Южная часть США, Восточная часть США 2 и западная часть США 2.

Ответственное применение ИИ

Мы заботимся о людях, которые используют ИИ и людей, которые будут затронуты им столько, сколько мы заботимся о технологии. Дополнительные сведения см. в заметках о прозрачности ответственного искусственного интеллекта и раскрытии информации о таланте голоса и аватара.

Поделиться через