Что такое настраиваемый текст для аватара речи?
Настраиваемый текст для аватара речи позволяет создавать настраиваемый искусственный аватар для вашего приложения. С помощью пользовательского текста для аватара речи вы можете создать уникальный и естественный аватар для вашего продукта или бренда, предоставив данные записи видео выбранных субъектов. Если вы также создаете пользовательский нейронный голос для того же актера и используете его в качестве голоса аватара, аватар еще более реалистичный.
Внимание
Доступ к пользовательскому тексту для аватара речи ограничен на основе критериев соответствия и использования. Запросите доступ в форме приема.
Как это работает?
Для создания пользовательского текста для аватара требуется не менее 10 минут записи видео о таланте аватара в качестве обучающих данных, и необходимо сначала получить согласие от таланта актера.
Пользовательская модель аватара может поддерживать:
- Создание видео с помощью API пакетного синтеза.
- Динамический чат через API синтеза потоковой передачи.
Прежде чем приступить к работе, ниже приведены некоторые рекомендации.
Ваш вариант использования: будет ли вы использовать аватар для создания видеоматериалов, таких как учебный материал, введение в продукт или использование аватара в качестве виртуального продавца в режиме реального времени беседы с клиентами? Существуют некоторые требования к записи для различных вариантов использования.
Внешний вид аватара: настраиваемый текст для речи аватар выглядит так же, как и талант аватара в обучающих данных, и мы не поддерживаем настройку внешнего вида модели аватара, таких как одежда, прическа и т. д. Поэтому если приложению требуется несколько стилей одного аватара, следует подготовить обучающие данные для каждого стиля, так как каждый стиль аватара считается одной моделью аватара.
Голос аватара: настраиваемый текст для речи аватар может работать как с предварительно созданными нейронными голосами, так и с пользовательскими нейронными голосами. Создание пользовательского нейронного голоса для таланта аватара и его использование с аватаром значительно увеличивает естественность аватара.
Ниже приведен обзор действий по созданию пользовательского текста для аватара речи:
Получение видео согласия. Получение видеозаписи инструкции согласия. Заявление согласия — это видеозапись аватара таланта чтения инструкции, давая согласие на использование их изображений и голосовых данных для обучения пользовательского текста в модель аватара речи.
Подготовка обучающих данных. Убедитесь, что запись видео находится в правильном формате. Рекомендуется снимать запись видео в профессиональном видеосъемочной студии, чтобы получить чистое фоновое изображение. Качество полученного аватара сильно зависит от записанного видео, используемого для обучения. Факторы, такие как скорость речи, положение тела, выражение лица, жесты рук, согласованность в положении субъекта и освещение записи видео, необходимы для создания привлекательного пользовательского текста для аватара речи. Узнайте , как подготовить обучающие данные для получения дополнительных сведений.
Обучение модели аватара. После подготовки данных отправьте данные на пользовательский портал аватара и начните обучать модель. Проверка согласия проводится во время обучения. Прежде чем создать проект, убедитесь, что у вас есть доступ к пользовательскому тексту для аватара речи.
Разверните и используйте модель аватара в приложениях.
Последовательность компонентов
Пользовательская модель аватара для речи содержит три компонента: текстовый анализатор, текст для синтезатора речи и текст для отрисовщика видео аватара.
- Чтобы создать видеофайл аватара или потоковую передачу с помощью модели аватара, текст сначала вводится в текстовый анализатор, который предоставляет выходные данные в виде последовательности фонемы.
- Синтезатор звука синтезирует звук речи для входного текста, и эти две части предоставляются текстом для речи или пользовательских нейронных голосовых моделей.
- Наконец, нейронный текст для модели аватара речи прогнозирует изображение синхронизации губ с речевым звуком, чтобы искусственное видео было создано.
Нейронный текст для моделей аватара речи обучен с помощью глубоких нейронных сетей на основе примеров записей человеческих видео на разных языках. Поддерживаются все языки предварительно созданных голосов и пользовательских нейронных голосов.
Доступные расположения
Обучение пользовательского аватара доступно только в следующих регионах службы: Юго-Восточная Азия, Западная Европа и Западная часть США 2. Вы можете использовать пользовательскую модель аватара в следующих регионах службы: Юго-Восточная Азия, Северная Европа, Западная Европа, Центральная Швеция, Южная часть США, Восточная часть США 2 и Западная часть США 2.
Настраиваемый голос и настраиваемый текст для аватара речи
Пользовательский текст для аватара речи может работать с предварительно созданным нейронным голосом или пользовательским нейронным голосом в качестве голоса аватара. Дополнительные сведения см. в разделе "Голос аватара" и "Язык".
Настраиваемый нейронный голос и настраиваемый текст для аватара речи являются отдельными функциями. Их можно использовать независимо или вместе. Если вы решили использовать их вместе, необходимо применить для пользовательского нейронного голоса и пользовательского текста для аватара речи отдельно, и вы будете взиматься отдельно за настраиваемый нейронный голос и настраиваемый текст для аватара речи. Дополнительные сведения см. на странице цен. Кроме того, если вы планируете использовать пользовательский нейронный голос с текстом для аватара речи, необходимо развернуть или скопировать пользовательскую модель нейронного голоса в одну из поддерживаемых областей аватара.