Что такое личный голос для речи?

Статья
09/20/2024

С помощью личного голоса вы можете разрешить пользователям получать ими созданную репликацию собственных голосов в течение нескольких секунд. С помощью словесной инструкции и краткого примера речи в качестве звукового запроса вы можете создать личный голос для пользователей и разрешить им создавать речь на любом из более чем 90 языков, поддерживаемых более чем на 100 языковых стандартах.

Примечание.

Личный голос доступен в этих регионах: Западная Европа, Восточная ЧАСТЬ США, Западная часть США 2, Юго-Восточная Азия и Восточная Азия. Поддерживаемые языковые стандарты см. в разделе поддержки личных голосовых языков.

В следующей таблице представлена разница между личным голосом и профессиональным пользовательским нейронным голосом.

Сравнение	Личный голос	Профессиональный голос
Целевые сценарии	Бизнес-клиенты, чтобы создать приложение, чтобы разрешить пользователям создавать и использовать собственный личный голос в приложении.	Профессиональные сценарии, такие как озвучивание брендов и персонажей для чат-ботов или чтение аудиосодержимого.
Случаи использования	Ограничено ограниченными вариантами использования. См. примечание о прозрачности. Утвержденные клиенты должны иметь план поддержки более 1000 персональных голосов.	Ограничено ограниченными вариантами использования. См. примечание о прозрачности.
Данные обучения	Убедитесь, что вы следуйте кодексу поведения.	Предоставление своих данных. Рекомендуется запись в профессиональной студии.
Требуемый размер данных	Одна минута человеческой речи.	300-2000 речевых фрагментов (около 30 минут до 3 часов человеческой речи).
Время обучения	Менее 5 секунд	Приблизительно 20–40 часов вычислений.
Качество голоса	Natural	Высокопривычное
Поддержка разных языков	Да. Голос может говорить о 100 языках с включенным автоматическим обнаружением языка.	Да. Чтобы обучить модель, выступающую на другом языке, необходимо выбрать функцию "Нейронная — перекрестная" для обучения модели, которая говорит на другом языке.
Availability	Демонстрация в Speech Studio доступна при регистрации. Доступ к API ограничен соответствующими клиентами и утвержденными вариантами использования. Запрос доступа через форму приема.	После утверждения доступа можно обучить и развернуть модель CNV Pro. Доступ к применению CNV Pro ограничен в соответствии с критериями приемлемости и использования. Запрос доступа через форму приема.
Цены	Проверьте сведения о ценах здесь¹.	Ознакомьтесь данными на странице цен.
Требования к ответственному ИИ	Требуется словесное заявление говорящего. Нет разрешенного варианта использования.	Требуется словесное заявление говорящего. Нет разрешенного варианта использования.

¹ Обратите внимание, что цены на личную голосовую связь будут отображаться только для регионов службы, где эта функция доступна, включая Западную Европу, Восточную Часть США, Западную часть США 2, Юго-Восточную Азию и Восточную Азию.

Пробное использование демоверсии

Если у вас есть ресурс S0, вы можете получить доступ к демонстрации личного голоса в Speech Studio. Чтобы использовать личный API голосовой связи, вы можете подать заявку на доступ здесь.

Перейти в Speech Studio
Выберите личную голосовую карточку.
Вы можете записать собственный голос и попробовать примеры выходных данных голоса на разных языках. Демонстрация включает подмножество языков, поддерживаемых личным голосом.

Создание личного голоса

Чтобы приступить к работе, вот сводка действий по созданию личного голоса:

Создайте проект.
Отправьте файл согласия. При использовании личной функции голосовой связи требуется, чтобы каждый голос был создан с явным согласием от пользователя. Записанная инструкция от пользователя требует подтверждения того, что клиент (владелец ресурса службы "Речь ИИ Azure") создаст и будет использовать свой голос.
Получите идентификатор профиля говорящего для личного голоса. Вы получаете идентификатор профиля говорящего на основе словесного согласия докладчика и звукового запроса. Характеристики голоса пользователя кодируются в speakerProfileId свойстве, используемом для преобразования текста в речь.

После того как у вас есть личный голос, вы можете использовать его для синтеза речи на любом из 91 языков, поддерживаемых в 100+ языковых стандартах. Не требуется тег языкового стандарта. Личный голос использует автоматическое обнаружение языка на уровне предложения. Дополнительные сведения см. в статье об использовании личного голоса в приложении.

Совет

Ознакомьтесь с примерами кода в репозитории пакета SDK службы "Речь" на GitHub , чтобы узнать, как использовать личный голос в приложении.

Справочная документация

Справочная документация по ПОЛЬЗОВАТЕЛЬСКОму REST API голосовой связи

Ответственное применение ИИ

Мы заботимся о людях, которые используют ИИ и людей, которые будут затронуты им столько, сколько мы заботимся о технологии. Дополнительные сведения см. в заметках о прозрачности ответственного искусственного интеллекта.

Следующие шаги

Создайте проект.
Дополнительные сведения о пользовательском нейронном голосе см. в обзоре.
Дополнительные сведения о Speech Studio см. в обзоре.

Поделиться через