Что такое пользовательский нейронный голос?
Пользовательский нейронный голос (CNV) — это функция речи, которая позволяет создавать однообразный, настраиваемый искусственный голос для ваших приложений. С помощью пользовательского нейронного голоса вы можете создать очень естественный звук для вашего бренда или символов, предоставив человеческие образцы речи в качестве обучающих данных.
Внимание
Настраиваемый нейронный доступ к голосовой связи ограничен на основе критериев соответствия и использования. Запросите доступ в форме приема.
Доступ к пользовательской нейронной голосовой связи (CNV) Lite доступен для всех, кто будет демонстрации и оценки CNV, прежде чем инвестировать в профессиональные записи, чтобы создать более качественный голос.
Из поля текст для речи можно использовать с предварительно созданными нейронными голосами для каждого поддерживаемого языка. Предварительно созданные нейронные голоса хорошо работают в большинстве сценариев речи, если уникальный голос не требуется.
Пользовательский нейронный голос основан на нейронном тексте в технологии речи и многоязычной, многофакторной, универсальной модели. Вы можете создавать искусственные голоса, богатые стилями речи, или адаптируемые кросс-языки. Реалистичный и естественный звук пользовательского нейронного голоса может представлять бренды, персонифицировать компьютеры и разрешать пользователям взаимодействовать с приложениями беседы. Поддерживаемые языки для Пользовательского нейронного голоса см. здесь.
Как это работает?
Чтобы создать пользовательский нейронный голос, загрузите записанные фрагменты речи с соответствующими скриптами с помощью Speech Studio, выполните обучение модели и развертывание полученного голоса в пользовательской конечной точке.
Совет
Попробуйте использовать Пользовательский нейронный голос (CNV) Lite для демонстрации и оценки CNV, прежде чем инвестировать в профессиональные записи, чтобы создать более качественный голос.
Создание эффектного пользовательского нейронного голоса требует тщательного контроля качества на каждом этапе, от проектирования голоса и подготовки данных до развертывания модели голоса в системе.
Прежде чем приступить к работе в Speech Studio, ознакомьтесь с некоторыми рекомендациями.
- Проектирование лица голоса, представляющего ваш бренд с помощью краткого документа persona. В этом документе определяются такие элементы, как характеристики голоса и образ, с которым связан голос. Это поможет направлять процесс создания модели пользовательского нейронного голоса, включая определение сценариев, выбор актера озвучивания, обучение и настройку голоса.
- Выберите сценарий записи, чтобы представить пользовательские сценарии для голоса. К примеру, при создании бота для обслуживания клиентов можно использовать фразы из разговоров с ботами в качестве сценария записи. Включите в свои сценарии различные типы предложений, включая утверждения, вопросы и восклицания.
Ниже приведен обзор действий по созданию пользовательского нейронного голоса в Speech Studio:
- Создайте проект для хранения данных, голосовых моделей, тестов и конечных точек. Каждый проект зависит от страны или региона и языка. Если вы собираетесь создать несколько голосов, рекомендуется создать проект для каждого голоса.
- Настройте талант голоса. Прежде чем вы сможете обучить нейронный голос, необходимо отправить запись заявления о согласии таланта голоса. Заявление о таланте голоса — это запись голосового таланта, прочитав заявление, которое они дают согласие на использование данных речи для обучения пользовательской голосовой модели.
- Подготовьте обучающие данные в правильном формате. Рекомендуется записывать аудио в профессиональной студии звукозаписи, чтобы обеспечить оптимальное соотношение “сигнал/шум”. Качество модели голоса во многом зависит от ваших обучающих данных. Требуются постоянная громкость, скорость речи, высота тона и последовательность в выразительных манерах речи.
- Обучение голосовой модели. Для создания пользовательского нейронного голоса требуется не менее 300 речевых фрагментов. При загрузке автоматически выполняется серия проверок качества данных. Чтобы создать высококачественные модели голоса, следует исправить ошибки и отправить данные еще раз.
- Проверьте голос. Подготовьте тестовые сценарии для своей модели голоса, которые охватывают различные варианты использования ваших приложений. Рекомендуется использовать скрипты, входящие и не входящие в набор обучающих данных, чтобы провести более широкую проверку качества для различного содержимого.
- Развертывание и использование голосовой модели в приложениях.
Вы можете настроить, настроить и использовать пользовательский голос, аналогично использованию предварительно созданного нейронного голоса. Преобразуйте текст в речь в режиме реального времени или создайте звуковое содержимое в автономном режиме с помощью ввода текста. Вы используете REST API, пакет SDK службы "Речь" или "Речь".
Совет
Ознакомьтесь с примерами кода в репозитории пакета SDK службы "Речь" на GitHub , чтобы узнать, как использовать настраиваемый нейронный голос в приложении.
Стиль и характеристики модели обученного голоса зависят от стиля и качества записей голосового таланта, используемого для обучения. Тем не менее, можно внести некоторые корректировки с помощью SSML (языка разметки синтеза речи) при выполнении вызовов API к модели голоса для генерации синтетической речи. SSML — это язык разметки, используемый для обмена данными с текстом в службу распознавания речи для преобразования текста в звук. Корректировки включают изменение высоты звука, скорости, интонации и коррекцию произношения. Если модель голоса построена с использованием нескольких стилей, SSML также можно использовать для переключения стилей.
Последовательность компонентов
Пользовательский нейронный голос состоит из трех основных компонентов: текстового анализатора, нейронной акустической модели и нейронного vocoder. Чтобы преобразовать текст в естественно звучащую искусственную речь, его сначала вводят в анализатор текста, который предоставляет выходные данные в виде последовательности фонем. Фонема — это базовая единица звукового строя языка, которая служит для различения слов на определенном языке. Последовательность фонем определяет произношение слов в тексте.
После этого последовательность фонем передается в нейронную акустическую модель для прогнозирования характеристик звучания, которые определяют речевые сигналы. Акустические характеристики включают тембр, стиль и скорость речи, интонации и систему ударений. На заключительном этапе нейронный вокодер преобразует характеристики звучания в звуковые волны, создавая искусственный голос.
Нейронный текст для голосовых моделей обучен с помощью глубоких нейронных сетей на основе образцов записей человеческих голосов. Дополнительные сведения см. в этой записи блога Microsoft. Подробнее об обучении нейронного вокодера см. в этой записи блога Microsoft.
Ответственное применение ИИ
Система ИИ включает не только технологию, но и людей, которые используют ее, людей, пострадавших от нее, и среды, в которой она развернута. Ознакомьтесь с заметками о прозрачности, чтобы узнать об использовании и развертывании ответственного искусственного интеллекта в системах.
- Примечание о прозрачности и варианты использования пользовательского нейронного голоса
- Характеристики и ограничения использования пользовательского нейронного голоса
- Ограниченный доступ к пользовательскому нейронной голосовой связи
- Рекомендации по ответственному развертыванию искусственной голосовой технологии
- Раскрытие информации о таланте голоса
- Рекомендации по проектированию раскрытия информации
- Шаблоны проектирования раскрытия информации
- Кодекс поведения для интеграции речи с текстом
- Данные, конфиденциальность и безопасность для пользовательского нейронного голоса