Что такое голоса высокого определения? (Предварительная версия)
Примечание.
Эта функция сейчас доступна в виде общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.
Речь искусственного интеллекта Azure продолжает продвигаться в области текста в речь с введением нейронного текста в голос с высоким определением речи (HD). Голоса HD могут понять содержимое, автоматически обнаруживать эмоции в входном тексте и настраивать тон речи в режиме реального времени, чтобы соответствовать тону. Голоса HD поддерживают согласованную голосовую персону из своих нейронных (и не HD) коллег и обеспечивают еще большее значение благодаря расширенным функциям.
Ключевые функции нейронного текста для речевых голосов HD
Ниже приведены ключевые функции голосов Azure AI Speech HD:
Ключевые функции | Description |
---|---|
Создание речи, подобной человеку | Нейронный текст для речи голоса HD может создавать очень естественные и человеческие речи. Модель обучена на миллионах часов многоязычных данных, что позволяет точно интерпретировать входной текст и создавать речь с соответствующими эмоциями, темпом и ритмом без ручной корректировки. |
Разговорный | Нейронный текст для голоса HD может реплицировать естественные шаблоны речи, включая спонтанные паузы и акцент. При указании текста беседы модель может воспроизводить распространенные фонемы, такие как паузы и слова заливки. Созданный голос звучит, как если бы кто-то говорил с вами напрямую. |
Варианты prosody | Нейронный текст для речи голоса HD вводит небольшие вариации в каждом выходе, чтобы повысить реалистичность. Эти вариации делают речь более естественным, так как человеческие голоса естественно демонстрируют вариации. |
Высокая точность | Основная цель нейронного текста для речевых голосов HD заключается в создании звука с высокой точностью. Искусственные речи, созданные нашей системой, могут тесно имитировать речь человека как в качестве, так и в естественности. |
Управление версиями | С нейронным текстом для речевых голосов HD мы выпускаем разные версии одного и того же голоса, каждый из которых имеет уникальный размер базовой модели и рецепт. Это позволяет вам испытать новые варианты голоса или продолжить использование определенной версии голоса. |
Сравнение голосовых функций Azure AI Speech HD с другими текстами Azure и голосовой связью с речью
Как сравните голосовые функции Azure AI Speech HD с другими текстами Azure и голосовой речью Azure? Как они отличаются с точки зрения функций и возможностей?
Ниже приведено сравнение функций голосов Azure AI Speech HD, голосов Azure OpenAI HD и голосов службы "Речь ИИ Azure":
Функция | Голос HD службы "Речь ИИ Azure" | Голосовая связь Azure OpenAI HD | Голосовая связь с речью искусственного интеллекта Azure (а не HD) |
---|---|---|---|
Регион | Восточная часть США, Юго-Восточная Азия, Западная Европа | Центрально-северная часть США, Центральная Швеция | Доступно в десятках регионов. См. список регионов. |
Количество голосов | 12 | 6 | Более 500 |
Многоязычный | Нет (только для основного языка) | Да | Да (применимо только к многоязычным голосам) |
Поддержка SSML | Поддержка подмножества элементов SSML. | Поддержка подмножества элементов SSML. | Поддержка полного набора SSML в службе "Речь ИИ Azure". |
Варианты разработки | Пакет SDK службы "Речь", интерфейс командной строки службы "Речь", REST API | Пакет SDK службы "Речь", интерфейс командной строки службы "Речь", REST API | Пакет SDK службы "Речь", интерфейс командной строки службы "Речь", REST API |
Варианты развертывания | Учетные записи | Учетные записи | Облачные, внедренные, гибридные и контейнеры. |
Синтез в режиме реального времени или пакетной обработки | Только в режиме реального времени | Синтез в режиме реального времени и пакетной обработки | Синтез в режиме реального времени и пакетной обработки |
Задержка | Менее 300 мс | Больше 500 мс | Менее 300 мс |
Частота выборки синтезированного звука | 8, 16, 24 и 48 кГц | 8, 16, 24 и 48 кГц | 8, 16, 24 и 48 кГц |
Формат звука вывода речи | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk |
Поддерживаемые голоса HD службы "Речь ИИ Azure"
Значения голосовой связи Azure AI HD в формате voicename:basemodel:version
. Имя перед двоеточием, например en-US-Ava
имя голосовой персоны, и его исходный языковой стандарт. Базовая модель отслеживается версиями в последующих обновлениях.
DragonHD
В настоящее время является единственной базовой моделью, доступной для голосовых функций распознавания речи ИИ Azure. Чтобы убедиться, что вы используете последнюю версию базовой модели, которую мы предоставляем, не изменяя код, используйте версию LatestNeural
.
Например, для персоны en-US-Ava
можно указать следующие значения голоса HD:
en-US-Ava:DragonHDLatestNeural
: всегда использует последнюю версию базовой модели, которую мы предоставляем позже.
В следующей таблице перечислены голосовые функции Azure AI Speech HD, доступные в настоящее время.
Нейронная голосовая персона | Голоса HD |
---|---|
de-DE-Seraphina | de-DE-Seraphina:DragonHDLatestNeural |
en-US-Andrew | en-US-Andrew:DragonHDLatestNeural |
en-US-Andrew2 | en-US-Andrew2:DragonHDLatestNeural |
en-US-Aria | en-US-Aria:DragonHDLatestNeural |
en-US-Ava | en-US-Ava:DragonHDLatestNeural |
en-US-Brian | en-US-Brian:DragonHDLatestNeural |
en-US-Davis | en-US-Дэвис:DragonHDLatestNeural |
en-US-Emma | en-US-Emma:DragonHDLatestNeural |
en-US-Emma2 | en-US-Emma2:DragonHDLatestNeural |
en-US-Jenny | en-US-Jenny:DragonHDLatestNeural |
en-US-Steffan | en-US-Steffan:DragonHDLatestNeural |
ja-JP-Masaru | ja-JP-Masaru:DragonHDLatestNeural |
zh-CN-Xiaochen | zh-CN-Xiaochen:DragonHDLatestNeural |
Использование голосовых функций Azure AI Speech HD
Вы можете использовать голоса HD с теми же пакетами SDK службы "Речь" и REST API, что и голосовые интерфейсы, отличные от HD.
Ниже приведены некоторые ключевые моменты, которые следует учитывать при использовании голосовых функций Azure AI Speech HD:
- Языковой стандарт голосовой связи: языковой стандарт в имени голоса указывает его исходный язык и регион.
- Базовые модели:
- Голоса HD приходят с базовой моделью, которая понимает входной текст и прогнозирует шаблон речи соответствующим образом. Вы можете указать нужную модель (например, DragonHDLatestNeural) в соответствии с доступностью каждого голоса.
- Использование SSML: чтобы ссылаться на голос в SSML, используйте формат
voicename:basemodel:version
. Имя перед двоеточием, напримерde-DE-Seraphina
имя голосовой персоны, и его исходный языковой стандарт. Базовая модель отслеживается версиями в последующих обновлениях. - Параметр температуры:
- Значение температуры — это плавающее значение от 0 до 1, влияющее на случайность выходных данных. Можно также настроить параметр температуры для управления вариантом выходных данных. Меньше случайности дает более стабильные результаты, в то время как более случайность предлагает разнообразие, но меньше согласованности.
- Низкая температура приводит к снижению случайности, что приводит к более прогнозируемым выходным данным. Более высокая температура увеличивает случайность, что позволяет получить более разнообразные выходные данные. Температура по умолчанию устанавливается в 1,0.
Ниже приведен пример использования голосовых функций Azure AI Speech HD в SSML:
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>
Поддерживаемые и неподдерживаемые элементы SSML для голосовых элементов Azure AI Speech HD
Язык разметки синтеза речи (SSML) с входным текстом определяет структуру, содержимое и другие характеристики текста для вывода речи. Например, можно использовать SSML для определения абзаца, предложения, перерыва или паузы или молчания. Текст можно упаковать с помощью тегов событий, таких как закладка или viseme, которые приложение обрабатывает позже.
Голоса HD службы "Речь ИИ Azure" не поддерживают все элементы SSML или события, которые поддерживают другие голосовые функции службы "Речь ИИ Azure". В частности, голосовые элементы Azure AI Speech HD не поддерживают события границ слов.
Подробные сведения о поддерживаемых и неподдерживаемых элементах SSML для голосовых элементов Azure AI Speech HD см. в следующей таблице. Инструкции по использованию элементов SSML см. в документации по языку разметки синтеза речи (SSML).
Элемент SSML | Description | Поддерживается в голосах HD службы "Речь" в Azure AI |
---|---|---|
<voice> |
Указывает голос и необязательные эффекты (eq_car и eq_telecomhp8k ). |
Да |
<mstts:express-as> |
Задает стили и роли речи. | No |
<mstts:ttsembedding> |
Указывает speakerProfileId свойство для личного голоса. |
No |
<lang xml:lang> |
Задает язык речи. | Да |
<prosody> |
Настраивает шаг, контур, диапазон, скорость и объем. | No |
<emphasis> |
Добавляет или удаляет стресс на уровне слова для текста. | No |
<audio> |
Внедряет предварительно подготовленный звук в документ SSML. | No |
<mstts:audioduration> |
Указывает длительность выходного звука. | No |
<mstts:backgroundaudio> |
Добавляет фоновый звук в документы SSML или смешивает звуковой файл с текстом для речи. | No |
<phoneme> |
Указывает фонетическое произношение в документах SSML. | No |
<lexicon> |
Определяет, как считываются несколько сущностей в SSML. | Да (только поддерживает псевдоним) |
<say-as> |
Указывает тип контента, например число или дату текста элемента. | Да |
<sub> |
Указывает, что текстовое значение атрибута псевдонима должно быть произнесено вместо заключенного текста элемента. | Да |
<math> |
Использует MathML в качестве входного текста для правильного произношения математических нотации в выходном звуке. | No |
<bookmark> |
Получает смещение каждого маркера в звуковом потоке. | No |
<break> |
Переопределяет поведение разрывов или пауз по умолчанию между словами. | No |
<mstts:silence> |
Вставляет паузу до или после текста или между двумя смежными предложениями. | No |
<mstts:viseme> |
Определяет положение лица и рта во время выступления человека. | No |
<p> |
Обозначает абзацы в документах SSML. | Да |
<s> |
Обозначает предложения в документах SSML. | Да |
Примечание.
Хотя предыдущий раздел в этом руководстве также сравнивал голоса Azure AI Speech HD с голосами Azure OpenAI HD, элементы SSML, поддерживаемые службой "Речь ИИ Azure", не применимы к голосам Azure OpenAI.