Выбор технологии распознавания речи и создания речи в Azure AI
Службы искусственного интеллекта Azure помогают разработчикам и разработчикам создавать интеллектуальные, передовые, готовые к рынкам и ответственные приложения с готовыми и предварительно созданными и настраиваемыми API и моделями.
В этой статье рассматриваются службы ИИ Azure, которые предлагают возможности распознавания речи и создания, такие как преобразование речи в текст и текст в речь, перевод звука, распознавание говорящего, а также поддержка чтения для людей с различиями в обучении.
Примечание.
Чтобы собрать аналитические сведения о терминах или фразах или получить подробный контекстный анализ устного или письменного языка, см. статью "Выбор технологии обработки целевого языка для искусственного интеллекта Azure".
Службы
Следующие службы ИИ Azure могут предоставлять возможности распознавания речи и создания для рабочей нагрузки.
Распознавание речи искусственного интеллекта Azure обеспечивает обработку естественного языка для анализа текста.
- Используйте службу "Речь", когда необходимо транскрибировать или переводить речь, определять говорящего в беседе. Вы также можете использовать службу в качестве альтернативы более низкой стоимости для естественного создания речи звука для более высокого качества Whisper в моделях OpenAI.
- Не используйте службу "Речь" для чата, суммирования контента, модерации или руководства пользователей с помощью сценариев. Используйте другие модели для этих вещей.
Иммерсивное средство чтения — это инструмент, реализующий проверенные методы для улучшения понимания чтения для новых читателей, учащихся языка и людей с различиями в обучении.
- Используйте Иммерсивное средство чтения, чтобы обеспечить улучшенную удобочитаемость, адаптированную для учащихся языка или людей с различиями в обучении.
- Не используйте Иммерсивное средство чтения для традиционных вариантов использования речи.
Речь ИИ Azure
Служба "Речь " Azure AI предоставляет речь для текста и текста в речевые возможности с помощью ресурса "Речь". Вы можете транскрибировать речь в текст с высокой точностью, создавать естественный звук текста для голосов, переводить речевой звук и использовать распознавание говорящего во время бесед. Создавайте настраиваемые голоса, добавляйте определенные слова в базовый словарь или разрабатывайте собственные модели. Запускайте службу "Речь" где угодно — в облаке или в контейнерах на периферии.
Речь доступна для многих языков и регионов.
Возможности
В следующей таблице приведен список возможностей, доступных в службе "Речь" в Azure AI.
Возможность | Description |
---|---|
Пакетное транскрибирование | Транскрибирование большого количества звуковых данных в хранилище. Интерфейс командной строки службы "Речь в текст" и "Речь" поддерживают пакетное транскрибирование. |
Распознавание намерений говорящего | Намерение — это действие, которое хочет выполнить пользователь, например забронировать билет на самолет, проверить прогноз погоды или совершить звонок. С помощью распознавания намерений приложения, инструменты и устройства могут определить, что пользователь хочет инициировать или делать на основе параметров. Вы определяете намерение пользователя в модели распознавателя намерений или распознавания бесед (CLU). |
Оценка произношения | Оценивает произношение речи и дает динамикам отзывы о точности и свободности речевых звуков. |
Распознавание говорящего | Распознавание говорящего помогает определить, кто говорит в аудиоклипе. Эта служба может проверять и идентифицировать говорящих по их уникальным голосовым характеристикам с использованием голосовой биометрии. |
Преобразование речи в текст | Преобразует аудиопотоки в текст в режиме реального времени или в пакете. |
Преобразование текста в речь | Позволяет приложениям, средствам или устройствам преобразовывать текст в синтезированную речь человека. |
Перевод речи | Предоставляет многоязычное преобразование речи в речь и преобразование речи в текст аудиопотоков. |
Видеотрансляции | Перевод и создание видео на нескольких языках автоматически. |
Случаи использования
В следующей таблице описаны некоторые способы использования службы "Речь ИИ Azure".
Вариант использования | Возможность использования | Description |
---|---|---|
Создание звукового содержимого | Преобразование речи в текст | Вы можете использовать нейронные голоса для взаимодействия с чат-ботами и голосовыми помощниками более естественными и привлекательными, преобразовывать цифровые тексты, такие как электронные книги в аудиокниги и улучшать системы навигации в автомобилях. |
Транскрибирование центра вызовов | Преобразование речи в текст | Транскрибирование вызовов в режиме реального времени или обработка пакета вызовов, редактирование личных сведений и извлечение аналитических сведений, таких как тональность, чтобы помочь в случае использования центра обработки вызовов. |
Титры | Преобразование речи в текст | Синхронизируйте субтитры с входным звуком, применяйте фильтры ненормативной лексики, получайте частичные результаты, применяйте настройки и идентифицируйте языки для многоязычных сценариев. |
Обучение на языке | Преобразование речи в текст | Предоставление отзывов об оценке произношения для учащихся языка, поддержка транскрибирования в режиме реального времени для бесед удаленного обучения и чтение вслух учебных материалов с нейронными голосами. |
Голосовые помощники | Преобразование текста в речь | Создайте естественные, такие как диалоговые интерфейсы для своих приложений и возможностей. Функция голосового помощника обеспечивает быстрое и надежное взаимодействие между устройством и реализацией помощника. |
Иммерсивное средство чтения
Иммерсивное средство чтения, часть служб ИИ Azure, — это инклюзивно разработанный инструмент, который реализует проверенные методы для улучшения понимания чтения для новых читателей, учащихся языка и людей с различиями в обучении, такими как дислексия. С помощью клиентской библиотеки Иммерсивное средство чтения можно использовать ту же технологию, используемую в Microsoft Word и Microsoft OneNote, чтобы обеспечить отличный интерфейс для пользователей рабочей нагрузки.
Возможности
Ниже приведен список возможностей рабочей нагрузки, которые помогут пользователям достичь целей чтения.
- Изоляция содержимого для улучшения удобочитаемости
- Отображение рисунков для распространенных слов и терминов
- Помогите понять части речи и грамматики путем выделения глаголов, существительных, существительных и т. д.
- Чтение содержимого вслух, например выделенный пользователем текст в пользовательском интерфейсе рабочей нагрузки
- Перевод содержимого на многие языки в режиме реального времени, что помогает улучшить понимание для читателей, изучающих новый язык.
- Разбить слова на слоги, чтобы улучшить удобочитаемость или вызвучить новые слова
Следующие шаги
- Что такое служба "Речь"?
- Схема обучения. Разработка решений для обработки естественного языка с помощью служб ИИ Azure