Поделиться через


Что такое Speech Studio?

Speech Studio — это набор средств на основе пользовательского интерфейса для создания и интеграции функций из службы "Речь ИИ Azure" в приложениях. Вы создаете проекты в Speech Studio без использования кода, а затем даете ссылку на ресурсы в своих приложениях с помощью пакета SDK службы "Речь", CLI службы "Речь" или различных REST API.

Совет

Вы также можете попробовать речь в тексте и тексте на портале Azure AI Foundry без регистрации или написания кода.

Сценарии Speech Studio

Изучите, попробуйте и просмотрите пример кода для некоторых распространенных вариантов использования.

  • Заголовок. Выберите пример видеоклипа, чтобы просмотреть результаты субтитров в режиме реального времени или автономном режиме. Узнайте, как синхронизировать субтитры с входным звуком, применять фильтры ненормативной лексики, получать частичные результаты, применять настройки и определять языки для многоязычных сценариев. Дополнительные сведения см. в кратком руководстве по заголовкам.

  • Центр вызовов: просмотрите демонстрацию использования служб языка и речи для анализа бесед центра обработки вызовов. Транскрибирование вызовов в режиме реального времени или обработка пакета вызовов, редактирование личных сведений и извлечение аналитических сведений, таких как тональность, чтобы помочь в случае использования центра обработки вызовов. Дополнительные сведения см. в кратком руководстве по центру обработки вызовов.

Демонстрация этих сценариев в Speech Studio см. в этом вводном видео.

Возможности Speech Studio

Следующие функции службы "Речь" доступны в Speech Studio как типы проектов.

  • Речь в режиме реального времени: быстрая проверка речи на текст путем перетаскивания звуковых файлов здесь без использования кода. В Speech Studio есть демонстрационное средство для просмотра работы речи с текстом на ваших звуковых примерах. Сведения о полной функциональности см. в статье "Что такое речь в тексте".

  • Пакетная речь к тексту: быстрое тестирование возможностей пакетной транскрибирования для транскрибирования большого объема звука в хранилище и асинхронного получения результатов. Дополнительные сведения о пакетной речи в текст см. в разделе "Пакетная речь" в текстовом обзоре.

  • Настраиваемая речь: создание моделей распознавания речи, адаптированных к определенным наборам словарей и стилям речи. В отличие от базовой модели распознавания речи, пользовательские модели речи становятся частью уникальных конкурентных преимуществ, так как они недоступны для общественности. Чтобы приступить к отправке примера звука для создания пользовательской модели речи, см. статью "Отправка обучающих и тестовых наборов данных".

  • Оценка произношения позволяет оценить произношение и предоставляет говорящим отзывы о точности и беглости, продемонстрированных в записанном звуковом фрагменте. Speech Studio предоставляет песочницу для быстрого тестирования этой функции без использования кода. Сведения об использовании этой функции с пакетом SDK службы "Речь" в приложениях см. в статье Оценка произношения.

  • Перевод речи. Быстрое тестирование и перевод речи на другие языки с низкой задержкой. Дополнительные сведения о полной функциональности см. в статье "Что такое перевод речи".

  • Голосовая галерея: создавайте приложения и сервисы, которые говорят естественно. На выбор вам доступен широкий набор языков, голосов и вариантов. Воплотите свои сценарии в жизнь с помощью очень выразительных и человекоподобных нейронных голосов.

  • Пользовательский голос: создание пользовательских, однообразных голосов для речи. Вы предоставляете аудиофайлы и создаете соответствующие транскрипции в Speech Studio, после чего используете настраиваемые голоса в своих приложениях. Сведения о создании и использовании пользовательских голосов с помощью конечных точек см. в статье Создание и использование модели голоса.

  • Создание аудиоконтентного контента: подход без кода для синтеза речи. Вы можете использовать выходной звук как есть или в качестве отправной точки для дальнейшей настройки. Вы можете создавать очень естественное звуковое содержимое для различных сценариев, таких как аудиокниги, новостные трансляции, видеозаписи и боты чата. Дополнительные сведения см. в документации по созданию аудиоконтентов.

  • Пользовательские ключевые слова — это слово или короткая фраза, которую можно использовать для активации продукта голосом. Пользовательское ключевое слово создается в Speech Studio, после чего генерируется двоичный файл, чтобы вы могли использовать его с пакетом SDK службы "Речь" в своих приложениях.

Следующие шаги