Что такое Speech Studio?
Speech Studio — это набор средств на основе пользовательского интерфейса для создания и интеграции функций из службы "Речь ИИ Azure" в приложениях. Вы создаете проекты в Speech Studio без использования кода, а затем даете ссылку на ресурсы в своих приложениях с помощью пакета SDK службы "Речь", CLI службы "Речь" или различных REST API.
Совет
Вы также можете попробовать речь в тексте и тексте на портале Azure AI Foundry без регистрации или написания кода.
Сценарии Speech Studio
Изучите, попробуйте и просмотрите пример кода для некоторых распространенных вариантов использования.
Заголовок. Выберите пример видеоклипа, чтобы просмотреть результаты субтитров в режиме реального времени или автономном режиме. Узнайте, как синхронизировать субтитры с входным звуком, применять фильтры ненормативной лексики, получать частичные результаты, применять настройки и определять языки для многоязычных сценариев. Дополнительные сведения см. в кратком руководстве по заголовкам.
Центр вызовов: просмотрите демонстрацию использования служб языка и речи для анализа бесед центра обработки вызовов. Транскрибирование вызовов в режиме реального времени или обработка пакета вызовов, редактирование личных сведений и извлечение аналитических сведений, таких как тональность, чтобы помочь в случае использования центра обработки вызовов. Дополнительные сведения см. в кратком руководстве по центру обработки вызовов.
Демонстрация этих сценариев в Speech Studio см. в этом вводном видео.
Возможности Speech Studio
Следующие функции службы "Речь" доступны в Speech Studio как типы проектов.
Речь в режиме реального времени: быстрая проверка речи на текст путем перетаскивания звуковых файлов здесь без использования кода. В Speech Studio есть демонстрационное средство для просмотра работы речи с текстом на ваших звуковых примерах. Сведения о полной функциональности см. в статье "Что такое речь в тексте".
Пакетная речь к тексту: быстрое тестирование возможностей пакетной транскрибирования для транскрибирования большого объема звука в хранилище и асинхронного получения результатов. Дополнительные сведения о пакетной речи в текст см. в разделе "Пакетная речь" в текстовом обзоре.
Настраиваемая речь: создание моделей распознавания речи, адаптированных к определенным наборам словарей и стилям речи. В отличие от базовой модели распознавания речи, пользовательские модели речи становятся частью уникальных конкурентных преимуществ, так как они недоступны для общественности. Чтобы приступить к отправке примера звука для создания пользовательской модели речи, см. статью "Отправка обучающих и тестовых наборов данных".
Оценка произношения позволяет оценить произношение и предоставляет говорящим отзывы о точности и беглости, продемонстрированных в записанном звуковом фрагменте. Speech Studio предоставляет песочницу для быстрого тестирования этой функции без использования кода. Сведения об использовании этой функции с пакетом SDK службы "Речь" в приложениях см. в статье Оценка произношения.
Перевод речи. Быстрое тестирование и перевод речи на другие языки с низкой задержкой. Дополнительные сведения о полной функциональности см. в статье "Что такое перевод речи".
Голосовая галерея: создавайте приложения и сервисы, которые говорят естественно. На выбор вам доступен широкий набор языков, голосов и вариантов. Воплотите свои сценарии в жизнь с помощью очень выразительных и человекоподобных нейронных голосов.
Пользовательский голос: создание пользовательских, однообразных голосов для речи. Вы предоставляете аудиофайлы и создаете соответствующие транскрипции в Speech Studio, после чего используете настраиваемые голоса в своих приложениях. Сведения о создании и использовании пользовательских голосов с помощью конечных точек см. в статье Создание и использование модели голоса.
Создание аудиоконтентного контента: подход без кода для синтеза речи. Вы можете использовать выходной звук как есть или в качестве отправной точки для дальнейшей настройки. Вы можете создавать очень естественное звуковое содержимое для различных сценариев, таких как аудиокниги, новостные трансляции, видеозаписи и боты чата. Дополнительные сведения см. в документации по созданию аудиоконтентов.
Пользовательские ключевые слова — это слово или короткая фраза, которую можно использовать для активации продукта голосом. Пользовательское ключевое слово создается в Speech Studio, после чего генерируется двоичный файл, чтобы вы могли использовать его с пакетом SDK службы "Речь" в своих приложениях.