Что такое речь в тексте?
Служба "Речь ИИ Azure" предлагает расширенные возможности преобразования речи в текст. Эта функция поддерживает как транскрибирование в режиме реального времени, так и пакетное транскрибирование, предоставляя универсальные решения для преобразования аудиопотоков в текст.
Основные функции
Служба преобразования речи в текст предлагает следующие основные функции:
- Транскрибирование в режиме реального времени: мгновенное транскрибирование с промежуточными результатами для входных данных в реальном времени .
- Быстрое транскрибирование: самый быстрый синхронный вывод для ситуаций с прогнозируемой задержкой.
- Пакетное транскрибирование: эффективная обработка больших объемов предварительно закодированного звука.
- Настраиваемая речь: модели с повышенной точностью для определенных доменов и условий.
Речь в режиме реального времени к тексту
Речь в режиме реального времени к тексту транскрибирует звук, как он распознается с микрофона или файла. Это идеально подходит для приложений, требующих немедленного транскрибирования, таких как:
- Транскрибирование, субтитры или субтитры для живых собраний: транскрибирование звука в режиме реального времени для специальных возможностей и хранения записей.
- Диаризация: определение и различение разных динамиков в звуке.
- Оценка произношения: оценка и предоставление отзывов о точности произношения.
- Агенты центра вызовов помогают: предоставление транскрибирования в режиме реального времени для помощи представителям службы клиентов.
- Диктовка: транскрибирование речевых слов в письменный текст для целей документации.
- Голосовые агенты: включение интерактивных систем голосовых ответов для транскрибирования запросов и команд пользователей.
Доступ к речи в режиме реального времени можно получить с помощью пакета SDK службы "Речь", интерфейса командной строки службы "Речь" и REST API, что позволяет интегрироваться в различные приложения и рабочие процессы. Речь в реальном времени доступна с помощью пакета SDK службы "Речь", интерфейса командной строки службы "Речь" и REST API, таких как API быстрого транскрибирования.
Быстрое транскрибирование
API быстрого транскрибирования используется для расшифровки звуковых файлов с синхронно и быстрее, чем звук в режиме реального времени. Используйте быструю транскрибирование в сценариях, необходимых для расшифровки аудиозаписи как можно быстрее с прогнозируемой задержкой, например:
- Быстрая транскрибирование звука или видео и субтитры: быстро получить транскрибирование всего видео или аудиофайла в одном пути.
- Видеотрансляции: сразу же получите новые субтитры для видео, если у вас есть звук на разных языках.
Сведения о начале работы с быстрым транскрибированием см . в api быстрого транскрибирования.
API пакетного транскрибирования
Пакетное транскрибирование предназначено для транскрибирования больших объемов звука, хранящихся в файлах. Этот метод обрабатывает звук асинхронно и подходит для:
- Транскрибирование, субтитры или субтитры для предварительно заданного звука: преобразование сохраненного звукового содержимого в текст.
- Аналитика после вызова в центре контактов: анализ записанных вызовов для извлечения ценных аналитических сведений.
- Диаризация: различие между динамиками в записанном звуке.
Пакетное транскрибирование доступно через:
Преобразование речи в текст REST API. Упрощает пакетную обработку с помощью гибкости вызовов RESTful. Чтобы приступить к работе, ознакомьтесь с примерами пакетной транскрибирования и пакетной транскрибирования.
Интерфейс командной строки речи: поддерживает как режим реального времени, так и пакетную транскрибирование, что упрощает управление задачами транскрибирования. Для справки по интерфейсу командной строки службы "Речь" с пакетными транскрибированиями выполните следующую команду:
spx help batch transcription
Настраиваемая речь
С помощью пользовательской речи можно оценить и повысить точность распознавания речи для приложений и продуктов. Пользовательская модель речи может использоваться для преобразования речи в режиме реального времени в текст, перевод речи и пакетное транскрибирование.
Совет
Размещенная конечная точка развертывания не требуется для использования пользовательской речи с API транскрибирования пакетной службы. Вы можете сохранить ресурсы, если пользовательская модель речи используется только для пакетной транскрибирования. Дополнительные сведения см. в разделе Цены на службы "Речь".
Вне поля распознавание речи использует универсальную языковую модель в качестве базовой модели, которая обучена с данными, принадлежащими Майкрософт, и отражает часто используемый язык. Базовая модель предварительно обучена диалектами и фонетиками, представляющими различные общие домены. При выполнении запроса на распознавание речи по умолчанию используется последняя базовая модель для каждого поддерживаемого языка. Базовая модель хорошо работает в большинстве сценариев распознавания речи.
Настраиваемая речь позволяет адаптировать модель распознавания речи, чтобы лучше соответствовать конкретным потребностям приложения. Это может быть особенно полезно для:
- Улучшение распознавания словаря для конкретного домена: обучение модели с текстовыми данными, соответствующими вашему полю.
- Повышение точности для определенных условий звука: используйте звуковые данные с ссылочными транскрибированиями для уточнения модели.
Дополнительные сведения о пользовательской речи см. в обзоре пользовательской речи и документации ПО REST API для преобразования речи в текст.
Дополнительные сведения о параметрах настройки для каждого языка и языкового стандарта см . в документации по службе "Речь" на языке и голосовой поддержке.
Примеры использования
Ниже приведены некоторые практические примеры использования речи ИИ Azure для текста:
Вариант использования | Сценарий | Решение |
---|---|---|
Транскрибирование и субтитры в реальном времени | Платформа виртуальных событий должна предоставлять субтитры в режиме реального времени для вебинаров. | Интеграция речи в режиме реального времени с текстом с помощью пакета SDK службы "Речь" для транскрибирования речевых содержимого в субтитры, отображаемые в реальном времени во время события. |
Улучшение обслуживания клиентов | Центр обработки вызовов хочет помочь агентам, предоставляя транскрибирование клиентов в режиме реального времени. | Используйте речь в режиме реального времени с помощью интерфейса командной строки службы "Речь" для транскрибирования вызовов, что позволяет агентам лучше понимать и отвечать на запросы клиентов. |
Подзарядка видео | Платформа размещения видео хочет быстро создать набор субтитров для видео. | Используйте быструю транскрибирование, чтобы быстро получить набор субтитров для всего видео. |
Учебные инструменты | Платформа электронного обучения предназначена для предоставления транскрибирования для видеолекции. | Примените пакетное транскрибирование с помощью речи к текстовому REST API для обработки предварительно подготовленных видео лекции, создавая расшифровки текста для учащихся. |
Документация по здравоохранению | Поставщик услуг здравоохранения должен документировать консультации пациентов. | Используйте речь в режиме реального времени для диктовки, позволяя специалистам здравоохранения говорить свои заметки и мгновенно транскрибировать их. Используйте пользовательскую модель для улучшения распознавания конкретных медицинских терминов. |
Медиа и развлечения | Компания мультимедиа хочет создать субтитры для большого архива видео. | Используйте пакетное транскрибирование для обработки видеофайлов в массовом режиме, создавая точные субтитры для каждого видео. |
Исследования рынка | Компания по исследованиям рынка должна проанализировать отзывы клиентов от аудиозаписей. | Использование пакетного транскрибирования для преобразования обратной связи аудио в текст, что упрощает анализ и извлечение аналитических сведений. |
Ответственное применение ИИ
Система ИИ включает не только технологию, но и людей, которые используют ее, людей, пострадавших от нее, и среды, в которой она развернута. Ознакомьтесь с заметками о прозрачности, чтобы узнать об использовании и развертывании ответственного искусственного интеллекта в системах.
- Примечание о прозрачности и сценарии использования
- Характеристики и ограничения
- Интеграция и ответственное использование
- Данные, конфиденциальность и безопасность
Связанный контент
- Начало работы с преобразованием речи в текст
- Создание пакетного транскрибирования
- Подробные сведения о ценах см. на странице цен службы "Речь".