Что такое распознавание ключевых слов?
Распознавание ключевых слов обнаруживает слово или короткую фразу в звуковом потоке. Этот метод также называется пятнистость ключевых слов.
Наиболее распространенным вариантом использования распознавания ключевых слов является голосовая активация виртуальных помощников. Например, "Привет, Кортана" — ключевое слово для помощника Кортаны. После распознавания ключевого слова выполняется действие, зависящее от сценария. Для сценариев виртуальных помощников типичным действием является распознавание речи, следующей за ключевым словом.
Как правило, виртуальные помощники всегда находятся в режиме прослушивания. Распознавание ключевых слов действует как граница конфиденциальности для пользователя. Требование ключевого слова действует как шлюз, который не позволяет звукам пользователя выйти за пределы локального устройства и попасть в облако.
Чтобы обеспечить баланс между точностью, задержкой и вычислительной сложностью, распознавание ключевых слов реализовано в виде многоэтапной системы. Для всех этапов, превышающих первый, звук обрабатывается только в том случае, если этап до него распознает ключевое слово, интересующее вас.
Текущая система включает несколько этапов, охватывающих все пространство от границы до облака:
Точность распознавания ключевых слов измеряется с помощью следующих метрик:
- Правильная скорость принятия: измеряет способность системы распознавать ключевое слово, произнесенное пользователем. Этот параметр также называют процентом истинноположительных результатов.
- Коэффициент ложно распознанных сигналов — измеряет способность системы отфильтровывать звуки, которые не являются ключевыми словами, произнесенными конечным пользователем. Этот параметр также называют процентом ложноположительных результатов.
Цель состоит в том, чтобы максимально увеличить коэффициент правильно распознанных сигналов и свести к минимуму коэффициент ложно распознанных сигналов. Текущая система предназначена для обнаружения ключевых слов или фраз, которым предшествует короткая пауза. Обнаружение ключевых слов в середине предложения или речевого фрагмента не поддерживается.
Пользовательские ключевые слова для моделей на устройстве
Портал Пользовательских ключевых слов в Speech Studio позволяет создавать модели распознавания ключевых слов, выполняемые на границе, указав любое слово или короткую фразу. Вы можете дополнительно персонализировать свою модель, выбрав правильное произношение.
Цены
Плата за использование Пользовательских ключевых слов для создания базовых или расширенных моделей не взимается. Кроме того, для запуска моделей на устройстве с помощью пакета SDK службы "Речь" при использовании с другими функциями службы "Речь", такими как речь в тексте, также не требуется.
Типы моделей
Пользовательские ключевые слова позволяют создавать два типа моделей на устройстве для любого ключевого слова.
Тип модели | Description |
---|---|
Базовая | Лучше всего подходит для демонстрации или быстрого создания прототипов. Модели создаются с использованием общей базовой модели, и для их подготовки может потребоваться до 15 минут. Модели могут не иметь оптимальных характеристик точности. |
Расширенные | Лучше всего подходит для интеграции продуктов. Модели создаются путем адаптации общей базовой модели с помощью смоделированных обучающих данных для повышения точности. Для подготовки моделей может потребоваться до 48 часов. |
Примечание.
Список регионов, поддерживающих Расширенный тип модели, можно просмотреть в документации по поддержке регионов для распознавания ключевых слов.
Ни один тип модели не требует отправки обучающих данных. Пользовательские ключевые слова полностью обеспечивают создание данных и обучение модели.
Произношение
При создании новой модели Пользовательские ключевые слова автоматически создают возможные варианты произношения указанного ключевого слова. Можно прослушать каждый вариант и выбрать все, которые достаточно точно отражают способ произнесения ключевого слова пользователями. Остальные варианты произношения следует проигнорировать.
Для обеспечения наиболее высокой точности важно вдумчиво подойти к вопросу выбора вариантов произношения. Например, если выбрать больше вариантов произношения, чем требуется, можно получить больше ложноположительных сигналов. Если же выбрать слишком мало вариантов, которые не охватывают все возможные звучания, коэффициент правильно распознанных сигналов может снизиться.
Тестовые модели
После создания пользовательских ключевых слов на устройстве модели модели можно протестировать непосредственно на портале. Портал позволяет получить результаты распознавания ключевых слов непосредственно в браузере.
Проверка ключевого слова
Проверка ключевых слов — это облачная служба, которая снижает влияние ложных приемов из моделей на устройстве с надежными моделями, работающими в Azure. Для проверки вашего ключевого слова с помощью этой службы не требуется настройка или обучение. В службе постоянно развертываются добавочные обновления модели, чтобы улучшить показатели точности и задержки. Этот процесс прозрачен для клиентских приложений.
Цены
Проверка ключевых слов всегда используется в сочетании с речью к тексту. Нет никаких затрат на использование проверки ключевых слов за пределами затрат на речь в тексте.
Проверка ключевых слов и речь в тексте
При использовании проверки ключевых слов он всегда в сочетании с речью к тексту. Обе службы выполняются параллельно. Это означает, что звук отправляется обеим службам для одновременной обработки.
Выполнение проверки ключевых слов и речи в текст параллельно дает следующие преимущества:
- Нет другой задержки при передаче речи в текстовые результаты: параллельное выполнение означает, что проверка ключевых слов не добавляет задержки. Клиент быстро получает результаты речи к тексту. Если проверка ключевых слов определяет, что ключевое слово не присутствует в звуковом коде, преобразование речи в текст завершается. Это действие защищает от ненужной речи в обработке текста. Обработка сетевых и облачных моделей увеличивает заметную для пользователя задержку при голосовом управлении. Дополнительные сведения см. в разделе Рекомендации и инструкции.
- Префикс принудительного ключевого слова в речи к текстовым результатам: речь в текстовой обработке гарантирует, что результаты, отправленные клиенту, префиксируются ключевым словом. Это позволяет повысить точность речи в текстовых результатах для речи, которая следует ключевому слову.
- Увеличение времени ожидания речи к тексту: из-за ожидаемого присутствия ключевого слова в начале звука речь в тексте позволяет дольше приостанавливаться до пяти секунд после ключевого слова, прежде чем он определяет конец речи и завершает речь в текстовой обработке. Такое поведение гарантирует, что взаимодействие с пользователем будет правильно обработано для промежуточных (<ключевое слово><пауза><команда>) и сцепленных команд (<ключевое слово><команда>).
Ответы на проверку ключевых слов и рекомендации по задержке
Для каждого запроса служба проверки ключевых слов возвращает один из двух ответов: принято или отклонено. Задержка обработки зависит от длины ключевого слова и длины аудиосегмента, который должен его содержать. Задержка обработки не включает стоимость сети между клиентскими службами и службами распознавания речи.
Ответ проверки ключевых слов | Description |
---|---|
Принято | Указывает, что служба нашла ключевое слово в аудиопотоке, включенном в запрос. |
Аннулировано | Указывает, что служба не нашла ключевое слово в аудиопотоке, включенном в запрос. |
Отклоненные варианты часто характеризуются более высокой задержкой, так как служба обрабатывает больше звуков, чем для принятых вариантов. По умолчанию для поиска ключевого слова проверка ключевых слов обрабатывает аудиопоток длительностью не более двух секунд. Если ключевое слово не найдено в течение двух секунд, время ожидания службы и сигнал отклонить ответ клиенту.
Использование проверки ключевых слов с моделями на устройстве из Пользовательских ключевых слов
Пакет SDK службы "Речь" позволяет легко использовать модели на устройстве, созданные с помощью пользовательского ключевого слова с проверкой ключевых слов и речью в тексте. Он обеспечивает прозрачную обработку следующих задач:
- Проверка аудиопотока для служб проверки ключевых слов и распознавания речи согласно результату модели на устройстве.
- Передача ключевого слова в службу проверки ключевых слов.
- Передача всех дополнительных метаданных в облако для оркестрации комплексного сценария.
Вам не нужно явно указывать какие-либо параметры конфигурации. Вся необходимая информация будет автоматически извлечена из модели на устройстве, созданной с помощью Пользовательских ключевых слов.
В примере и учебниках, ссылки на которые приведены ниже, показано, как использовать пакет SDK службы "Речь":
- Примеры голосового помощника на GitHub
- Руководство. Включение голосовой связи помощника, созданного с помощью Azure AI Служба Bot с помощью пакета SDK службы "Речь C#"
Интеграция с пакетом SDK для службы "Речь" и сценарии
Пакет SDK службы "Речь" упрощает использование персонализированных моделей распознавания ключевых слов на устройстве, созданных с помощью Пользовательских ключевых слов, и проверки ключевых слов. Для обеспечения соответствия требованиям к продукту пакет SDK поддерживает два сценария:
Сценарий | Description | Примеры |
---|---|---|
Комплексное распознавание ключевых слов с речью к тексту | Лучше всего подходит для продуктов, использующих настраиваемую модель ключевого слова на устройстве от пользовательского ключевого слова с проверкой ключевых слов и речью к тексту. Этот сценарий является наиболее распространенным. | |
Автономное распознавание ключевых слов | Лучше всего подходит для продуктов без сетевого подключения, использующих настраиваемую модель ключевого слова на устройстве из пользовательского ключевого слова. |