Настройка голосовых возможностей

Статья
03/11/2025

В этой статье описываются функции, доступные в Copilot Studio для интерактивного голосового ответа с помощью Dynamics 365 Customer Service.

Сведения о том, как подготовить агент к голосовым службам, см. в статье Интеграция агента с поддержкой голосовой связи в Dynamics 365 Customer Service.

Общие сведения о службах голосовой связи см. в разделе Использование интерактивного голосового ответа в ваших агентах.

Модальность речи и DTMF

Агент с поддержкой голосовой связи отличается от агента на основе чата. Агент с поддержкой голосовой связи включает в себя специальные темы голосовой системы для обработки голосовых сценариев. Агент на основе чата использует текстовую модальность по умолчанию. Агент с поддержкой голосовой связи использует модальность "Речь" и DTMF. Эти две модальности несовместимы друг с другом.

Оптимизация для голосовой связи позволяет создавать агенты с поддержкой голоса в различных модальностях и обеспечивает правильное создание функций, связанных с речью.

Оптимизировать для голосового взаимодействия

Если вы не запустили работу агента с помощью голосового шаблона, необходимо включить параметр Оптимизация для голоса в разделе Параметры агента.

Открыв агент, перейдите в раздел Параметры>Голос.
Выберите Оптимизировать для голоса. Параметр Использовать голосовую связь в качестве основного режима разработки также установлен по умолчанию.

Ваш агент получает следующие обновления при включении параметров Оптимизировать для голоса и Использовать голос в качестве основного режима разработки:

Возможность создавать голосовые функции при переключении с текста на Речь и DTMF.
Темы голосовой системы Обнаружение тишины, Речь не распознана и Неизвестное нажатие панели набора номера автоматически добавляются для обработки сценариев, связанных с речью.
Повышение точности с помощью данных агента (включено по умолчанию), что повышает точность распознавания речи.
Существующий поток агента не изменяется, как, например, тема Главное меню для начала разговоров с сопоставленными триггерами DTMF.

Важно

Параметр Оптимизация для голосовой связи изменяет только возможности голосовой разработки, а не настройки канала. Включите канал Телефония для агента, полностью поддерживающего голосовую связь.
Кроме того, параметр Оптимизация для голосовой связи в агенте, который изначально не был настроен для голосовых функций, означает, что у агента нет темы Главное меню (предварительная версия). При необходимости нужно повторно создать эту тему.
Если вы не можете включить параметр Оптимизация для голосовой связи, проверьте среду Power Platform, в которой размещен агент, и убедитесь, что параметр Ранний доступ к новым функциям отключен для этой среды. Дополнительные сведения см. в разделе Не удается включить оптимизацию для голосовой связи.

Отключение оптимизации для голосовой связи

Вы можете отключить параметр Оптимизация для голосовой связи в создании агентов, если не включаете канал телефонии. После того, как вы отключите параметр Оптимизация для голосовой связи, вы получите следующие изменения:

Нет разработки агента для голосовых функций, таких как DTMF и подключение к разговору.
По умолчанию используется модальность текст.
Отсутствие улучшения распознавания речи, поскольку нет распознавания речи.
Отсутствие системных тем голосовой связи или глобальной темы DTMF.

Заметка

В некоторых темах могут отображаться ошибки во время публикации, если в других темах упоминается отключенная тема DTMF.
Не изменяйте поток агента и настройки канала, так как отключение оптимизации не отключает канал телефонии.
Включение или отключение параметра Оптимизация для голосовой связи не вступает в силу до тех пор, пока вы не опубликуете свой агент. Если агент включается или отключается случайно и переключается между модальностями, у вас есть время, чтобы это исправить.

Важно

Если каналы телефонии включены, отключение параметра Оптимизация для голосовой связи может нарушить работу агента, так как все триггеры DTMF автоматически отключаются.

Использование голосовой связи в качестве основного режима разработки

Модальность "Речь и DTMF" должна быть выбрана для каждого узла при разработке голосовых функций. Вы можете выбрать предпочтительный режим разработки агента как использовать голос в качестве основного режима разработки. Этот параметр гарантирует, что все поля ввода имеют нужную модальность. Если вы уже включили оптимизацию для голосовой связи, параметр Использовать голосовую связь в качестве основного режима разработки включается по умолчанию.

Доступность сообщений

Использование текстовой или речевой модальности может по-разному влиять на ваш канал.

Модальность текста	Модальность речи	Текстовый и речевой канал агента
Сообщение доступно	Пустое сообщение	Сообщение доступно
Пустое сообщение	Сообщение доступно	Сообщение недоступно

Настраиваемое автоматическое распознавание речи

Голосовые агенты для определенной предметной области, например медицины или финансов, могут видеть, что пользователи используют финансовые термины или медицинский жаргон. Некоторые термины и жаргон голосовому агенту трудно преобразовать из речи в текст.

Чтобы обеспечить точное распознавание речевого ввода, вы можете улучшить распознавание речи:

С открытым агентом, выберите Параметры>Голос.
Выберите Увеличить точность с данными агента, чтобы включить пользовательские параметры автоматического распознавания речи по умолчанию.
Нажмите Сохранить, чтобы подтвердить изменения.
Опубликуйте свой агент, чтобы увидеть новые изменения.

Справочник по голосовым параметрам на уровне агента

На странице параметров Сведения агента можно настроить периоды ожидания для различных функций, связанных с голосовой связью. Настройки, примененные на этой странице, становятся настройками по умолчанию для тем, созданных в агенте.

Чтобы внести изменения в параметры времени ожидания на уровне агента:

Открыв агент, выберите Параметры>Голос.
Выберите нужные параметры и настройте агент по умолчанию.
Нажмите Сохранить, чтобы подтвердить изменения.

Параметры на уровне агента

В следующей таблице перечислены все параметры и показано, как они связаны с параметрами на уровне узла.

Раздел уровня агента с голосовым управлением	Параметр	Описание	Default value	Переопределение на уровне узла
DTMF	Таймаут между клавишами	Максимально допустимое время (в миллисекундах) ожидания следующего ввода DTMF с клавиатуры. Применяет многозначный ввод DTMF только в том случае, если пользователи не достигают максимальной длины ввода.	3000 мс	Узел вопроса со свойствами голосовой связи для Многозначного ввода DTMF
DTMF	Таймаут завершения	Максимальная продолжительность (миллисекунды) ожидания клавиши завершения DTMF. Ограничение применяется, когда пользователь достиг максимальной длины ввода и не нажал клавишу завершения. Применяется только к многозначному вводу DTMF. Если по истечении предельного времени ожидания завершающий DTMF-сигнал не поступил, агент завершает распознавание и возвращает результат до этого момента. Если установлено значение "продолжить без ожидания", агент не ожидает ключа завершения. Агент прекращает принимать ввод сразу после того, как пользователь вводит максимальную длину.	2000 мс	Узел вопроса со свойствами голосовой связи для Многозначного ввода DTMF
Обнаружение тишины	Таймаут обнаружения тишины	Максимально допустимая тишина (в миллисекундах) при ожидании данных, введенных пользователем. Ограничение применяется, когда агент не обнаруживает ввод пользователя. Значение по умолчанию — «без тайм-аута тишины». Агент бесконечно ожидает ввода данных пользователем. Параметр обнаружения тишины для голосовой связи фиксирует время после того, как голос заканчивает говорить.	Нет таймаута тишины	Узел вопроса со свойствами голосовой связи для Многозначного ввода DTMF Системная тема (свойства триггера обнаружения тишины) для настройки обнаружения тишины и таймаутов
Сбор речи	Таймаут окончания речевого фрагмента	Ограничение применяется, когда пользователь делает паузу во время или после речи. Если пауза превышает лимит времени ожидания, агент считает, что пользователь закончил говорить. Максимальное значение времени ожидания окончания речевого фрагмента составляет 3000 мс. Все, что выше 3000 мс, уменьшается до 3000 мс.	1500 мс	Узел вопроса со свойствами голосовой связи
Сбор речи	Таймаут распознавания речи	Определяет, сколько времени агент отводит пользователю на ввод данных после того, как он начнет говорить. Значение по умолчанию: 12 000 миллисекунд (около 12 секунд). Отсутствие тайм-аута распознавания означает бесконечное время. Агент повторно задает вопрос. Если нет ответа, голосовое сообщение выходит за пределы тайм-аута распознавания речи.	12,000 мс	Узел вопроса со свойствами голосовой связи
Сообщения о задержке	Задержка отправки сообщения	Определяет, как долго агент ожидает перед доставкой сообщения о задержке после запуска запроса на фоновую операцию. Время устанавливается в миллисекундах.	500 мс	Свойства узла действия для длительной операции
Сообщения о задержке	Минимальное время воспроизведения	Сообщение о задержке воспроизводится в течение минимального промежутка времени, даже если фоновая операция завершается во время воспроизведения сообщения. Время устанавливается в миллисекундах.	5000 мс	Свойства режима действия для длительной операции
Речевая чувствительность	Конфиденциальность	Управляет тем, как система обеспечивает баланс между обнаружением речи и фонового шума. Уменьшите чувствительность в шумной обстановке, общественных местах и при использовании устройства громкой связи. Увеличьте чувствительность для тихих помещений, тихо говорящих пользователей или распознавания голосовых команд. Значение по умолчанию — 0,5.	0.5	Для этого элемента управления нет переопределений на уровне узлов.

Включение вмешательства

Включение вмешательства позволяет пользователям агента прерывать работу агента. Эта функция может быть полезна, когда вам не нужно, чтобы пользователь агента слышал сообщение целиком. Например, вызывающие абоненты могут уже знать пункты меню, поскольку слышали их раньше. При вмешательстве пользователь агента может ввести нужный вариант, даже если агент еще не закончил перечислять все варианты.

Сценарии отключения вмешательства

Отключите вмешательство, если вы недавно обновили сообщение агента или если сообщение о соблюдении правил не должно прерываться.
Отключите вмешательство для первого сообщения агента, чтобы пользователи агента были в курсе новой или важной информации.

Характеристики

Функция вмешательства поддерживает прерывания на основе DTMF и голоса от пользователя агента.
Вмешательство можно контролировать с каждым сообщением в одном пакете. Размещайте barge-in-disabled узлы последовательно перед каждым узлом, где разрешено вмешательство. В противном случае сообщение об отключении вмешательства рассматривается как сообщение о разрешении вмешательства.

После завершения одной пакетной очереди автоматическая настройка вмешательства сбрасывается для следующего пакета и контролируется флагом вмешательства в каждом последующем сообщении. Вы можете разместить узлы отключения вмешательства, когда последовательность начнется заново.

Совет

Если имеются последовательные узлы сообщений, за которыми следует узел вопросов, голосовые сообщения для этих узлов определяются как один пакет. Один пакет начинается с узла сообщения и заканчивается на узле вопросов, который ожидает ввода пользователя.

Не отключайте функцию вмешательства для длинных сообщений, особенно если вы ожидаете, что пользователи агента будут часто взаимодействовать с агентом. Если пользователь агента уже знаком с пунктами меню, позвольте ему самостоятельно обслуживаться там, куда он хочет.

Настройка вмешательства

Выбрав узел Сообщение или Вопрос, установите нужную модальность: Речь и DTMF.
Выберите значок Дополнительно (…) узла, а затем выберите Свойства.
1. Для узлов типа Сообщение панель Свойства действия отправки открывается сбоку от холста разработки.
  
  Выберите Разрешить вмешательство.
2. Для узлов типа Вопрос откроется панель Свойства вопроса; выберите Голосовая связь.
  
  В свойствах параметра Голосовая связь выберите Разрешить вмешательство.
Сохраните тему, чтобы зафиксировать изменения.

Настройка обнаружения тишины и таймаутов

Обнаружение тишины позволяет настроить, как долго агент ожидает ввода данных пользователем и какие действия он предпринимает, если ввод не получен. Обнаружение тишины наиболее полезно при ответе на вопрос на уровне узла или когда агент ожидает фразы-триггера, чтобы начать новую тему.

Вы можете настроить тайм-ауты по умолчанию для тем.

Чтобы переопределить значения по умолчанию для узла, выполните следующие действия:

Выберите значок Дополнительно (…) узла, а затем выберите Свойства.

Откроется панель Свойства вопроса.

Выберите Голосовая связь и измените следующие настройки:

Параметр тайм-аута обнаружения тишины	Description
Использовать настройку агента	Узел использует глобальный параметр для обнаружения тишины.
Отключить для этого узла	Агент бесконечно ожидает ответа.
Настроить в миллисекундах	Агент ожидает определенное время, прежде чем повторить вопрос.

Резервное действие

Некоторые варианты поведения можно настроить в качестве резервного действия:

Сколько раз агент должен повторить вопрос
Что должно быть в сообщении с повторным запросом
Что должен делать агент после указанного количества повторов

Речевой ввод

Для речевого ввода можно указать следующее:

Таймаут окончания речевого фрагмента: время, в течение которого агент ожидает после того, как пользователь закончит говорить
Таймаут распознавания речи: сколько времени агент дает пользователю после того, как он начнет отвечать

Чтобы настроить поведение обнаружения тишины, когда агент ожидает фразу-триггер, настройте параметры в системной теме При тишине.

Добавление сообщение о задержке для длительных операций

Для длительных серверных операций агент может отправить сообщение пользователям, чтобы уведомить их о более длительных процессах. Агенты в канале обмена сообщениями также могут отправлять сообщение о задержке.

Воспроизведения звука сообщения о задержке	Сообщение о задержке в чате
Продолжает выполнять цикл до завершения операции.	Отправляется только один раз при достижении указанного времени задержки.

В Copilot Studio ваш агент может повторить сообщение после активации потока Power Automate:

Добавьте узел Действие, который запускает поток.
Выберите значок Дополнительно (…) узла, а затем выберите Свойства. Откроется панель Свойства действия.
Выберите Отправка сообщений.
В разделе Сообщение введите, что вы хотите, чтобы агент сказал. Вы можете использовать SSML для изменения звука сообщения. Агент повторяет сообщение до тех пор, пока поток не будет завершен.

Вы можете настроить время, в течение которого агент должен ждать перед повторением сообщения, в разделе Задержка. Вы можете установить минимальное время ожидания, даже если поток завершится.

Настройка завершения звонка

Чтобы настроить агент на завершение вызова и отбой, добавьте новый узел (+) и выберите Управление темами>Завершить разговор.

Снимок экрана: меню создания нового узла с управлением темой и выделенным пунктом завершения разговора.

Форматирование синтеза речи с помощью SSML

Язык разметки синтеза речи (SSML) можно использовать для изменения звучания агента при чтении сообщений вслух. Например, вы можете изменить высоту или частоту произносимых слов, скорость и громкость.

SSML использует теги для заключения текста, который вы хотите изменить, аналогично HTML. Вы можете использовать следующие теги в Copilot Studio:

Тег SSML	Description	Ссылка на документацию о голосовой службе
`<audio src="_URL to an audio file_"/>`	Добавьте URL-адрес аудиофайла в тег. Файл должен быть доступен пользователю агента.	Добавление записанного звука
`<break />`	Вставляйте паузы или разрывы между словами. Вставьте параметры прерывания в тег.	Добавление прерывания
`<emphasis>` Текст, который вы хотите изменить`</emphasis>`	Добавляйте уровни ударения к словам или фразам. Добавьте параметры выделения в открывающем теге. Добавьте закрывающий тег после текста, который вы хотите изменить.	Настройка параметров выделения
`<prosody>` Текст, который вы хотите изменить`</prosody>`	Укажите изменения высоты тона, контура, диапазона, скорости и громкости. Добавьте параметры интонации в открывающем теге. Добавьте закрывающий тег после текста, который вы хотите изменить.	Настройка параметров интонации
`<lang xml:lang="xx-XX">` Текст, который вы хотите изменить`</lang>`	Настройте язык речи в одном сообщении при использовании многоязычного нейронного голоса.	Настройка языков голосовых сообщений

Заметка

При использовании тега <audio src="_URL to an audio file_"/>, если URL-адрес хранится в переменной, URL-адрес должен быть закодирован, прежде чем он будет вставлен в тег SSML audio src в сообщении. Мы рекомендуем использовать функцию PowerFx EncodeHTML для кодирования URL-адреса при его назначении переменной в действии назначения.

Снимок экрана голосового сообщения с добавленными тегами SSML.

Поиск и использование тега

SSML использует теги для заключения текста, который вы хотите изменить, подобно HTML.

Вы можете использовать следующие теги в Copilot Studio:

Выбрав узел Сообщение или Вопрос, измените режим на Речь и DTMF.
Выберите меню Теги SSL и выберите тег.

Окно сообщения заполняется тегом. Если у вас уже есть текст в окне сообщения, код тега добавляется в конец вашего сообщения.
Окружите текст, который хотите изменить, открывающим и закрывающим тегами. Вы можете объединить несколько тегов и настроить отдельные части сообщения с помощью отдельных тегов.

Совет

Вы можете вручную ввести теги SSML, которые не отображаются во вспомогательном меню. Чтобы узнать больше о других тегах, которые можно использовать, см. раздел Улучшение синтеза с помощью языка разметки синтеза речи.

Переадресация звонка на представителя или на внешний номер телефона

Можно настроить агент на перевод звонка на внешний номер телефона. Copilot Studio поддерживает слепую передачу на телефонный номер PSTN и номер прямой маршрутизации.

Чтобы перевести звонок на внешний номер телефона, выполните следующие действия:

В теме, которую вы хотите изменить, добавьте новый узел (+). В меню узла выберитеУправление темами, а затем Передача разговоров.
В разделе Тип переадресации выберите Переадресация на внешний номер телефона и введите номер телефона для переадресации.
(Необязательно) добавьте заголовок SIP UUI в звонок.

Этот заголовок представляет собой строку пар key=value без пробелов и специальных символов, отображаемую для чтения внешними системами.
1. Выберите значок Дополнительно (…) узла, а затем выберите Свойства. Откроется панель Свойства передачи разговора.
2. В разделе Заголовок SIP UUI введите информацию, которую вы хотите отправить при переадресации вызова. Переменные не поддерживаются при переадресации на внешний номер телефона.
Внимание

Отправляются только первые 128 символов строки.

В заголовке допускаются только цифры, буквы, знаки равенства (=) и точки с запятой (;). Все остальные символы, включая пробелы, фигурные и квадратные скобки, а также формулы, не поддерживаются и могут привести к сбою переадресации.

Совет

Добавьте + в свой номер телефона для соответствующего кода страны.

Выходная переадресация с помощью SIP UUI для целевого телефонного номера должна использовать прямую маршрутизацию. Номера телефонов Телефонной сети общего пользования (PSTN) не поддерживают передачу заголовков SIP UUI.

Чтобы переключить на представителя, см. раздел Явные триггеры.

Использование переменных голосовой связи

Copilot Studio поддерживает заполнение переменных. Вы можете использовать готовые переменные или создавать собственные.

Заметка

Дополнительные сведения о том, как использовать и создавать переменные в Copilot Studio, см. в разделе Работа с переменными.
Сведения о дополнительных переменных действий и разговоров, доступных для голосовых агентов, см. в разделе Переменные для голосовых агентов.

Голосовой агент в Copilot Studio поддерживает переменные контекста. Эти переменные помогают интегрировать разговоры агентов с Dynamics 365 Customer Service при переводе вызова.

Дополнительные сведения о переменных контекста в Dynamics 365 Customer Service см. в разделе Переменные контекста для ботов Copilot Studio.

Эта интеграция поддерживает следующие сценарии со следующими переменными при переадресации:

Переменная	Type	Description
`System.Activity.From.Name`	String	Идентификатор вызывающего пользователя агента
`System.Activity.Recipient.Name`	String	Номер, используемый для звонка или соединения с агентом
`System.Conversation.SipUuiHeaderValue`	String	Значение заголовка SIP при переадресации через телефонный номер прямой маршрутизации
`System.Activity.UserInputType`	String	Пользователь агента использовал DTMF или голосовые функции в разговоре
`System.Activity.InputDTMFKey`	String	Необработанные входные данные DTMF пользователя агента
`System.Conversation.OnlyAllowDTMF`	Логический	Голосовая связь игнорирует речевой ввод, если установлено значение true
`System.Activity.SpeechRecognition.Confidence`	Число	Значение достоверности (от 0 до 1) из последнего события распознавания речи
`System.Activity.SpeechRecognition.MinimalFormattedText`	String	Результаты распознавания речи (в виде необработанного текста) до того как Copilot Studio применил соответствующую модель распознавания естественного языка

Заметка

Публикация агента с большими триггерными фразами и большим размером сущностей занимает больше времени.
Если несколько пользователей публикуют один и тот же агент одновременно, ваше действие публикации блокируется. Вам необходимо повторно опубликовать агент после того, как другие пользователи закончат редактирование существующего агента.

Дополнительные сведения об основах публикации см. в разделе Основные понятия — публикация и развертывание агента.

Поделиться через

Настройка голосовых возможностей

Модальность речи и DTMF

Оптимизировать для голосового взаимодействия

Отключение оптимизации для голосовой связи

Использование голосовой связи в качестве основного режима разработки

Доступность сообщений

Настраиваемое автоматическое распознавание речи

Справочник по голосовым параметрам на уровне агента

Параметры на уровне агента

Включение вмешательства

Сценарии отключения вмешательства

Характеристики

Настройка вмешательства

Настройка обнаружения тишины и таймаутов

Резервное действие

Речевой ввод

Добавление сообщение о задержке для длительных операций

Настройка завершения звонка

Форматирование синтеза речи с помощью SSML

Поиск и использование тега

Переадресация звонка на представителя или на внешний номер телефона

Использование переменных голосовой связи

Обратная связь

Дополнительные ресурсы