Поделиться через


Обзор потоковой передачи звука — подписка на аудио

Внимание

Функции, описанные в этой статье, в настоящее время находятся в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания. Ее не следует использовать для производственных рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.

Службы коммуникации Azure предоставляет двунаправленные возможности потоковой передачи звука, предлагая разработчикам мощные средства для записи, анализа и обработки звукового содержимого во время активных вызовов. Эта разработка проложит путь к новым возможностям в режиме реального времени для разработчиков и предприятий.

Интеграция двунаправленной потоковой передачи звука с такими службами, как Azure OpenAI и другими API голосовой связи в режиме реального времени, предприятия могут добиться простой, низкой задержки. Это значительно улучшает разработку и развертывание общения решений искусственного интеллекта, что позволяет повысить эффективность взаимодействия.

Благодаря двунаправленной потоковой передаче предприятия теперь могут повысить уровень их голосовых решений до низкой задержки, например интерактивных агентов ИИ для диалога. Наши двунаправленные API потоковой передачи позволяют разработчикам передавать звук из текущего вызова на Службы коммуникации Azure на свои веб-серверы в режиме реального времени и передавать звук обратно в вызов. Хотя первоначальный акцент этих функций заключается в том, чтобы помочь предприятиям создавать агенты общения ИИ, другие варианты использования включают обработку естественного языка для анализа бесед или предоставление аналитических сведений и предложений агентов в режиме реального времени, пока они находятся в активном взаимодействии с конечными пользователями.

Эта общедоступная предварительная версия поддерживает возможность доступа разработчиков к аудиопотокам в режиме реального времени через WebSocket из Службы коммуникации Azure и потоковой передачи звука обратно в вызов.

Помощь в режиме реального времени

  • Использование решений ИИ для бесед: разработка сложных виртуальных агентов поддержки клиентов, которые могут взаимодействовать с клиентами в режиме реального времени, предоставляя немедленные ответы и решения.

  • Персонализированные возможности клиентов: используя данные в режиме реального времени, предприятия могут предлагать более персонализированные и динамические взаимодействия с клиентами в режиме реального времени, что приводит к повышению удовлетворенности и лояльности.

  • Сокращение времени ожидания для клиентов: использование двунаправленных аудиопотоков с большими языковыми моделями (LLMs) позволяет создавать виртуальные агенты, которые служат первой точкой контакта для клиентов, уменьшая время ожидания для человеческого агента.

Проверка подлинности

  • Биометрическая проверка подлинности— используйте аудиопотоки для выполнения голосовой проверки подлинности , запустив звук из звонка с помощью подсистемы распознавания голоса или средства сопоставления.

Пример архитектуры, показывающий, как двунаправленная потоковая передача звука может использоваться для агентов ИИ беседы

Снимок экрана: схема архитектуры для потоковой передачи звука.

Поддерживаемые форматы

Смешанный

Содержит смешанный звук всех участников звонка. Все звуки плоские в один поток.

Несмешанный

Содержит звук на каждого участника на канал с поддержкой до четырех каналов для четырех наиболее доминирующих динамиков в любой момент звонка. Вы также получите участникRawID, который можно использовать для определения говорящего.

Дополнительная информация:

Разработчики могут использовать следующие сведения о аудио, отправляемых из Службы коммуникации Azure, чтобы преобразовать звуковые пакеты в звуковое содержимое для своих приложений.

  • Частота кадров: 50 кадров в секунду
  • Скорость потока пакетов: 20 мс
  • Размер пакета данных: 640 байт для 16 000 гц и 960 байт для 24 000 гц
  • Аудиометрика: 16-разрядная моно PCM на 16 000 гц и 24 000 Гц
  • Общедоступные строковые данные — это строка base64, которая должна быть преобразована в массив байтов для создания необработанного PCM-файла.

Выставление счетов

Сведения о выставлении счетов за потоковую передачу звука см. на странице цен на Службы коммуникации Azure. Цены можно найти в категории звонков в разделе потоковой передачи звука.

Next Steps

Ознакомьтесь с кратким руководством по потоковой передаче аудио, чтобы узнать больше.