Introducción al streaming de audio: suscripción de audio

Artículo
01/04/2025

Importante

La funcionalidad descrita en este artículo se encuentra actualmente en versión preliminar pública. Esta versión preliminar se ofrece sin un Acuerdo de Nivel de Servicio y no se recomienda para cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para más información, consulte Términos de uso complementarios de las Versiones Preliminares de Microsoft Azure.

Azure Communication Services proporciona funcionalidades de streaming de audio bidireccionales, que ofrecen a los desarrolladores herramientas eficaces para capturar, analizar y procesar contenido de audio durante las llamadas activas. Este desarrollo allana el camino para nuevas posibilidades en la comunicación en tiempo real para desarrolladores y empresas por igual.

Al integrar el streaming de audio bidireccional con servicios como Azure OpenAI y otras API de voz en tiempo real, las empresas pueden lograr una comunicación sin problemas y de baja latencia. Esto mejora significativamente el desarrollo e implementación de soluciones de inteligencia artificial conversacional, lo que permite interacciones más atractivas y eficaces.

Con el streaming bidireccional, las empresas ahora pueden elevar sus soluciones de voz a agentes de inteligencia artificial conversacionales interactivos, de baja latencia y gran parecido a seres humanos. Nuestras API de streaming bidireccionales permiten a los desarrolladores transmitir audio desde una llamada en curso en Azure Communication Services a sus servidores web en tiempo real y volver a transmitir audio a la llamada. Aunque el enfoque inicial de estas características es ayudar a las empresas a crear agentes de IA conversacionales, otros casos de uso incluyen procesamiento de lenguaje natural para el análisis de conversaciones o proporcionar información y sugerencias en tiempo real a los agentes mientras están en interacción activa con los usuarios finales.

Esta versión preliminar pública admite la posibilidad de que los desarrolladores accedan a secuencias de audio en tiempo real a través de WebSocket desde Azure Communication Services y vuelvan a transmitir audio a la llamada.

Asistencia para llamadas en tiempo real

Aprovechar las soluciones de inteligencia artificial conversacional: desarrollar sofisticados agentes virtuales de soporte al cliente que pueden interactuar con los clientes en tiempo real, proporcionando respuestas inmediatas y soluciones.
Experiencias personalizadas de los clientes: aprovechando los datos en tiempo real, las empresas pueden ofrecer interacciones de clientes más personalizadas y dinámicas en tiempo real, lo que conduce a una mayor satisfacción y fidelidad.
Reducir los tiempos de espera de los clientes: el uso de secuencias de audio bidireccionales con modelos de lenguaje grande (LLM) puede crear agentes virtuales que actúen como primer punto de contacto para los clientes, lo que reduce su tiempo de espera para un agente humano.

Autenticación

Autenticación biométrica: use las secuencias de audio para llevar a cabo la autenticación de voz mediante la ejecución del audio desde la llamada a través del motor o la herramienta de comparación o reconocimiento de voz.

Arquitectura de ejemplo que muestra cómo se puede usar el streaming de audio bidireccional para los agentes de inteligencia artificial conversacional

Formatos compatibles

Mixto

Contiene audio mixto de todos los participantes en la llamada. Todo el audio se aplana en una secuencia.

Sin mezclar

Contiene audio por participante por canal, con compatibilidad con hasta cuatro canales para los cuatro ponentes dominantes en cualquier momento de una llamada. También obtendrá un valor participantRawID que puede usar para determinar el ponente.

Información adicional

Los desarrolladores pueden usar la siguiente información sobre el audio enviado desde Azure Communication Services para convertir los paquetes de audio en contenido audible para sus aplicaciones.

Velocidad de fotogramas: 50 fotogramas por segundo
Velocidad de flujo de paquetes: velocidad de 20 ms
Tamaño del paquete de datos: 640 bytes para 16 000 Hz y 960 bytes para 24 000 Hz
Métrica de audio: PCM de 16 bits mono a 16 000 Hz y 24 000 Hz
Los datos de cadena pública son una cadena base64 que se debe convertir en una matriz de bytes para crear un archivo PCM sin formato.

Facturación

Consulte la página de precios de Azure Communication Services para obtener información sobre la facturación del streaming de audio. Los precios se pueden encontrar en la categoría de llamadas, en streaming de audio.

Pasos siguientes

Consulte el inicio rápido de streaming de audio para más información.

Compartir a través de