Vue d’ensemble de la diffusion audio – Abonnement audio

Article
01/08/2025

Important

Les fonctionnalités décrites dans cet article sont actuellement en préversion publique. Cette préversion est fournie sans contrat de niveau de service et n’est pas recommandée pour les charges de travail de production. Certaines fonctionnalités peuvent être limitées ou non prises en charge. Pour plus d’informations, consultez Conditions d’Utilisation Supplémentaires relatives aux Évaluations Microsoft Azure.

Azure Communication Services fournit des capacités de diffusion audio bidirectionnelle, ce qui permet aux développeurs de disposer d’outils puissants pour capturer, analyser et traiter le contenu audio au cours d’appels actifs. Cette évolution ouvre la voie à de nouvelles possibilités de communication en temps réel pour les développeurs et les entreprises.

En intégrant le streaming audio bidirectionnel à des services comme Azure OpenAI et d’autres API vocales en temps réel, les entreprises peuvent obtenir une communication transparente et à faible latence. Cela améliore considérablement le développement et le déploiement de solutions d’IA conversationnelle, ce qui permet des interactions plus attrayantes et plus efficaces.

Avec la diffusion en continu bidirectionnelle, les entreprises peuvent désormais faire évoluer leurs solutions vocales vers des agents d’IA conversationnels interactifs à faible latence et de type humain. Nos API de diffusion en continu bidirectionnelle permettent aux développeurs de diffuser en temps réel le contenu audio d’un appel en cours sur Azure Communication Services vers leurs serveurs web, et de rediffuser le contenu audio dans l’appel. Bien que l’objectif initial de ces fonctionnalités soit d’aider les entreprises à créer des agents d’IA conversationnels, d’autres cas d’utilisation incluent le traitement du langage naturel pour l’analyse des conversations ou la fourniture d’insights et de suggestions en temps réel aux agents pendant qu’ils interagissent activement avec les utilisateurs finaux.

Cet préversion publique permet aux développeurs d’accéder à des flux audio en temps réel via une WebSocket à partir d’Azure Communication Services et de retransmettre l’audio lors de l’appel.

Assistance téléphonique en temps réel

Tirer parti des solutions d’IA conversationnelles : Développez des agents virtuels d’assistance à la clientèle sophistiqués qui peuvent interagir avec les clients en temps réel, en fournissant des réponses et des solutions immédiates.
Expériences client personnalisées : En exploitant les données en temps réel, les entreprises peuvent offrir des interactions en temps réel plus personnalisées et plus dynamiques avec leurs clients, ce qui se traduit par une satisfaction et une fidélité accrues.
Réduire les temps d’attente pour les clients : En utilisant des flux audio bidirectionnels avec de grands modèles de langage (LLM), vous pouvez créer des agents virtuels qui servent de premier point de contact pour les clients, ce qui réduit leur temps d’attente pour être mis en relation avec un agent humain.

Authentification

Authentification biométrique – Utiliser des flux audio pour effectuer l’authentification vocale, en exécutant l’audio de l’appel via votre moteur/outil de reconnaissance/correspondance vocale.

Exemple d’architecture illustrant l’utilisation d’un flux audio bidirectionnel pour les agents IA conversationnels

Formats pris en charge

Mixte

Contient le contenu audio mixte de tous les participants à l’appel. Tout l’audio est aplati en un seul flux.

Séparé

Contient du contenu audio par participant et par canal, avec prise en charge de quatre canaux au maximum pour quatre orateurs dominants à n’importe quel moment d’un appel. Vous obtiendrez également un participantRawID que vous pourrez utiliser pour déterminer qui est l’intervenant.

Informations supplémentaires

Les développeurs peuvent utiliser les informations suivantes sur l’audio envoyé par Azure Communication Services pour convertir les paquets audio en contenu audible pour leurs applications.

Fréquence d’images : 50 images par seconde
Débit du flux de paquets : 20 ms
Taille des paquets de données : 640 octets pour 16 000 Hz et 960 octets pour 24 000 Hz
Métrique audio : PCM mono 16 bits à 16 000 Hz et 24 000 Hz
Les données de chaîne publiques sont une chaîne au format base64 qui doit être convertie en tableau d’octets pour créer un fichier PCM brut.

Billing

Voir la page de tarification d'Azure Communication Services pour plus d'informations sur la facturation de la diffusion audio. Les prix sont indiqués dans la catégorie « appels », sous la rubrique « streaming audio ».

Étapes suivantes

Pour plus d’informations, consultez le Guide de démarrage rapide sur la diffusion audio.

Partager via